01 数据库
- 01 MySQL
  - 01 性能调优-基础版
    - 01如何发现有问题的SQL
    - 02 索引的优化方法
    - 03 其它优化方法
    - 04 表的拆分优化
  - 02 性能调优-晋级版
    - 01 缓存参数优化
    - 02 表结构优化
    - 03 索引优化
    - 04 SQL优化
    - 05 存储引擎选择

02 数据结构与算法
- index

03 docker
- commit 镜像
- docker 镜像命令
- docker 容器命令
- docker 概述
- index
- 可视化-portainer
- 容器数据卷
- 常用其他命令

04 golang
- G-0.相关Blog
- go module
- goAdmin
- golang 交叉编译, 编译为多端程序
- golang 读取文件的四种方式
- golang-获取当前的内存状态
- interface 转化为 int
- web
  - Gin web 开发
  - go import导入的理解
- 常用函数
- 性能分析
  - Gin Web 框架集成pprof
  - Golang内存泄漏问题分析
  - 读懂火焰图
- 获取IP归属地
- 软件破解
- 遍历struct (遍历结构体)

05 Nginx
- Nginx 中last和break 及 permanent 和 redirect 的爱恨情仇
- Nginx 之If判断条件
- Nginx 配置A、B 测试
- https认证效率低
- lua学习笔记
- mac 上安装openresty
- nginx $1,2,3的含义
- nginx 详解
- nginx 超时时间
- nginx 软加载原理
- nginx总结
- nginx编译安装之- configure 参数详解
- nginx隐藏版本号server_tokens
- openresty的lua_package_path
- php与nginx
- ratelimit.lua
- 一次http请求，谁会先断开TCP连接？什么情况下客户端先断，什么情况下服务端先断？
- 什么是awk中的“NR == FNR”？
- 关于文件描述
- 并行、并发、多线程、多进程、协程到底啥关系？
- 待整理
- 轻松理解：正向代理、反向代理、负载均衡
- 那些年让你迷惑的阻塞、非阻塞、异步、同步

06 python
- protia
  - 无标题笔记
- scrapy
  - scrapy 环境搭建
  - scrapy 设置请求Referer
  - scrapy
  - scrapyed
  - 读取配置文件
- selenium
  - selenium 自动化
  - 判断获取元素
- 基础知识
  - Python-Json模块用法详解
  - python中with的用法
  - 继承 object
  - 详解Python中字符串前“b”,“r”,“u”,“f”的作用
- 扩展
  - ConfigParser
  - Selenium, Browsermob-Proxy 抓取浏览器network console的HAR
  - browsermob-proxy
  - chromedriver
- 模拟终端操作

07 其他
- cookie session
- get post区别。还有什么其他方法。分别说说是做什么的。
- http 和 https区别
- https详细过程
- session如何存储
- sync.WaitGroup
- web安全问题。
- 什么是分布式系统
- 多台服务器session存储怎么设计。
- 手撕代码 LRU
- 手撕代码反转连表
- 手撕代码生产者消费者模型
- 由上面分布式系统引出负载均衡
- 缓存击穿缓存雪崩
- 设计一个短链接服务。如何抗住大qps，抗大流量。url 哈希函数怎么设计（怎么存，怎么统计qps）
- 设计学生成绩数据库，并写出查询语文成绩top3的人。 url输入全过程。从此引出后端除了响应请求还有什么。
- 负载均衡算法有哪些
- 除了存redis 还能怎么存
- B+树结构 and 为什么
- GMP 模型
- Linux grep命令查找日志文件相关内容
- go slice 和 array 区别
- golang channel关闭后，是否可以读取剩余的数据
- io多路复用，epoll和select的区别
- tcp 保证可靠性
- 一致性哈希算法深挖。一致性哈希与普通哈希的区别。
- 分布式缓存框架，singleflight 并发，深挖，一直挖到sync.WaitGroup
- 目录表
- 算法题：三数之和
- 线程怎么调度
- 计网七层协议、线程进程区别
- 进程通信方法

scrapy 环境搭建

Yishto 2021-08-20 21:46:39

Categories： Tags：

1、安装最新的pip

1 2	pip install pip -U

或者

1 2	pip3 install pip -U

2、设置清华源

1 2	pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple

3、安装virtualenv

# 安装 virtualenv
pip install virtualenv

# 创建目录
mkdir myproject
cd myproject/

# 创建一个独立的Python运行环境，命名为venv
# 查看版本是否>20：
virtualenv --version
# <20:
virtualenv --no-site-packages venv
# >20:
virtualenv  venv  

#新建的Python环境被放到当前目录下的venv目录。有了venv这个Python环境，可以用source进入该环境：
source venv/bin/activate
# 注意到命令提示符变了，有个(venv)前缀，表示当前环境是一个名为venv的Python环境。

#下面正常安装各种第三方包，并运行python命令：

#退出当前的venv环境，使用deactivate命令：
deactivate 

# 此时就回到了正常的环境，现在pip或python均是在系统Python环境下执行。

# virtualenvwrapper 常用命令：
workon: 列出虚拟环境列表
lsvirtualenv: 同上
mkvirtualenv: 新建虚拟环境
workon [虚拟环境名称]: 切换虚拟环境
rmvirtualenv: 删除虚拟环境
deactivate: 离开虚拟环境

4、wheel

wheel 是python中的解包和打包工具，因此有必要安装到全局环境中，有些模块使用pip安装总是失败，可以尝试先下载whl文件，再使用wheel本地安装的方式安装。

1 2	pip install wheel

5、安装 scrapy

1 2	pip install scrapy

6、创建一个项目

1 2	scrpay startproject article

7、创建爬虫脚本

1 2	scrapy genspider juzikong juzikong.com

8.编写scrapy 爬虫项目

8.1 编写items.py

这里是我们想要采集的数据字段

2.2 spiders下的 juzikong.py 文件

这里是我们写爬虫的主要实现逻辑

2.3 编写pipelines.py文件

2.4 打开settings.py 文件更改配置

启用管道文件

3.运行项目

1 2	scrapy crawl juzikong

总结一下scrapy 项目没什么，记住四步走

第一步：编写items.py

第二步：编写spiders下的 demo.py 文件

第三步：编写pipelines.py文件

第四步：打开settings.py 文件更改配置

scrapy 设置请求Referer