1、安装最新的pip
1 | pip install pip -U |
或者
1 | pip3 install pip -U |
2、 设置清华源
1 | pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple |
3、安装virtualenv
1 | # 安装 virtualenv |
4、wheel
wheel 是python中的解包和打包工具,因此有必要安装到全局环境中,有些模块使用pip安装总是失败,可以尝试先下载whl文件,再使用wheel本地安装的方式安装。
1 | pip install wheel |
5、安装 scrapy
1 | pip install scrapy |
6、创建一个项目
1 | scrpay startproject article |
7、创建爬虫脚本
1 | scrapy genspider juzikong juzikong.com |
8.编写scrapy 爬虫项目
8.1 编写items.py
- 这里是我们想要采集的数据字段
2.2 spiders下的 juzikong.py 文件
- 这里是我们写爬虫的主要实现逻辑
2.3 编写pipelines.py文件
2.4 打开settings.py 文件更改配置
启用管道文件
3.运行项目
1 | scrapy crawl juzikong |
总结一下scrapy 项目没什么,记住四步走
第一步:编写items.py
第二步:编写spiders下的 demo.py 文件
第三步:编写pipelines.py文件
第四步:打开settings.py 文件更改配置