scrapy 环境搭建

Yishto 2021-08-20 21:46:39
Categories: Tags:

1、安装最新的pip

1
2
pip install pip -U

或者

1
2
pip3 install pip -U

2、 设置清华源

1
2
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple

3、安装virtualenv

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
# 安装 virtualenv
pip install virtualenv

# 创建目录
mkdir myproject
cd myproject/

# 创建一个独立的Python运行环境,命名为venv
# 查看版本是否>20
virtualenv --version
# <20:
virtualenv --no-site-packages venv
# >20:
virtualenv venv

#新建的Python环境被放到当前目录下的venv目录。有了venv这个Python环境,可以用source进入该环境:
source venv/bin/activate
# 注意到命令提示符变了,有个(venv)前缀,表示当前环境是一个名为venv的Python环境。

#下面正常安装各种第三方包,并运行python命令:

#退出当前的venv环境,使用deactivate命令:
deactivate

# 此时就回到了正常的环境,现在pip或python均是在系统Python环境下执行。

# virtualenvwrapper 常用命令:
workon: 列出虚拟环境列表
lsvirtualenv: 同上
mkvirtualenv: 新建虚拟环境
workon [虚拟环境名称]: 切换虚拟环境
rmvirtualenv: 删除虚拟环境
deactivate: 离开虚拟环境

4、wheel

wheel 是python中的解包和打包工具,因此有必要安装到全局环境中,有些模块使用pip安装总是失败,可以尝试先下载whl文件,再使用wheel本地安装的方式安装。

1
2
pip install wheel

5、安装 scrapy

1
2
pip install scrapy

6、创建一个项目

1
2
scrpay startproject article

7、创建爬虫脚本

1
2
scrapy genspider juzikong  juzikong.com

8.编写scrapy 爬虫项目

8.1 编写items.py

2.2 spiders下的 juzikong.py 文件

2.3 编写pipelines.py文件

2.4 打开settings.py 文件更改配置

启用管道文件

3.运行项目

1
2
scrapy crawl juzikong

总结一下scrapy 项目没什么,记住四步走

第一步:编写items.py

第二步:编写spiders下的 demo.py 文件

第三步:编写pipelines.py文件

第四步:打开settings.py 文件更改配置