Scrapy框架:
Scrapy介绍
Scrapy框架官方网址:http://doc.scrapy.org/en/latest
Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。
用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便。
Scrapy 使用了 Twisted异步网络框架来处理网络通讯,可以加快我们的下载速度,不用自己去实现异步框架,并且包含了各种中间件接口,可以灵活的完成各种需求。
Scrapy是适用于Python的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。
Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等,最新版本又提供了web2.0爬虫的支持。
另外,它还拥有高性能的数据解析功能、高性能的请求发送功能、高性能的持久化存储、全站数据爬取、中间件、分布式等。
Scrapy架构图(绿线为数据流通方向)
各个模块的简单介绍
Scrapy框架的安装:
Mac版本的安装
Mac版本的安装比较简单,直接在PyCharm或者其他编辑器终端直接输入
pip install scrapy
即可!
Windows版本的安装
1、安装wheel
直接打开PyCharm终端输入
pip install wheel
命令来安装wheel工具,这个wheel工具主要是为后面的第三步所服务的。
2、下载twisted文件并执行相关操作
直接去twisted官网twisted官网下载twisted文件,进入官网后,可以按下键盘的ctrl+F搜索Twisted快速定位,具体如下图所示:
这里需要注意不同的python版本对应不同的whl文件,例如cp38则表示python3.8。
下载twisted完成后,需要进入下载目录,执行相关操作。
首先,你必须得找到你安装twisted的安装目录,我的Python版本是3.11,所以安装的是cp311版本。
pip install path/twisted_iocpsupport‑1.0.2‑cp311‑cp311‑win_amd64.whl
这里我特别提醒:如果这一步安装报错,这里需要重新去官网下载另一版本的twisted版本即可,只有前两部安装成功才可以继续安装下面的模块。
3、安装pywin32
这一步十分简单,直接在终端输入命令
pip install pywin32
即可
这一步直接下载可能需要5-6分钟,这里我使用的是清华镜像源下载,这样10秒类就可以下载完成,具体命令如下所示:
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple/ pywin32
4、安装scrapy
最后一步与第三步类似,直接在终端输入如下命令安装即可
pip install scrapy
但是可能会有些费时间,这里我仍然建议使用清华镜像源下载,具体命令如下所示:
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple/ scrapy
文章来源
发表评论