Scrapy框架:

Scrapy介绍

Scrapy框架官方网址:http://doc.scrapy.org/en/latest

Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。

用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便。

Scrapy 使用了 Twisted异步网络框架来处理网络通讯,可以加快我们的下载速度,不用自己去实现异步框架,并且包含了各种中间件接口,可以灵活的完成各种需求。

Scrapy是适用于Python的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。

Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等,最新版本又提供了web2.0爬虫的支持。

另外,它还拥有高性能的数据解析功能、高性能的请求发送功能、高性能的持久化存储、全站数据爬取、中间件、分布式等。

Scrapy架构图(绿线为数据流通方向)

各个模块的简单介绍

Scrapy框架的安装:

Mac版本的安装

Mac版本的安装比较简单,直接在PyCharm或者其他编辑器终端直接输入

pip install scrapy

即可!

Windows版本的安装

1、安装wheel

直接打开PyCharm终端输入

pip install wheel

命令来安装wheel工具,这个wheel工具主要是为后面的第三步所服务的。

2、下载twisted文件并执行相关操作

直接去twisted官网twisted官网下载twisted文件,进入官网后,可以按下键盘的ctrl+F搜索Twisted快速定位,具体如下图所示:

这里需要注意不同的python版本对应不同的whl文件,例如cp38则表示python3.8。

下载twisted完成后,需要进入下载目录,执行相关操作。

首先,你必须得找到你安装twisted的安装目录,我的Python版本是3.11,所以安装的是cp311版本。

pip install path/twisted_iocpsupport‑1.0.2‑cp311‑cp311‑win_amd64.whl

这里我特别提醒:如果这一步安装报错,这里需要重新去官网下载另一版本的twisted版本即可,只有前两部安装成功才可以继续安装下面的模块。

3、安装pywin32

这一步十分简单,直接在终端输入命令

pip install pywin32

即可

这一步直接下载可能需要5-6分钟,这里我使用的是清华镜像源下载,这样10秒类就可以下载完成,具体命令如下所示:

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple/ pywin32

4、安装scrapy

最后一步与第三步类似,直接在终端输入如下命令安装即可

pip install scrapy

但是可能会有些费时间,这里我仍然建议使用清华镜像源下载,具体命令如下所示:

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple/ scrapy

文章来源

评论可见,请评论后查看内容,谢谢!!!
 您阅读本篇文章共花了: