python `1.4 SCRAPY爬虫框架介绍

数据流的三个路径

(1)

1.Engine从Spiders处获得爬取请求（REQUEST)

2.Engine将REQUESTS发给Scheduler，用于调度。

（2）

1.Engine从Scheduler获得下一个要爬取的请求。

2.Engine将爬取的Request通过中间件发给downloader。

3.爬取网页后，Downloader形成response通过中间件发给Engine。

4.Engine再将response通过中间件交给Spider处理。

（3）

1.Spider处理response后产生scraped items 和新的Resquests给Engine。

2.Engine将scraped items 发送给ITEM PIPLINES.

3.Engine继续将新的Request发给Scheduler用于调度。

Engine：控制所有模块间的数据流，根据条件触发事件。

Downloader:根据请求下载网页。

Scheduler：对所有爬取请求进行调度管理。

Downloader Middleware:实施Engine，Scheduler和Downloader之间进行用户可配置的控制。

Spiders：

(1)解析downloader返回的Response

(2)产生新的Request

(3)产生Scraped Item

Item PIPLINES:

(1)以流水线方式处理Spider产生的scraped items

(2)可能操作包括：清理，检验和查重scraped items中的html数据，并存到database中。

Spider Middleware：对request和scraped items 的再处理。

Scrapy爬虫的常用命令:

好文链接

评论可见，请评论后查看内容，谢谢！！！

您阅读本篇文章共花了：

金钥匙