数据流的三个路径

(1)

 1.Engine从Spiders处获得爬取请求(REQUEST)

2.Engine将REQUESTS发给Scheduler,用于调度。

(2)

1.Engine从Scheduler获得下一个要爬取的请求。

2.Engine将爬取的Request通过中间件发给downloader。

3.爬取网页后,Downloader形成response通过中间件发给Engine。

4.Engine再将response通过中间件交给Spider处理。

(3)

1.Spider处理response后产生scraped items 和新的Resquests给Engine。

2.Engine将scraped items 发送给ITEM PIPLINES.

3.Engine继续将新的Request发给Scheduler用于调度。

 

 Engine:控制所有模块间的数据流,根据条件触发事件。

Downloader:根据请求下载网页。

Scheduler:对所有爬取请求进行调度管理。

Downloader Middleware:实施Engine,Scheduler和Downloader之间进行用户可配置的控制。

 Spiders:

(1)解析downloader返回的Response

(2)产生新的Request

(3)产生Scraped Item

Item PIPLINES:

(1)以流水线方式处理Spider产生的scraped items 

(2)可能操作包括:清理,检验和查重scraped items中的html数据,并存到database中。

Spider Middleware:对request和scraped items 的再处理。

Scrapy爬虫的常用命令:

 

好文链接

评论可见,请评论后查看内容,谢谢!!!
 您阅读本篇文章共花了: