数据流的三个路径
(1)
1.Engine从Spiders处获得爬取请求(REQUEST)
2.Engine将REQUESTS发给Scheduler,用于调度。
(2)
1.Engine从Scheduler获得下一个要爬取的请求。
2.Engine将爬取的Request通过中间件发给downloader。
3.爬取网页后,Downloader形成response通过中间件发给Engine。
4.Engine再将response通过中间件交给Spider处理。
(3)
1.Spider处理response后产生scraped items 和新的Resquests给Engine。
2.Engine将scraped items 发送给ITEM PIPLINES.
3.Engine继续将新的Request发给Scheduler用于调度。
Engine:控制所有模块间的数据流,根据条件触发事件。
Downloader:根据请求下载网页。
Scheduler:对所有爬取请求进行调度管理。
Downloader Middleware:实施Engine,Scheduler和Downloader之间进行用户可配置的控制。
Spiders:
(1)解析downloader返回的Response
(2)产生新的Request
(3)产生Scraped Item
Item PIPLINES:
(1)以流水线方式处理Spider产生的scraped items
(2)可能操作包括:清理,检验和查重scraped items中的html数据,并存到database中。
Spider Middleware:对request和scraped items 的再处理。
Scrapy爬虫的常用命令:
好文链接
发表评论