python 开发语言 scrapy：快速入门

1. 安装

2. 项目创建与运行

3. 项目组织架构

4. 工作原理

5. 案例-百度首页

创建爬虫的项目【scrapy startproject 项目的名字】注意：项目的名字不允许使用数字开头也不能包含中文创建爬虫文件要在spiders文件夹中去创建爬虫文件【cd 项目的名字\项目的名字\spiders】 cd scrapy_baidu_091\scrapy_baidu_091\spiders 创建爬虫文件【scrapy genspider 爬虫文件的名字要爬取网页】 eg：scrapy genspider baidu http://www.baidu.com 一般情况下不需要添加http协议因为start_urls的值是根据allowed_domains 修改的所以添加了http的话那么start_urls就需要我们手动去修改了运行爬虫代码【scrapy crawl 爬虫的名字】 eg：scrapy crawl baidu [可选]scrapy shell 调试进入到scrapy shell的终端直接在window的终端中输入【scrapy shell 域名】如果想看到一些高亮或者自动补全那么可以安装ipython pip install ipython 例如scrapy shell www.baidu.com

6. 案例-58同城

scrapy项目的结构项目名字项目名字 spiders文件夹 (存储的是爬虫文件) init 自定义的爬虫文件(核心功能文件) init items 定义数据结构的地方爬取的数据都包含哪些 middleware 中间件代理 pipelines 管道用来处理下载的数据 settings 配置文件 robots协议 ua定义等 response的属性和方法 response.text 获取的是响应的字符串 response.body 获取的是二进制数据 response.xpath 可以直接是xpath方法来解析response中的内容 response.extract() 提取seletor对象的data属性值 response.extract_first() 提取的seletor列表的第一个数据

7. 案例-汽车之家

精彩链接

评论可见，请评论后查看内容，谢谢！！！

您阅读本篇文章共花了：

金钥匙

python 开发语言 scrapy：快速入门

Scrapy全站爬取(多页数据采集)

Python爬虫选型——Scrapy

发表评论取消回复

金钥匙

python 开发语言 scrapy：快速入门

Scrapy全站爬取(多页数据采集)

Python爬虫选型——Scrapy

相关文章

发表评论取消回复