一、scrapy是什么:Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序

二、scrapy的安装:pip install scrapy -i https://pypi.douban.com/simple

三、scrapy项目的创建以及运行

1.win+r 进入终端

cd C:\Users\malongqiang\PycharmProjects\pythonProject\ 爬虫练习1018

注意:路径最好是你python代码放置路径(cd + 选中文件夹拉入终端)

2.创建scrapy_baidu_1024文件:scrapy startproject scrapy_baidu_1024

3.创建后的结果:

4.进入spiders文件夹下:cd scrapy_baidu_1024\scrapy_baidu_1024\spiders

5.创建爬虫文件baidu.py:scrapy genspider baidu http://www.baidu.com

6.baidu.py的内容:

7.写入要打印的内容:my love

8.运行爬虫文件(baidu):scrapy crawl baidu

9.没有结果,爬取失败,原因如下:robots.txt协议不让爬

10.解决办法:找到该目录下的settings注释ROBOTSTXT_OBEY = True

11.重新运行指令,打印出来结果

四、scrapy shel1?

 scrapy终端,是一个交互终端,供您在未启动spider的情况下尝试及调试您的爬取代码。 其本意是用来测试提取数据的代码,不过您可以将其作为正常的Python终端,在上面测试任何的Python代码该终端是用来测试xPath或CSs表达式,查看他们的工作方式及从爬取的网页中提取的数据。在编写您的spider时,该终端提供了交互性测试您的表达式代码的功能,免去了每次修改后运行spider的麻烦。-旦熟悉了scrapy终端后,您会发现其在开发和调试spider时发挥的巨大作用。

1.进入你的python安装目录下的Scripts文件夹下:安装ipython(pip install ipython -i https://pypi.douban.com/simple)

2.打开终端输入:scrapy shell www.baidu.com

3.使用response.body来获取响应体的内容:

4.解析为文本,可以使用response.text属性,它将自动将字节字符串转换为文本字符串

5.查看url和状态码

五、scrapy相关内容资料:

文章来源

评论可见,请评论后查看内容,谢谢!!!
 您阅读本篇文章共花了: