网站首页 > 后端 > 正文

1024程序员节 scrapy的安装和使用

前端可以做软件吗后端 2024-01-03 15 0

一、scrapy是什么：Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架，可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序

二、scrapy的安装：pip install scrapy -i https://pypi.douban.com/simple

三、scrapy项目的创建以及运行

1.win+r 进入终端

cd C:\Users\malongqiang\PycharmProjects\pythonProject\ 爬虫练习1018

注意：路径最好是你python代码放置路径（cd + 选中文件夹拉入终端）

2.创建scrapy_baidu_1024文件：scrapy startproject scrapy_baidu_1024

3.创建后的结果：

4.进入spiders文件夹下：cd scrapy_baidu_1024\scrapy_baidu_1024\spiders

5.创建爬虫文件baidu.py：scrapy genspider baidu http://www.baidu.com

6.baidu.py的内容：

7.写入要打印的内容：my love

8.运行爬虫文件(baidu):scrapy crawl baidu

9.没有结果，爬取失败，原因如下：robots.txt协议不让爬

10.解决办法：找到该目录下的settings注释ROBOTSTXT_OBEY = True

11.重新运行指令,打印出来结果

四、scrapy shel1?

scrapy终端，是一个交互终端，供您在未启动spider的情况下尝试及调试您的爬取代码。其本意是用来测试提取数据的代码，不过您可以将其作为正常的Python终端，在上面测试任何的Python代码该终端是用来测试xPath或CSs表达式，查看他们的工作方式及从爬取的网页中提取的数据。在编写您的spider时，该终端提供了交互性测试您的表达式代码的功能，免去了每次修改后运行spider的麻烦。-旦熟悉了scrapy终端后，您会发现其在开发和调试spider时发挥的巨大作用。

1.进入你的python安装目录下的Scripts文件夹下：安装ipython(pip install ipython -i https://pypi.douban.com/simple)

2.打开终端输入：scrapy shell www.baidu.com

3.使用response.body来获取响应体的内容：

4.解析为文本，可以使用response.text属性，它将自动将字节字符串转换为文本字符串

5.查看url和状态码

五、scrapy相关内容资料:

文章来源

评论可见，请评论后查看内容，谢谢！！！

您阅读本篇文章共花了：

1024程序员节

本文由用户于 2024-01-03 发布在金钥匙，如有疑问，请联系我们。
本文链接：https://www.51969.com/post/17813849.html

金钥匙

1024程序员节 scrapy的安装和使用

玩转 Scrapy 框架 (一)：Scrapy 框架介绍及使用入门

个人开发 scrapy Python爬虫---2（实例练习）

发表评论取消回复

金钥匙

1024程序员节 scrapy的安装和使用

玩转 Scrapy 框架 (一)：Scrapy 框架介绍及使用入门

个人开发 scrapy Python爬虫---2（实例练习）

相关文章

发表评论取消回复