网站首页 > 后端 > 正文

爬虫---scrapy结构介绍及response的属性和方法-scrapy

数据分析一般用什么软件后端 2024-05-13 5 0

【注】注释掉settings文件中的君子协议

import scrapy

class TcSpider(scrapy.Spider):

name = "tc"

allowed_domains = ["nj.58.com"]

start_urls = ["https://nj.58.com/sou/?key=%E5%89%8D%E7%AB%AF%E5%BC%80%E5%8F%91"]

def parse(self, response):

content = response.text #响应的是字符串

# content =response.body #响应的是二进制文件

print('************************')

print(content)

# //div[@id="filter"]/div[@class="tabs"]/a/span

# //div[@id="infolist"]//td[@class="t"]/a/@title

content = response.xpath('//div[@id="infolist"]//td[@class="t"]/a/@title') #xpath方法的返回值类型是selector列表

print('**********************************')

print(content.extract())

在终端中运行：scrapy crawl tc(爬虫名称)

首先要进入spiders路径下

D:\PycharmFile> cd 爬虫学习 D:\PycharmFile\爬虫学习> cd scrapy_092_58tc/scrapy_092_58tc/spiders D:\PycharmFile\爬虫学习\scrapy_092_58tc\scrapy_092_58tc\spiders> scrapy crawl tc

运行结果：

response的属性和方法及scrapy项目结构分析总结

1.scrapy项目的结构

项目名字

spider文件夹 #存储的是爬虫文件

init

自定义的爬虫文件 #核心功能文件 ######****#####

init

items #定义数据结构的地方爬取的数据都包含哪些

middleware #中间件代理

pipelines #管道用来处理下载的数据

settings #配置文件 robots协议 ua定义等

2.response的属性和方法

# content = response.text #响应的是字符串

# content =response.body #响应的是二进制文件

# content = response.xpath(‘’) #可以直接使用xpath方法来解析response中的内容 xpath方法的返回值类型是selector列表

# response.extract() #提取的是selector对象的是data

# response.extract_first() #提取的是selector列表中的第一个数据

好文链接

评论可见，请评论后查看内容，谢谢！！！

您阅读本篇文章共花了：

爬虫 scrapy

本文由用户于 2024-05-13 发布在金钥匙，如有疑问，请联系我们。
本文链接：https://www.51969.com/post/18870895.html

金钥匙

爬虫---scrapy结构介绍及response的属性和方法-scrapy

Python爬虫——Scrapy框架使用实例及执行过程

python 开发语言使用Scrapy爬取去哪儿网游记数据并保存（超详细）

发表评论取消回复

金钥匙

爬虫---scrapy结构介绍及response的属性和方法-scrapy

Python爬虫——Scrapy框架使用实例及执行过程

python 开发语言 使用Scrapy爬取去哪儿网游记数据并保存（超详细）

相关文章

发表评论取消回复

python 开发语言使用Scrapy爬取去哪儿网游记数据并保存（超详细）