网站首页 > 后端 > 正文

深度剖析Selenium与Scrapy的黄金组合：实现动态网页爬虫

少儿编程一共有几级后端 2024-05-31 7 0

在当今互联网时代，大量网站采用动态网页技术呈现信息，这给爬虫技术提出了新的挑战。本文将带您深入探讨如何应对动态网页的爬取难题，结合Python爬虫框架Scrapy和自动化测试工具Selenium进行实战，为您揭示动态网页爬取的技术奥秘。

动态网页与传统爬虫的对比

传统爬虫主要通过直接请求页面获取静态源代码，但动态网页通过JavaScript等技术在浏览器中进行数据加载，导致源代码不完整。解决这一问题的利器是结合Scrapy和Selenium，使我们能够模拟浏览器操作，获取完整渲染后的页面数据。

Scrapy与Selenium的黄金组合

Scrapy是Python中强大的爬虫框架，拥有强大的页面解析和异步处理功能。结合Selenium，我们能够模拟用户在浏览器中的交互，获取动态加载后的页面内容。这两者的协同工作，为动态网页爬取提供了一种高效可行的解决方案。

实战经验总结

在实际应用中，首先确保Scrapy和Selenium已正确安装，并配置好ChromeDriver等必要工具。接着，创建Scrapy项目，添加Selenium中间件，进而实现动态网页的爬取。

具体实现过程

Selenium中间件：穿越动态网页的障碍

在middlewares.py文件中，我们设置了Selenium的中间件，为Scrapy赋予了穿越动态网页障碍的能力。这段代码展示了如何利用Selenium模拟浏览器操作，获取完整渲染后的页面数据。让我们逐步解析这个神奇的中间件。

# 在middlewares.py文件中设置Selenium的中间件

from scrapy import signals

from scrapy.http import HtmlResponse

from selenium import webdriver

class SeleniumMiddleware:

@classmethod

def from_crawler(cls, crawler):

middleware = cls()

crawler.signals.connect(middleware.spider_opened, signals.spider_opened)

return middleware

def process_request(self, request, spider):

driver = webdriver.Chrome()

driver.get(request.url)

body = driver.page_source

return HtmlResponse(driver.current_url, body=body, encoding='utf-8', request=request)

def spider_opened(self, spider):

spider.logger.info('Spider opened: %s' % spider.name)

process_request方法中，我们创建了一个Chrome浏览器的实例，加载目标网页，获取完整的页面源代码，然后封装成HtmlResponse对象返回给Scrapy。spider_opened方法用于在Spider启动时输出一条日志信息，以便我们追踪Spider的运行情况。

动态网页爬虫：解析并收割信息的艺术

动态网页爬虫的代码段展示了如何创建一个名为dynamic_spider.py的文件，实现基于Scrapy框架的动态网页爬取。这个Spider将从’example.com’开始，通过XPath表达式解析页面，提取标题和内容，并将结果保存在指定的item中。

import scrapy

from scrapy.http import Request

from dynamic_spider.items import DynamicSpiderItem

class DynamicSpider(scrapy.Spider):

name = 'dynamic_spider'

start_urls = ['http://example.com']

def start_requests(self):

proxyHost = "www.16yun.cn"

proxyPort = "5445"

proxyUser = "16QMSOML"

proxyPass = "280651"

proxy_url = f"http://{proxyUser}:{proxyPass}@{proxyHost}:{proxyPort}"

yield Request(self.start_urls[0], callback=self.parse, meta={'proxy': proxy_url})

def parse(self, response):

item = DynamicSpiderItem()

item['title'] = response.xpath('//h1/text()').get()

item['content'] = response.xpath('//p/text()').get()

yield item

parse方法中，我们使用XPath表达式提取了目标网页中的标题和内容，然后将结果封装成一个item，并通过yield语句传递给Scrapy框架。

实际应用：将代码放置于Scrapy项目中

在实际应用中，将上述两段代码分别放置在Scrapy项目的middlewares.py和spiders文件夹下的dynamic_spider.py文件中，即可运行动态网页爬虫。

5. 性能优化与注意事项

设置合理的爬取速度控制爬取速度，避免对目标网站造成不必要的负担，同时可以设置随机的User-Agent来模拟不同用户的访问。处理动态加载的数据使用Selenium等待特定的元素加载完成，确保数据完全呈现在页面上再进行提取。应对反爬手段一些网站采用反爬虫技术，通过设置User-Agent、Cookie等信息来检测爬虫行为，需要在爬虫中模拟真实用户的访问行为。

---------------------------END---------------------------

题外话

感兴趣的小伙伴，赠送全套Python学习资料，包含面试题、简历资料等具体看下方。

CSDN大礼包：全网最全《Python学习资料》免费赠送！（安全链接，放心点击）

一、Python所有方向的学习路线

Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照下面的知识点去找对应的学习资源，保证自己学得较为全面。

二、Python兼职渠道推荐*

学的同时助你创收，每天花1-2小时兼职，轻松稿定生活费.

三、最新Python学习笔记

当我学到一定基础，有自己的理解能力的时候，会去阅读一些前辈整理的书籍或者手写的笔记资料，这些笔记详细记载了他们对一些技术点的理解，这些理解是比较独到，可以学到不一样的思路。

四、实战案例

纸上得来终觉浅，要学会跟着视频一起敲，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

CSDN大礼包：全网最全《Python学习资料》免费赠送！（安全链接，放心点击）

若有侵权，请联系删除

精彩内容

评论可见，请评论后查看内容，谢谢！！！

您阅读本篇文章共花了：

selenium scrapy 爬虫

本文由用户于 2024-05-31 发布在金钥匙，如有疑问，请联系我们。
本文链接：https://www.51969.com/post/18634743.html

金钥匙

深度剖析Selenium与Scrapy的黄金组合：实现动态网页爬虫

游戏引擎 Unity VR Interaction Framework+VIVE Cosmos（完美组合）

python爬虫 - Scrapy＞=2.9.0出现 “AttributeError: ‘AsyncioSelectorReactor‘ object has no attribute ‘

发表评论取消回复

金钥匙

深度剖析Selenium与Scrapy的黄金组合：实现动态网页爬虫

游戏引擎 Unity VR Interaction Framework+VIVE Cosmos（完美组合）

python爬虫 - Scrapy＞=2.9.0出现 “AttributeError: ‘AsyncioSelectorReactor‘ object has no attribute ‘

相关文章

发表评论取消回复