​ ​

活动地址:CSDN21天学习挑战赛

        Selenium是一个用于WEB应用程序的测试工具,可以利用它在爬虫的过程中打开浏览器加载该网页,自动操作浏览器浏览各个网页,顺便将数据抓下来。也就是使用浏览器渲染的方法将爬取动态网页变成爬取静态网页。(这个降维的思想是很值得学习。)

        常用的浏览器有Firefox,Chrome,Google,Safari等等,但是注意的是,使用Selenium模块时,除了使用pip 来安装Selenium模块以外,也要安装相应的浏览器和下载此浏览器的驱动程序,并将浏览器的驱动程序放到浏览器的安装目录上。特别使用Chrome时,需要注意下载浏览器对应版本的驱动才能使用。

       由于使用Selenium要在整个网页加载出来后才开始爬取内容,速度较慢。所以我们需要控制浏览器加载的内容,从而加速爬虫的速度。常见的方法有:1)控制CSS的加载;2)控制图片文件的显示;3)控制Javascript的运行。

        一般使用selenium模块的步骤为

1)导入webdrive,并创建浏览器选项实例如chrome_options,并添加合适的参数,如“--headless”使用无界面模式。

2)通过模拟浏览器的get方法获得响应体的对象

3)通过响应体属性的方法实现元素的定位与操作。

推荐文章

评论可见,请评论后查看内容,谢谢!!!
 您阅读本篇文章共花了: