报错信息中有个ip,在本地ping一下发现能ping通,所以不是网络问题。

 错误信息再仔细看一下,定位错误原因。这个错误是由于无法连接到AMQP(高级消息队列协议)服务器引起的。AMQPConnectionError表示无法与AMQP服务器建立连接。一般报错多在配置文件的,解决起来很复杂,优先考虑代码是否有问题。

一开始我以为是pika版本问题,所以从1.3系列降到1.1系列,但还是一样的报错。

现在开始排查代码。首先,检查到在url中添加域名时http写成了https,以后在书写时要注意爬取网站的url是否准确。

然后,telnet 报错信息提到的端口,试过之后端口打不开,可能是官网有限制,所以我在pipelines.py文件里注释掉报错信息提到的connection属性的相关代码。此报错解决了,但是爬虫依旧不能运行。于是继续排查。

然后发现,代码在用到selenium的wait_time时class必须填写页面存在的,所以返回要爬取的页面检查,换了已存在的class。(页面上选一个要采集的数据所在的div的class就可以了)

爬虫可以正常运行了,接下来就是完善和修改具体的需求。

文章来源

评论可见,请评论后查看内容,谢谢!!!
 您阅读本篇文章共花了: