近期在访问某一个网站的时候,收到了 403 Forbidden 错误。
考古下,应该是下面的问题,通过 Curl 查看返回的结构后了解到应该是网站的访问被屏蔽了。
这个大概率是因为爬虫程序的问题,对方应该直接屏蔽了 IP 地址,同时还是从 cPanel 上屏蔽的。
- 你的IP被列入黑名单。
- 你在一定时间内过多地访问此网站(一般是用采集程序),被防火墙拒绝访问了。
- 网站域名解析到了空间,但空间未绑定此域名。
- 你的网页脚本文件在当前目录下没有执行权限。
- 在不允许写/创建文件的目录中执行了创建/写文件操作。
- 以http方式访问需要ssl连接的网址。
- 浏览器不支持SSL 128时访问SSL 128的连接。
- 在身份验证的过程中输入了错误的密码。
- DNS解析错误,手动更改DNS服务器地址。
- 连接的用户过多,可以过后再试。
- 服务器繁忙,同一IP地址发送请求过多,遭到服务器智能屏蔽。
解决办法应该是重新更换 IP 地址,但是因为老的代码是使用 Java 写的,部署不方便。
所以想到的解决方案就是使用 Python 重写爬虫程序,把老的代码直接更换使用 Java API 处理数据。
当爬虫程序获得数据后,直接提交给后台的 Java 程序来进行处理。
