访问被 403

近期在访问某一个网站的时候,收到了 403 Forbidden 错误。

考古下,应该是下面的问题,通过 Curl 查看返回的结构后了解到应该是网站的访问被屏蔽了。

这个大概率是因为爬虫程序的问题,对方应该直接屏蔽了 IP 地址,同时还是从 cPanel 上屏蔽的。

  • 你的IP被列入黑名单。
  • 你在一定时间内过多地访问此网站(一般是用采集程序),被防火墙拒绝访问了。
  • 网站域名解析到了空间,但空间未绑定此域名。
  • 你的网页脚本文件在当前目录下没有执行权限。
  • 在不允许写/创建文件的目录中执行了创建/写文件操作。
  • 以http方式访问需要ssl连接的网址。
  • 浏览器不支持SSL 128时访问SSL 128的连接。
  • 在身份验证的过程中输入了错误的密码。
  • DNS解析错误,手动更改DNS服务器地址。
  • 连接的用户过多,可以过后再试。
  • 服务器繁忙,同一IP地址发送请求过多,遭到服务器智能屏蔽。

解决办法应该是重新更换 IP 地址,但是因为老的代码是使用 Java 写的,部署不方便。

所以想到的解决方案就是使用 Python 重写爬虫程序,把老的代码直接更换使用 Java API 处理数据。

当爬虫程序获得数据后,直接提交给后台的 Java 程序来进行处理。