爬数据,被反爬虫了,这种情况有什么好的解决方法,以淘宝为例:
我真的吃相也没很难看,特么数据爬一半就断了。怎么改代码才能不容易被封杀。
本版专家分:32612
本版专家分:33325
做好代码安全就好了。万一有特别的页面,控制用户等级权限访问即可
本版专家分:19754
程序上用平常的方式不太行。
程序上实现的话,最好另走道路。
不过通过服务器的设置似乎也可以实现。
本版专家分:33325
倒没做过这方面的,但是我觉得这个不现实
如果说提交给服务器的数据都是从浏览器这里来,那么防止抓包就不可能,同样阻止数据模拟提交就不可能
content-length是一个思路。不过不太确定有gzip的时候管不管用。而且可能有部分网页没有设这个header。
但是我觉得更复杂的方案也不值得考虑。
urlopen的返回结果可以close。不过不手动关也没什么大问题。
还有用了这条语句connection就关闭了。奇怪。
如果网页没有获取完整state的值就不是200了吗?