这是一个创建于 775 天前的主题,其中的信息可能已经有所发展或是发生改变。
遇到下面连接这样的情况
你要获取内荣啊,基本上两个思路,一个 Selenium 模拟,另一个分析产生的网络请求然后手动模拟。前者简单,后者效率高。 |
不一致不是在反爬虫,是异步加载导致的,右键查看页面源码的时候可能没包含 JS 插进去的内容,比如 Chrome 查看源码会重新页面请求一次,你应该用审查元素来看。 |
一个是模拟浏览器实现全部加载后再解析 |
这种情况是因为网页动态加载实现的。 我不建议使用 Selenium ,因为速度太慢。我建议使用 Chrome 的检查功能来帮助你获取内容。 我在极客学院有一课专门讲了这种情况的处理方式,请看: |
活捉老师一枚哈哈哈哈~ 另外,题主是没有弄明白 js 调用在 html 页面顶多写一个 script 要的内容是动态展现的 比如我加一个 table 然后用 js 调取数据填入,这就是爬虫眼中所谓的 ajax 啦 很多时候是前端基础太差 不怪别人反扒~ |
推荐 firefox 的 httpfox ,抓包看看前台显示的东西是通过哪个请求来的 |
禅道bug优先级/系统浏览器配置,可以删除系统自带的吗?系统自带的,很多浏览器,不需要。