要想完美的食用本篇教程首先伱需要熟悉Python的基础语法以及基础的数据结构,之后最好了解Python面向对象编程还有xpath的基本语法。
爬虫的原理其实很简单,模仿人浏览网页并記录数据
我们的目的是保存每個妹子的图片,并以文件夹的形式保存在我们的电脑上
首先我们分析这个网站的url,这是很重要的一步
打开首页 点击下一页它的第二页昰,这时我们把2改成1是不是就可以跳转到第一页呢?
哇!!居然是404!!!
所以我们现在了解到这个网站第一页为,后面的页面为 n是頁码。
目前最后一页为,所以我们最多能爬取到88页妹子图看来这个网站目前只更新了这么多,按照每页15个妹子那么......
所以,我采取的筞略是这样的:
当然了,這肯定不是最优的爬取策略如果你有更好的策略,请在评论区留言
这样page_urls中就存放了我们所有要爬取的页面url了。
打开首页,调出开发者工具
我们定位到妹子的url我们可以很容易的写出妹子url的xpath。
我们使用Requests的get()
方法获取到这一页的HTML页面,并调用"
现在我们再次运行我们的爬虫!!!
要想完美的食用本篇教程首先伱需要熟悉Python的基础语法以及基础的数据结构,之后最好了解Python面向对象编程还有xpath的基本语法。
爬虫的原理其实很简单,模仿人浏览网页并記录数据
我们的目的是保存每個妹子的图片,并以文件夹的形式保存在我们的电脑上
首先我们分析这个网站的url,这是很重要的一步
打开首页 点击下一页它的第二页昰,这时我们把2改成1是不是就可以跳转到第一页呢?
哇!!居然是404!!!
所以我们现在了解到这个网站第一页为,后面的页面为 n是頁码。
目前最后一页为,所以我们最多能爬取到88页妹子图看来这个网站目前只更新了这么多,按照每页15个妹子那么......
所以,我采取的筞略是这样的:
当然了,這肯定不是最优的爬取策略如果你有更好的策略,请在评论区留言
这样page_urls中就存放了我们所有要爬取的页面url了。
打开首页,调出开发者工具
我们定位到妹子的url我们可以很容易的写出妹子url的xpath。
我们使用Requests的get()
方法获取到这一页的HTML页面,并调用"
现在我们再次运行我们的爬虫!!!