前言 前面学习了urllib和beautifulsoup来进行数据采集,相信大家都有了一些基础如果没有,请看预備阅读今天来做一个有趣的数据采集,就是遍历一个域名
最近看了一下六度分隔理论,所以今天用Python来实现“六度分隔理论”的查找方法的基础部分
所谓的“六度分隔理论”,是指世界上任意两个人要想建立联系最多只需要通过6个人的介绍就能够实现。但根据美国社茭网站Facebook最近进行的一项研究人与人之间的联系相对于以往变得更为紧密,目前只需要4个人的就能把两个互不相识的人联系起来
1994年,根據约翰·瓜尔(John Guare)的同名戏剧改编的电影《六度分隔》(Six Degrees OfSeparation)上映“六度分隔理论”得以重新回在人们的视野之中。
同年演员凯文·贝肯宣称在他漫长而丰富的职业生涯中,他和好莱坞的每一个人都合作过,并因此诞生了一个新的术语——“凯文·贝肯六度理论”。
“维基百科六度分隔理论”
上文提到了凯文·贝肯,根据资料显示,埃里克·艾德尔和布兰登·弗雷泽都出现在电影《骑警杜德雷》里面布兰登·弗雷泽又和凯文·贝肯同时出现在电影《我呼吸的空气里》。因此,根据这两个条件,从埃里克·艾德尔到凯文·贝肯的链条主题长度只有3。
上面需要注意的是导入需要的Python库之后,程序首先做的就是用系统当前时间生成一个随机数生成器这样可以保证每次在运行程序的時候,维基百科词条的选择都是一个全新的随机路径
其他执行过程,上面说的很详细了一一对照即可,这里今天先把最基础的内容構建从一个页面到另一个页面的爬虫,要解决“维基百科六度分隔理论”还有一部分要做由于时间问题,今天只能讲到这里更多精彩,敬请期待
小结 这里我们重新复习了一下urllib和BeautifulSoup以及正则的用法,加深我们对之前知识的了解提高问题解决能力,也提出了一个问题希朢感兴趣的同学可以先看看,后面还有高级内容哦
希望通过上面的内容能帮助大家。如果你有什么好的意见建议,或者有不同的看法我都希望你留言和我们进行交流、讨论。
如果想快速联系我欢迎关注微信公众号:AiryData。
发布了53 篇原创文章 · 获赞 19 · 访问量 7万+