博客国际论坛有没有什么好玩的手游项目,是不是大家都喜欢玩的啊?

能利用爬虫技术做到哪些很酷很有趣很有用的事情?
准备学习python爬虫。各位大神都会用爬虫做哪些有趣的事情?今天突然想玩玩爬虫,就提了这个问题。跟着YouTube上的一个tutor写了个简单的程序,爬了一点豆瓣的数据。主要用到request和bs4(BeautifulSoup)模块。虽然简陋,毕竟是人生中的第一只爬虫啊……以示纪念,代码写在博客里了:
按投票排序
286 个回答
谢邀.2011年夏天我在google实习的时候做了一些Twitter数据相关的开发,之后我看到了一片关于利用twitter上人的心情来预测股市的论文()。实习结束后我跟几个朋友聊了聊,我就想能不能自己做一点twitter的数据挖掘,当时只是想先写个爬虫玩玩,没想最后开发了两年多,抓取了一千多万用户的400亿条tweet。上分析篇先给大家看一些分析结果吧。大家几点睡觉呢? 我们来统计一下sleep这个词在twitter上出现的频率。看来很多人喜欢在睡前会说一声我睡了。那我们再看一个更有意思的 :"Thursday"这个词的每天出现的频率。这里2月2号是周四,不出意料,这一天提到周四的频率最高。而且好像离周四越近这个频率越高。可是,为什么2月1号的频率反而低了呢?是因为2月1号大家不说周四而说明天了(有的人会说2月2号也可以说是今天,但是因为在2月2号提到当天的次数太高,因此还是有很多人用周四这个词)。做了词频统计我们还可以做一些语义分析。我们可以利用unsupervised learning来分析一条tweet的感情色彩。我们对每一条tweet的高兴程度在0至1之间打分,并对每天做平均值,就得到了下面这张图。这里最明显的特征恐怕就是周期性了。是的,大家普遍周末比较高兴。不过这张图的开始和中间有两个点与周期不吻合。如果我告诉你这两天是1月1日和2月14日,那你肯定会想到为什么了,元旦和情人节很多人是很高兴的(不排除slient majority存在的可能)。这很有意思,但似乎没什么用啊。那我们来看下面这张图,还是2012年的情感分析,不过这里对用户进行了过滤,只保留了来自投资人和交易员的tweet (根据用户的tweet我们可以估计他/她的职业)。蓝线是这些用户的感情色彩,红线是S&P 500指数。看来行情好的时候大家都高兴啊。最后我们再来看两个统计图吧。2012年是美国大选年,这里统计了在所有和奥巴马相关的tweet里跟提到经济的tweet占的比例。红线是这个比例,黑线是S&P 500貌似和美国经济有负相关性啊!为什么呢,我们看下面的图就明白了。这个比例和美国失业率正相关,而经济和失业率又是负相关的。换句话说,美国人(尤其是共和党的)找不到工作了就开始埋怨奥巴马了。除了上面的分析外我做了很多其他的研究,比如如何判断一个用户的职业,验证六度分隔理论, 以及网络扩张速度的建模,不过这里就先不赘述了。最后要说的是以上的分析在统计上都是不严谨的,twitter上的信息杂音非常大,又有很强的demographic bias,有很多因素都没有考虑。我们只能希望大数定律能过弥补一些误差。写在这里只是抛砖引玉,给大家看一下爬虫可以做什么。大家感兴趣的话之后我可以补充一下这两个话题:1. 怎样判断一条tweet的感情色彩2. 怎样估计一个twitter用户的职业下技术篇 当时Twitter用户大概已经有上亿了,每天新的tweet也有几千万甚至上亿。能不能把这些数据全部抓取下来呢?这是可能的。Twitter是有API的,不过每个IP地址每小时可以抓取150个用户最近的tweet,以这个速度要把几亿个用户抓取一遍需要近一百年。但是,大部分Twitter用户是不活跃甚至从来不发tweet的,还有很多用户是印尼等国家(不是他们不重要,我真的看不懂他们发的tweet),如果我们把不说英语,不发tweet以及follow人数不超过5个(好像注册twitter后用户会被要求follow 5个人)的用户过滤掉,我们就剩下了大约10,000,000个用户,十年就可以搞定了。十年好像还是太长了。。。不过twitter的访问限制是基于IP地址的,只要我从多个IP访问twitter不久好了(我真的没有DDOS twitter的意思啊)?那么下一步就是搜集大量代理服务器来访问twitter api。为了做twitter的爬虫我专门做了一个爬虫去搜集免费代理服务器。免费的东西总是有代价的,这些服务器非常不稳定。因此我又建立了一套代理服务器管理系统,定期更新IP地址,删除不能用的服务器。最后这套系统平均每天有几百个可用的服务器,大约半个月就可以把一千万个用户抓取一遍了。此外我又做了一些动态优化,根据twitter用户的follower数量决定他们的抓取频率,以提高重要用户tweet的实时性。在一年半的时间里,这套系统一共抓取了400亿条tweet,加起来得有10TB,估计占来自美国tweet数量的一半左右。那么问题来了,怎么存贮这些tweet呢?如果要做分析的话恐怕把数据读一遍就要好几天了。很多人马上会说hadoop, cassandra, spark等等。不过作为一个穷学生我哪里有钱去做一个cluster呢?这些数据存在AWS上就得每月1000刀了。自己动手,丰衣足食。解决方案就是自己组装一个服务器,买了8块3T硬盘做了一个12TB的磁盘矩阵放在寝室里。软件使用了最为传统的MySQL,这是一个存了400亿条数据的MySQL数据库。我花了大量时间去做优化,尝试了各种各样的partition, ordering, indexing。最后可以实现一天之内对100-200亿条数据进行线型搜索或过滤,或者几秒钟内调取某一天的或某一条tweet。这台服务器现在留在了MIT,毕业后我把它提供给了一位教授做研究。PS:这个项目在2013年停止了,因为social media已经不在火,而且twitter于2013年中关闭了相关的API接口。这个项目的初衷是学术性质的,我不想违反twitter的服务条款,因此这些数据没有被出售或者用来谋求商业价值,而是留给了MIT做研究。在这期间与几个朋友进行了很愉快的合作,未征得他们允许就不在此提名了。暂时没有开源的打算,因为当时水平有限,代码写得太丑了(用java写的)。PS2:很多人问怎么找代理服务器,请大家google一下吧。当然如果不能翻墙的话有代理服务器恐怕也不能用。谢绝转载。
把学校所有重要的在线服务用爬虫集合成了一套JSON API ,然后开发成了App,并且加了一个类似微信朋友圈的功能,可以说是校友圈吧。全校同学和同班同学都可以通过它互相交流,和微信不同的是,同班之间的交流会有消息推送。App有iOS版和Android版,可以下载并查看教学文档和习题文件,老师有新的通告也会发推送给同学们,还可以查看成绩,课程表,考试时间,个人财务,校园新闻,出勤率等。目前基本全校都在使用。 一个人开发了两个月。App名字叫MMUBee开发这个App,我一毛钱都没赚,每年还赔进去四百多美元的开发者注册费和VPS租用费。两个月里也基本上起早贪黑的做。没太多原因,就是喜欢做东西。我不经常去上课,不过去的时候都可以看见大家在用MMUbee,有一次一个同学打开MMUbee然后对着我说,你快来下载MMUbee,It's awesome!,我说这是我开发的,他没反应过来,过了5秒钟,一脸兴奋的问我Are u kidding me?类似的事情还有很多,比如在上课的时候老师会说,大家不许把考试答案发在MMUbee里。MMUbee的校友圈里,前两个月90%的Post都是好评。Twitter和Facebook上也都是同学们的一片叫好声,校内论坛更是沸沸扬扬了一段时间。虽然MMUbee本身没有盈利,却给我带来了很多机遇,通过这些机遇做了一个上市公司的项目,赚了一大笔。MMUbee Android: MMUbee iOS: 校友圈:多媒体教学系统,列表里是我这学期拿的课,点进去后是老师的通告和课件下载:老师的通告:课程表,出勤,校历,考试时间表,考试成绩等等。
我的第一个爬虫是看了教程上模仿写的,区区十几行代码,也就是利用正则和urllib抓取贴吧上的图片,而且没有涉及到登录,以及下一页等,也就是为了批量下载一点美图。然后尝试着更复杂一点的匹配,抓取豆瓣电影上新片榜, 口碑榜, 票房榜,也没有涉及到登录,复杂了全用正则就好像有点麻烦,也许我的水平不够,这时我发现了BeautifulSoup这个库。我想试试登录,就参考别人的代码登录豆瓣,但是urllib,urllib2不是那么好用。。所以我就用requests,简直是一键安装的效果。我作为新手一直喜欢用for循环一路走到底,但是循环的效率不怎么样,这时就开始尝试学习多线程库的使用了,一开始我想爬XX的,但是一直连接失败,无奈随便找了个论坛。原本如果用for循环需要100s, 多线程10s就好了。这几天我考虑写稍大一点的东西,毕竟掌握一门语言的语法,库的使用要靠不断的写,碰到各种问题,才知道怎么解决。所以准备写个爬取知乎的爬虫,但是目前不尽人意。效果:可把问题答案写入文件,但除了文本外,无法处理图片。
该轮到我祭出我当年研究生期间在实验室里参与或旁观的各种有用或者有趣的课题了:1. 建立机器翻译的语料库。这是我研究生期间的核心课题,我先来介绍下背景。大家其实都用过谷歌翻译、百度翻译,虽然确实槽点很多,但不妨碍机器翻译相较过去已经达到基本可用的程度了。我大概说下机器翻译的原理。在几十年前,计算机学家们的思路是,既然是人工智能的范畴,就让计算机懂得语法规则、知道词语含义,跟小孩子上学时学习的语言课程一样去做训练,就应该可以了。但结果是,基于语义和语法规则的机器翻译效果糟糕得一塌糊涂。究其原因,还是每个词语的含义实在太多、每句话的语境不同意思也会不同,更别说不同语言中要表达清楚同一个意思的方式也完全不同。比如下图这个,你觉得英语国家的人能看懂吗:其实,当时也有另一派,叫做统计派。他们认为,就跟当年战胜国际象棋世界冠军的“深蓝()”一样,应当用统计的方式去做。大家知道,“深蓝”并没有领会象棋的下法,而只是熟悉几百万的棋局,懂得怎样走从概率上看起来是最正确的。机器翻译也是这样,完全可以输入人工翻译的大量语料,然后做出统计模型,让计算机尽可能地熟悉别人是怎么翻译的,从而耳濡目染,也能“假装”可以翻译了。但那个年代并没有条件收集大量语料信息。后来很多年后,谷歌出现了,随之出现的还有它的超大数据规模和超强的计算能力,于是谷歌的统计机器翻译系统也就是全球正确率最高的系统之一了。而目前你所用过的、见到的机器翻译工具,全都是用的统计方法。故事大概就是这样。目前学术界的机器翻译方法中,统计机器翻译基本是垄断的地位。而效果的好坏,则基本就看语料库的规模。(想了解更多,推荐阅读
的第2章“‘自然语言处理 — 从规则到统计”及第3章“统计语言模型”)所以你知道了,我的任务就是跟同学做一个爬虫和简易的分析系统,从而建立一个大规模的语料库。网上双语的资源还是挺多的,大都像这种:我们的爬取步骤大概是:1. 对当前网页进行简易判断,如果有双语嫌疑,则收录整理出来双语的正文;如果没有,弃用;2. 将正文内容进行详细判断,确定是双语文本,则进行段落对齐和句子对齐,整理到语料库;如果没有,弃用;3. 对当前网页的所有链接网页,重复步骤 1有详细介绍的我们申请的专利在这里:其实我们当时的双语判断算法和对齐算法这些都不是难点,难点在机器配置、爬虫设计和服务器维护上。我们几乎天天流窜在机房(配置机器、接线、装机)、实验室(编写、运行代码)、网络中心(跪求带宽)、学校物业(空调他妈又坏了)这几个地方,总是没法消停。最痛苦的是,假期里回家远程访问下爬虫,发现 down 机了... 整个假期的宝贵时间就浪费了。这是我们当时在又闷又热又吵的机房的照片:好在最后我们终于爬到了要求的语料规模,并且通过了国家项目的验收。现在这些包括中英俄日的庞大语料正在百度翻译中起到重要的作用,如果你用过百度翻译,不妨给我点个感谢 ^_^如果你对机器翻译感兴趣,也可以自己爬点双语语料,做个翻译器玩玩。这是一个极其简易的搭建教程:。可以用它介绍的 1500 句对,也可以自己多爬一些。搭建好之后,你输入一句话,看到机器像模像样地回一句半生不熟的翻译,还是有可能会被萌到的。当然,要是你希望像我们一样搭建千万级甚至亿级的语料库,并且做一个翻译器,那你需要有特别强大计算能力和存储能力的服务器、非常宽的带宽,以及强大的耐心和毅力...2. 社会计算方面的统计和预测很多朋友已经提到了可以通过爬虫得到的数据做一些社会计算的分析。我们实验室爬取了大规模的新浪微博内容数据(可能是非商用机构中最多的),并针对这些数据做了很多有趣的尝试。2.1 情绪地图 提到了著名的根据情绪预测股市的论文: 。其实我们也仿照做了国内的,不过没有预测,只是监测目前微博上大家的情绪,也是极有趣的。我们把情绪类型分为“喜悦”“愤怒”“悲伤”“恐惧”“惊奇”,并且对能体现情绪的词语进行权重的标记,从而给每天每个省份都计算出一个情绪指数。界面大概是这样:可以直观看到全国各省份的情绪。不过实际上我感觉省份的区别不明显,最明显的是每天全国情绪指数的变动。比如春节是 2 月 18 日,那天的情绪指数是 41.27,前一天是 33.04,后一天则是 39.66。跟除夕夜都在吐槽和抱怨春晚,而大年初一则都在拜年情绪高涨,初二有所回落这样的状况预估是一致的。比如今年 1 月 2 日,上海踩踏事故开始登上各大媒体头条,成了热点话题,整个微博的情绪指数就骤降到 33.99 。再比如 5 月份情绪指数最高的是 5·20,因为今年开始流行示爱和表白;其次就是五一假期那几天。同样跟现实状况的预估是一致的。访问地址:2.2 饮食地图我们抽取出所有美食相关词语,然后基于大家提到的美食次数,做了这么一份饮食地图。你可以查看不同省份、不同性别的用户、不同的时间段对不同类别食物的关注程度。比如你可以看到广东整体的美食关注:还可以把男的排除掉,只看女的:还可以具体到,看广东女性每天早上会提到什么喝的:访问地址:2.3 票房预测这是我们实验室最大胆的尝试,希望利用微博上大家表现出来的,对某部电影的期待值和关注度,来预测其票房。细节就不介绍了,目前对某些电影的预测比较准,某些则差很多。因为显然,很多电影是大家不用说也会默默买票,而很多电影是大家乐于讨论但不愿出钱到电影院去看的。界面是这样的:访问地址:最后贴上我们实验室的官方网站:3. 写在后面现在国内的社交平台(微博、豆瓣、知乎)已经积累了很多信息,在上面可分析的事情太多啦。大到政府部门需要的舆情监控,小到可以看看喜欢的姑娘最近情绪如何。其中有些会特别有价值,比如一些重要的预测(股市预测、票房预测),真的做成了的话商业价值根本不可估量;还有些会特别有趣,比如看看 5·20 的时候大家最爱说的情话是什么,看看我跟李开复之间最近的关系链是什么。说到这,我突然很想做个知乎的分析。在内容方面,比如看看全知乎的文字里最常出现的人名到底是 还是 ;比如看看政治或者历史话题下,以表达情绪的词作为依据,大家的正能量多还是负能量多;比如看看当大家提到哪些东西时,情绪会最激动(中医?老罗?穆斯林?)。在关系方面,比如看看我的朋友、传说中认识所有知乎女 V 的
到底还有哪个女 V 没有关注;比如看看知乎有哪些社交达人,虽然没多少赞但关系链却在大 V 们中间;比如看看有没有关注了我同时还被
关注的,这样我可以托他给我介绍大师兄。有没有人一起来嗨?让我看到你的手!
之前一直想回答这个问题 , 但是感觉一点资格也没有. 现在我的python终于用到了 , 让我万分激动 , 怒答这个问题.在我做了这件事情之后 , 她觉得我越来越懂她了 , 嘻嘻有一天 , 我发现我心仪已久的妹纸在朋友圈里分享了知乎专栏的文章 , 就知道她也刷知乎 . 如果在知乎上关注她 , 我就能知道 , 她最近关注什么 , 心里想些什么 , 了解了解她喜欢的方面 , 还能作为谈资 , 简直太赞了 (*^^)v .但是输入她的名字...... 在知乎上根本找不到好吗 (?`灬??) 我们两个聊天的时候 , 刚好说到了她分享的那篇文章 , 我很自然的说: "知乎上你用的不是真名呀, 就我这么天真用了真名.." 她笑着说:"那个可以改呀" , "凭什么知乎团队不让我改啊!!! ",我答道," 不如我们互粉吧^_- " 哎 , 于是她打开zhihu , 看了看我的主页 , 并没有关注我...... 可能是赞太少了吧... 达不到她的要求 , 或者她不想让我知道她在看什么吧 , 也许她希望自己的知乎是交浅言深 , 不希望被身边人看见... (?-﹏-?) 失望.我回去想了想 , 她说名字可以改 , 那她可能以前也用的是真名 , 找到破绽了!知乎的名字可以改 , 但是id是改不了的 !
(ps: 谢知友
纠正错误 这个id我记得以前是不能改的 , 现在叫做个性域名是默认的 , 但是可以改. 详见 更)每个人的主页地址 , people后面那个就是TA的id, /people/zhang-san-12-45
例如张三同名很多 , 后面就会加上数字. 她的名字拼音相同的较多 , 我试了一下 , 这个数字是不超过100的. 它的组合方式有 zhang-san , zhang-san-1 zhang-san-12-43 依次类推.好 , 现在我就可以开始寻找她的账号了! 既然她改名了 , 那她名字满足的条件一定是: 昵称的拼音不是真名. 这个用pypinyin模块可以解决 , 这样子 , 需要我人工查看的主页就少很多了.1. 在github上 下载
的zhihu-python2. 寻找她了ing# coding: utf-8
from zhihu import User
from pypinyin import pinyin, lazy_pinyin
import pypinyin
user_url = ''
user_id = ''
l = [u'bu', u'xu', u'kan']
#这里是她名字的拼音, 还是不要暴露她的好, (*/ω\*)
for num in range(100):
#先在 -100以内搜索
user_url = '/people/bu-xu-kan-' + str(num)
user = User(user_url)
user_id = user.get_user_id()
if l != lazy_pinyin(user_id.decode('gbk')): #看看她有没有用原名
print user_id, ' ', num
for i in range(100):
for j in range(100):
#在 -100-100以内搜索
user_url = '/people/bu-xu-kan-' + str(i) + '-' + str(j)
user = User(user_url)
user_id = user.get_user_id()
print user_id, ' ', i, '-', j
爬了好久 , 结果出来了 , 这些昵称不多 , 我翻翻他们的主页就幸运地找到了我心仪的妹纸:XXXXXXXX
she is here!
从那之后 , 我每天都可以看她的主页啦~ 至于我有没有追到她呢....--------------------------更--------------------------------------------------------------------我匿名的原因是因为我正在追她 , 如果我追到 , 或者没追到她 , 我就不匿了.
在我打开她的主页之后 , 我发现她喜欢科幻 , 也对推理小说感兴趣 , 关注穿衣打扮方面 , 符合我的胃口呀 . 最近呢 , 她关注情感方面的问题变多了 , 我不知道是不是因为最近我和她联系变频繁了 , 激起了她一些感觉 ,
(*/ω\*)我会加油哒~--------------------------更--------------------------------------------------------------------知友
纠正错误 . 这个id我记得以前是不能改的 , 现在叫做个性域名是默认的 , 大部分人没有注意 , 但是可以改. 具体修改在这里
, 不想被相同方法发现的人赶紧修改哦~ 嘿 , 上周约她出来吃饭看电影啦 , 我会继续努力哟~-------------------------------今天,我和她
快乐地在一起辣~
我当初是看到这个帖子才知道Python这门语言的功能,才开始去学的,现在也学了一小段时间。不得不说,Python爬虫对于我来说真是个神器。之前在分析一些经济数据的时候,需要从网上抓取一些数据下来,想了很多方法,一开始是通过Excel,但是Excel只能爬下表格,局限性太大了。之后问了学编程的朋友,他说JavaScript也能实现,于是懵懵懂懂地就去学Java(我那朋友是学Java的,我当时问他用Java能不能实现,他说JavaScript好像可以,当时我什么都不懂,就把JavaScript理解成是Java下的一个分支,以为JavaScript只是Java其中一个包什么的,于是我便去学了一小会Java,无知惹的祸啊。。。)。但整个Java体系也太庞大了,学起来力不从心,毕竟我只是要运用其中一部分功能而已,于是学没多久我就放弃了。就在我迷茫的时候,我发现了Python大法……
废话说多了,说说自己的学习经历吧。也给想学Python,想写爬虫的人一个参考。
一开始我是在网易云课堂上自己找了个基础的视频来学,Python是真是门简单的语言,之前懂一点Visual Basic,感觉Python也很适合给无编程基础的人学习。
入门视频到最后,就做出了我的第一个爬虫——百度贴吧图片爬虫(相信很多的教程都是以百度贴吧爬虫为经典例子来说的。)
一开始代码很简单,只能爬取第一页的数据,于是我加了一个循环,就能够爬取制定页数的图片了。并且图片是有按顺序排列的,非常方便。在筛选网址的时候用正则表达式就好了。正则表达式使用:
可是我不经常混贴吧啊,也很少有要下载贴吧图片的需求。回归初衷吧。我对投资有兴趣,学编程有一个原因也是为了投资服务。在7月股灾进行时的时候,我错过了一个明显的“捡钱”的机会,并非自身专业知识不够,而是当时在准备考试,很少去看股市,这让我心有不甘:要是有个东西能够帮我自动爬取数据分析并推送就好了,于是有了以下学习轨迹:一、爬取数据
在此顺便贴上一个Python系列教程,极客学院,里面有些教程还是挺不错的。从里面我知道了两个可以替代Python里urllib和re正则表达式的库,它们分别叫做requests和lxml。
第一个库挺不错的,现在在获取网页源代码时,我都用这个库,大家如果有不懂的可以看看那个网站。第二个库由于我是用3.4版本的Python,折腾了很久没折腾进去,于是我发现了另一个不错的库BeautifulSoup,详细教程参考:
有了requests和Beautifulsoup,基本上可以实现我想要的很多功能了。我便做了一个抓取分级基金数据的爬虫: 二、分析并推送
其实在此分析其实还谈不上,顶多算是筛选。(不过我相信随着我数学能力提升会能有进一步的分析的,美好的祝愿。。。)筛选很简单,就是涨幅或收益率等等满足一定条件就保留下来,保留下来干嘛?推送啊!!!
将保存下来的数据通过邮件发送到自己的邮箱,手机上下载个软件,一切就大功告成了!
至此当时学习Python的目的就达到了,当时鸡冻地要炸了!!!
不过……那么好玩的东西,怎么能这么快就结束了?再折腾吧!于是三、简单的界面
等等!Python好像不能直接弄成exe可执行文件,不能每次运行都开Python的窗口啊!强迫症怎么能忍!上网搜搜发现有诸如py2exe的包可以转换,可是老子是3.4版本啊!折腾半天没搞定,算了!我不是会点VB吗,用那个吧。于是连界面都有了
刚好会点PS,做做低级的界面也不错。四、云服务器做完界面我以为就结束了,我还是too young啊。用了几天发现,我总不能天天开着电脑让它就运行那么几个程序吧?总得有个地方能让我24小时运行这些程序。本来想跟朋友的电脑轮流运行,还是太麻烦。偶然的机会我发现了云服务器这个东西。了解后砸下重金买下服务器(其实一个月30而已……)
折腾一番linux系统的操作,实现了24小时的实时推送。
折腾一番linux系统的操作,实现了24小时的实时推送。
而到这里,我已经深陷到Python里了,我觉得我应该继续学习这门强大简单的语言,在知乎上看到了一个问题:,虽然说的是Quant但也为我指引了一些方向。目前正准备学习numpy,pandas,matplotlib这些库,以实现未来对金融、经济数据的可视化和分析。相关的内容有一本书写得还不错,叫《利用Python进行数据分析》,有兴趣学习可以读一读。
共勉。—————————更新—————————好多人问是什么服务器,我用的是阿里云。有些人反应价格很高,其实把配置调到最低,可以满足基本需求,价格只要30左右。正好刚刚收到一封邮件,学生党有福利了(我真的不是在打广告啊……)—————————更新—————————快破千赞了,有点出乎意料,补充几点吧。1.我用阿里云发现最低的也要100/80/40(各种价格),答主你不是在骗我吧?直接上图,32元左右。直接上图,32元左右。其实国内的服务器有挺多的,一个月三四十的低配很多地方都买得到。不过评论区有人提到一些外国个人的云服务器价格有些在30~50/年,很便宜。答主暂时还没去看,因为买的服务器还没过期,有需要的可以翻翻评论区看看。(另外,亚马逊好像有免费一年的云服务器试用。)2.Python3也可以转成exe我只是按照自己的学习轨迹写的回答,当初是在不知道云服务器的情况下才有转化成exe的需求,并且当时了解得不多,屡屡碰壁没能完成。现在已经不需要了,不过还是谢谢大家的提醒。这里顺便提醒一下,各位初学Python务必装入pip,不要像我一样怕麻烦,结果导致一些库花了好长时间才折腾进去,其实只要“pip install XXX”就很轻松搞定了。3.从哪里爬来的数据?我其实没有严格的数据来源,一般想到了要什么就上百度搜,出来的哪个网站的数据好爬我就爬哪个了。一般新浪财经什么的都可以。看到评论区有挺多和我一样的学生,其实Wind资讯(百度Wind第一个)有个财经学子阳光计划:认证后里面会有免费的数据终端,甚至还有实习机会等等。光是免费这个就很诱人了。
我们用爬虫爬遍整个网络空间,爬那些主流端口,这背后是各种服务,其中 Web 服务最为复杂。我们把这些服务的响应内容尽可能存储下来,加上大量指纹规则去识别它们都是什么。于是我们得到了「全球网络设备」情况:由于 Web 服务的特殊性,我们还得到了「全球 Web 服务」情况:当我们看到这个时,对整个网络空间充满敬畏,于是内部的项目在 2013 年初考虑对外开放,首先开放了搜索:取了个非常酷的名字:ZoomEye,中文叫:钟馗之眼,定位为:网络空间搜索引擎。当前已经是第三版。由于这种搜索方式非常专业(并非面向普通大众),我们在首页上提供了「用户手册」,还有「搜索 Dork」,用户可以借助这两样快速入门。我们做这个的目的是什么?其实,我们是安全研究者(说通俗点:黑客),我们想解决一个问题:一个漏洞爆发后,我们如何感知全球影响面?这个问题背后的逻辑就是我们做这个搜索引擎的奥秘。在黑客世界,攻击者与防御者,他们对抗的单元都可以细分到一个个「组件」,我们认为组件是构成网络空间的最小单元,比如你搭建一个网站,你要用 Ubuntu/PHP/MySQL/WordPress(附带各种插件)/jQuery 等等等,这些玩意就是一个个组件,你不需要重复劳动去创造它们,而是选择搭积木方式,这是整个网络空间进化的必然结果。正因为如此,如果一个组件出漏洞(这是必然的),那将影响一大批使用它的那些目标。攻击者喜欢这样,因为一个组件出漏洞,攻击者可以大规模黑掉目标,然后做各种坏事(庞大地下产业链的一个关键环节)。对我们来说,其实我们是防御者,我们可以站在攻击者角度去评估这种影响面,然后发出预警。我们最成功的案例是, 心脏出血漏洞爆发时,我们是最快搞定整个权威预警的团队。可以看当时我们基于 ZoomEye 做出的心脏出血全球统计与一年后的相关解读:当时,我们的结论覆盖了央视、新华社、许多科技媒体、很多报刊杂志,还有国家相关监管机构,2014 年底时,入选极客公园评审的 2014 年互联网产品 50 强。这给了我们团队极大的信心,从一个内部实验性小项目逐渐成为安全圈/黑客圈炙手可热的平台。这是一件大工程,如果你仔细体验这个平台,你会认可我的看法。这是一个充满争议的平台,有人说我们通过 ZoomEye 就可以黑遍全世界。我们有能力做这事,但我们不会这样做,黑遍有什么好玩的,好玩在对抗,在促进整个网络空间的良性进化。Google 爬了全球网站,他们说「不作恶」,对我们来说,全球网站只是我们面对庞大网络空间的一个子集(Google 的爬虫复杂度比我们只面对组件的爬虫的复杂度要高 N 个量级,这里不展开),为了把这个平台做好,我们还需要大量的人才与服务器、带宽、钱。这是我这么多年带队做的最酷的爬虫项目,如果你也是 Python 工程师,对黑客这个领域充满好奇,可以私信我^_^
现放出下载地址,稍后会有微信号公布-----------------------------------------------------------------------------------------------------------------------------------------利用爬虫抓取猫眼,大众点评,淘宝,糯米四个平台的电影院,排片以及电影票票价数据,现已集成到微信公众号中,进入微信公众号中获取当前位置,选中某一部电影根据当前位置获取附近影院以及每个影院各个票价的对比,然后根据数据去最便宜的平台买票!先占个坑,明天上图,上数据。各位同学不要着急,由于外网服务器爬虫已经停了一段时间数据不是最新的,这两天我在优化爬虫程序,猫眼的接口这两天对票价字段进行了混淆!明天一定上数据---------------------------------------------------------更新---------------------------------------------------------先上图吧。这张是微信里的截图(信号和电量图标不知道会不会逼死处女座的)这张是微信里的截图(信号和电量图标不知道会不会逼死处女座的)再来张数据库里的字段除了美团其他数据基本都是准确的除了美团其他数据基本都是准确的点评的淘宝电影的]格瓦拉的(上海的同学可能用格瓦拉的可能比较多)淘宝电影的]格瓦拉的(上海的同学可能用格瓦拉的可能比较多)这个爬虫是5月份写的,偶尔在跑,爬的数据比较粗糙,爬的时间也比较长,除了美团,其他的平台基本都没多大问题,美团上个周末对票价数据进行了混淆,导致爬出的数据有问题,这个星期开始重构这个爬虫,以后可能会上线个更精细的版本,也会增加其他平台的票价数据!微信号就先不上了,等重构后的版本上线,我再放出微信号。------------------------------10.9更新------------------------------先上个图吧,糯米这6.6的票实在太狠了,从美团和点评合并来看,糯米200亿的补贴已经有了成效。后台代码基本重构完成,近期我会放出地址,请大家再等一等---------------------------------------------------10.10更新---------------------------------------------------------------------让大家久等了,下载地址在最上面,app很毛糙,欢迎来喷,大家请只关注选电影模块就行了,其他的请无视。微信号稍后会更新,如果核心比价模块有问题欢迎来反馈!
用爬虫最大的好处是批量且自动化得获取和处理信息。对于宏观或者微观的情况都可以多一个侧面去了解(不知道能不能帮统计局一些忙)。以下是我们自己用爬虫获得的信息然后做的呈现。(多图预警)1、获得各个机场的实时流量2、获得热点城市的火车票情况3、各种热门公司招聘中的职位数及月薪分布4、某公司的门店变化情况5、对某一类金融产品的检测和跟踪6、对某车型用户数变化情况的跟踪7、对某个App的下载量跟踪
没想到得到这么多赞,有点小害怕啊~有一些问题我在下面回答以下把。------------------------------------------------正常分割线----------------------------------------------------2011年,我还在学校读书,写了个软件注册了几十万个新浪微博账号。(那时候还不要求实名制,真怀念)。然后就要养账号,写了几个爬虫软件从搜狐微博上爬昵称用来更新我新浪微博上的昵称,从大V的粉丝中爬他们的头像用来更新自己的微博头像(我对不起大家!),从笑话微博中爬微博内容来发到自己微博中。用这这几十万个微博账号去参与抽奖,一年获利了七万多块钱。读书那几年我承包了我们宿舍所有的水电费和我们班男生宵夜啤酒鸭霸王的费用。------------------------------------------问题回答--------------------------------------------------------------1、是不是用Python写的,用别的语言可以实现不啦?答:是用C#写的,Python没有学过,毕竟专业不是计算机,毕业后所从事的工作也不是程序员,所以没有学习这个的动力。别的语言肯定也是可以实现的,计算机语言之间都有相似性,只是实现起来的难易程度不一样。上学时学习C#完全是出于爱好,在学习、工作上能够解决自己的问题即可。我不适合专职做程序员,去理解别人的需求很痛苦,其实曾经尝试着去当一名伟大的软件程序员来着,可惜北漂未遂。2、怎么知道你的帐号中奖了?答:我自己的帐号我一眼就能认得出来。我一般用一个大号去参加抽奖(大号一般不会被封),然后用软件去监测我的大号参与抽奖。这样我的小号转发的有奖活动跟我的大号之间就几乎相同了(为什么说几乎,因为有部分会失败)。活动开奖后,我只要从我的大号中进入抽奖页面查看中奖帐号即可。我自己的帐号全部申请了10个左右的勋章,有昵称、有头像、有学校、有年龄、有标签,最重要的是从所转发的微博和抽奖活动来看,一个有奖活动中间夹杂几个正常微博,正常微博的内容我是从谁的微博中抓取的我也都能认识。只要疑似自己的帐号,把它的UID或者nickname放入数据中中检索便知结果。3、新浪微博不封号?答:肯定封,而且经常好几千上万那样封。所以我一次性都是用一万个左右的帐号去参加抽奖,封掉了就用下一批。此外换IP是常识,之前十个左右换一个IP,后来严格了,基本上三五个就换一次IP。封号和反封号跟新浪也是斗智斗勇,每次帐号被封之后我都会把同一批使用但幸存的那么几百个帐号来进行分析。同批次参与活动为什么大部分帐号被封,但是还有几百个幸存的呢,他们之间肯定是有差异的,找到这种差异去猜测新浪技术然后改进我的软件。4、现在还做不做这方面的软件了,不做可惜了,能不能帮我写个某某软件,批量生成一些知乎点赞帐号和点赞软件?答:现在不做,从来都没有想过把这个当作所谓的事业。现在有了正经工作,而且收入也比做这个要多,为什么还要去做这种边缘性的东西。5、鸭霸王是什么?答:下酒菜,湖南特色,辣的够滋味,毕业了怀念。6、碉堡?答:会很疼,还是不要。
邀。虽然已经有这么多回答了,不过有人邀我,我还是回答一下吧。 相比于大家,我并没有做出什么很酷,很有趣的事情。我用爬虫做的第一个东西,是批量下载壁纸的工具: 。现在看起来虽然没什么,不过它让我感受到到我也可以用计算机技术做一些有意义的东西,而不是整天面对一个黑框框。让我有动力和兴趣去做下一个更酷的东西。第二个东西是一个android上的搜索工具,可以搜索网盘资源。也是开源的,。豌豆荚可以下载,。实际上就是爬了gfsoso的搜索结果数据(实际是google),然后用android包装了一下。当然我征得了gfsoso开发者的同意。由于最近gfsoso变更域名,而我没有及时更新,只能搜索微盘的资源了。要知道,google可不只是能搜索网盘资源哦,剩下的就要发挥你自己的想象力了。第三个东西是爬知乎的工具,
。这也算是目前做得最成功的一个项目了。我曾经在中讲述过写的过程中遇到的一些坑。另一件事情是,曾经有一位知友在毕业论文中需要用到某个网站一些数据,但她自己不知道怎么取到大量的数据,于是找到了我,我就帮忙写了个小程序帮她爬了10万条数据。能帮助别人完成毕业论文难道不是一件很酷的事情吗?现在大数据这么火,什么专业都要跟它扯点边,所以,多学点技术吧,说不定哪一天你的毕业论文也能用上 。
07年年底淘宝出了个挖宝的活动,具体是这样的:你去浏览各个商品页面,如果你运气好,页面上有红包的图片,5-100元不等,就中奖了。我发现红包图片居然是静态的地址,而且固定页面投放的。于是手写爬虫,抓淘宝商品页面,分析下有没有红包图就行了。几个小时赚了2000多吧,100的较少,红包折现麻烦,要自己开店自己购买。
一个统计知乎回答的赞的人数的东西,chrome插件。有多少个匿名赞的,多少个三无用户,有点类似一个js写的爬虫了吧,好像也没什么用……咦,是不是可以统计下性别啊……明天加上看看,233===新加了性别====可以看出来,关注这个问题的妹子还真是少啊~~~~~~~把那个crx拖到chrome就可以了。
监测她(他)的知乎,她关注、回答、赞了某个问题立马电脑和手机都弹出提示是不是很酷!先上两张图:我是个.NET程序猿,有一天女神告诉我有一个很不错的社区叫“知乎”,我经常一过来就看到她在看知乎,但每次我想看她都看了啥啊,她就遮住屏幕不让我看。于是乎,在我心里埋下了一颗强烈的好奇心。知乎中搜了下她的名字,经过各种筛选知道了她的知乎空间。第一时间出现的想法是我要写个监测程序,她关注的所有问题我都想知道。连续奋战5小时,至凌晨3点程序终于写出来了。主要HttpWebRequest加正则表达式来抓取数据,程序开机自动运行,数据库设在一台24小时开机的服务器上。多个监测客户端同时运行,公司的,家里的,远程服务器上的。每隔5分钟自动循环读取一次数据,如果检测到关注了新的问题,立马将它们发送至我的QQ邮箱和我的163邮箱,大家都知道QQ邮箱有提醒功能,一发过来,立马会弹出一个窗体告诉你有新的邮件。手机qq客户端也有,所以不管我是在上班的路上,还是在电脑旁,只要她有新动态我立马就知道了。是不是很酷?监测程序已经运行三个多月了,收集了他二三百个关注的问题,我知道她一般都是吃中饭或者晚饭前喜欢看一下知乎,晚上睡前会看会,她睡得早但偶尔凌晨1点多还看知乎。她关注情感类的问题最多,而且那段时间我一直在追她,所以我能根据她关注的问题来推测她的一些想法,包括约会聊天时我可以聊一些她感兴趣的话题。所以实用性还是比较强的。假如某一天凌晨1点,手机突然响了一下,发现她关注了某个问题。立马给她发一条短信过去,你是不是还没睡啊? 是啊,你怎么知道我没睡的? 凭感觉! 嘿嘿。 然后慢慢靠近她关注的那个话题去聊,这是不是会让她感觉到你特别懂她。好奇你居然知道她睡没睡,好奇你和她聊的话那么符合她的心声。====21日9:37更新=====没想到第一次答题就上榜了,好不开心,来来来,别停哈。谢谢大家的赞!(被管理员要求整改,此处内容有所删减)====================21 日11:16分更新=======此处删除1000字及图片若干。=21日11:50更新=====《关于隐私》先说明下,很多人都说我这样做侵犯隐私?没有吧,这些数据都是公开的啊,她也知道我关注了她呀,但蛋疼的知乎客户端没有这么细致的提醒功能,我甚至在客户端上找不到我都关注了哪些人。知乎手机app开发团队弱爆了,这么强有力的需求居然没有满足? 而且,知乎!你怎么就没有订阅功能呢?邮箱订阅! 我提出来啦哈,采纳了给我大V可好?《关于匿不匿名》FK,男子汉大丈夫,匿啥名啊。女神知道了就知道了,又不是做什么伤天害理的事,敢作敢当!之所以写这么一个程序,也并不是完全的偷窥心理。对于一个程序员来说,写出一个新鲜的程序是能给程序员一种很大的乐趣的,这一般人难以理解,想当年在学校时,通宵写俄罗斯方块,白天上课不听课在那研究一个方块当按左键是什么样子什么逻辑,右键又怎样。这是非常有意思的事,编程其实是一个艺术活,好的框架和优质的代码让人一看就感觉特别享受。 所以我写这么个程序同样也是满足自己的一种乐趣。不必匿!《关于女神追到没?》追到啦,哈哈!好爽啊,9月份去骑了趟川藏线,路遇佛像及经轮,我就祈祷我要娶她做老婆。且出发前找牛逼大神算了一卦(中国易学协会副会长),说我10月份很有姻缘缘分。于是,我在世界第一大冰川-来古冰川的河床上找了一下午的石头,终于找到一颗天然红色心形的爱情石,回来后我就拿着石头跟她表白了,然后就成了!虽然她说我表白像检讨一样,但也很感人! 可惜,我们在一起没多久就分手了。原因一两句话说不完,总之不管以后怎样。都祝福她,虽然在一起不长时间,但那是很美的回忆。我会珍藏!===================
关于爬虫自己有两件事让我印象深刻。一件当时觉得很酷,现在觉得很二。而另外一件就真是个悲伤的故事了。1。写第一个爬虫时我没想到它会这么二。那个爬虫的数据源用的是百度的搜索结果,它一开始的功能只有一个,那就是用户输入中文姓名,然后根据百度的搜索结果判断该姓名的性别,并附上概率。当时把身边亲朋好友同学的名字都试了一下,咦,效果还是不错的,给出的性别结果全中!之后又把一些古今名人也一同测试了下,命中率几乎100%,当时还真是把自己乐坏了。这里还真是很不好意思开口说当时自己的思路呢。1.其实就是在搜索关键字人名之后,把百度的前几十页结果爬取下来。2.去重。3.接着对去重后的结果进行分词然后索引,将男性和女性的特征关键词频次累计相加,然后二者比大小,最后给出判断结果。写完测试之后自我感觉良好了一上午,下午闲着没事就想说干脆把它做成一个稍微通用点的东西吧,于是就把性别判断给去掉了,最后对分词索引后的关键字去除无意义字后进行展示,其实也就是一个关键词云。2。更没想到这么二的爬虫会变得这么悲伤。没记错的话应该是两天后的一个中午,下着雨哪都不想去,下雨天人自然容易多想,然后不自觉的就想起了两天前写的那个小爬虫,不自觉的想起了和前女友之前5年里攒下的舍不得删一直备份着的6万多条短信。想说,这6万条信息,我的爬虫应该可以再告诉我一些我不知道的事吧。很快,程序就改好了,犹豫了很久但依旧很好奇地按下了Enter。不出意外,程序跑了一会,就在我跑了杯咖啡回来后,结果已经硬生生的出现在屏幕上了。具体的数字我已经记不清了,截图也被我扔进了垃圾桶里,但那一对对反义词在这6万余条短信里的出现次数谁多谁少,我却不会忘记。哦,多过,嗯。生气,多过,开心。对不起,我错了,加起来有一百来次。早安晚安,各有2000多次。另外,晚安比早安少了一次,因为有一条是我发的""。看到,生气的次数多过开心时,那一刻我真觉得她没有和我在一起是我活该,6万条短信给出的答案我相信它不会骗我。3。最后,我删掉了这个修改后的程序。因为我发现它可以做出更可怕的事。如果我拿它来训练一个聊天机器人,那它回答我的话,会是什么呢。
在用Python写网页爬虫之前,我只用来写过了一个驾校约车的脚本,让当时的我不惧上万的学车同僚,在约车环节没有输在起跑线上。接着那段时间刚好有个跟
差不多的经历。我女朋友是《千金女贼》男主角扮演者老婆代言的某网络公司的招聘产品销售,每天下班领导都会下任务,要收集100条有招聘需求的信息,第二天检查。看到她熬夜百度+复制粘贴到半夜,心疼死了。想到了某个牛人说:一切重复性的工作都可以用程序来完成。于是偷偷花了些时间研究了下她经常查的某些同类业务网站的页面数据,培育了这只爬虫。主要技能就是爬这些网站的招聘公司信息及联系方式,保存到Excel中。在我将战斗成果----1000多个客户资料的Excel表格发给她的时候,先惊喜,后审问,再感慨!依稀记得那天她发了一条朋友圈,内容是:“有个程序员男朋友,感觉好幸福啊!!”
成就感走直线啊,都能让她感到幸福,你说这只爬虫是不是做了很酷很有趣的事情呢??以下~~~~
谢邀。我用爬虫爬了我爱白菜网、超值分享汇、发现值得买、惠惠购物、今日聚超值、留住你、买手党、没得比、慢慢买、牛杂网、买个便宜货、什么值得买、天上掉馅饼、一分网、折800值得买、值值值等网站的折扣信息。这些网站都是提供的一些及时的、性价比较高的商品,很多时候要一个一个网站的看(重度用户),很容易就会错过一些很划算的商品。于是用Python抓取了这些打折信息,并输出到网站上()。#-*- coding: utf-8 -*-
from Haohuola.Base import p
from bs4 import BeautifulSoup
import PostMessage,json
from se import getGoodsUrl
from qiniuUpload import getImageUrl
from Haohuola.Base import getHtml,getMallCountry,get_title_price
from Haohuola.Base import getTags,handle_content
from Haohuola.Category import getCategory
'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11',
'Accept':'text/html,application/xhtml+xml,application/q=0.9,image/webp,*/*;q=0.8',
'Accept-Encoding':'gzip, deflate, sdch',
'Accept-Language':'zh-CN,q=0.8,en-US;q=0.6,q=0.4,q=0.2,q=0.2,q=0.2,q=0.2',
'Cache-Control':'max-age=0',
'Connection':'keep-alive',
'Host':'',
html=getHtml('',headers).decode('utf-8')
soup=BeautifulSoup(html)
AUTHOR=u"超值分享汇"
soupid=soup.find(id="main")
items=soupid.find_all("div",{"class":"post"})[0:8]
items.reverse()
for item in items:
link=item.find('div',{'class':'buy_url'}).a['href'].encode('utf-8')
#原始购买链接
title=item.h2.get_text().encode('utf-8')
if PostMessage.urlToSQL(link)==1:
tuple_url=getGoodsUrl(link)
links=tuple_url[0]
mobile=tuple_url[2]
if not links:
if PostMessage.transToSQL(tuple_url)==1:
title=item.h2.get_text().encode('utf-8')
alltitle=get_title_price(title)
price=alltitle['price']
#提取出价格来
article_title=alltitle['article_title']
publish_title=alltitle['publish_title']
content=str(item.find('div',{'class':'content'}).select('.conBox')[0])
publish_content,img_url=handle_content(content)
image_url=getImageUrl(img_url,publish_title)
MallCountry = getMallCountry(links) #获取商城和国内还是海淘(links是转换后的链接)
= MallCountry["region"] #中国的或者是海淘的
= MallCountry["mall"] #商品来自拿个商城
= getCategory(publish_title)
= Category['code']
= getTags(Category,mall) #商品标签
res=PostMessage.postMessage(publish_title,publish_content,AUTHOR,links,mall,image_url,price,tags,country,article_title,category,mobile)
p(u'---start---',publish_title,publish_content,AUTHOR,links,mall,image_url,price,tags,country,article_title,category,mobile,u'---end---')
if res==True:
PostMessage.insertIntoOriginal(link)
PostMessage.insertIntoSQL(tuple_url)
PostMessage.insertIntoOriginal(link)
except Exception, e:
抓取这部分难度并不是很大,用requests+beautifulSoup基本上可以抓下全部内容来。难点主要由三个方面:1.去重这些网站有很大部分也是相同的,因此要将重复的去除掉,去除的标准是根据商品链接转换为原始链接(自身都是带返利的,所以须转换后才可以比较)。另外还要家一定的时间限制,即超过一周后同一个商品的链接视为该店铺再次打折被推荐。2.转换链接这是比较困难的一部分,商品的返利链接都是加密转换了的,很难直接还原,于是采用了简单粗暴的方法,用 PhantomJS 模拟浏览器打开链接并获取跳转后的原始链接,这一部分原理上也还简单,但是每个商城都有很多例外情况要处理,最后完善下来也要500行以上代码才搞定。3.自动分类通过不同分类中关键词出现的频率来得出改商品所属的分类,主要是利用一些统计知识,并在后期通过纠正使其越来越准确。现在网站自己用着还不错,后期会加入推送、关键词订阅等功能,并且加上个人筛选功能(来源网站、性别、分类等)。最后贴个地址,也算是做个小广告:
晚 第二次更新 ====== 同学在评论区里让推荐一些相关的学习参考书,我就做些推荐好了,我把不错的资料放到回答的最后,方便需要深入学习的同学参考 ,其中的绝对是不可多得的资源宝库,刚看了下github上的star已经9700+了 , 它汇总了编程中方方面面好玩的资源哈哈,我闲暇时间收集的这些资料还真不少,之后可以在知乎里不定期分享啦,欢迎关注~=========
晚 更新 ==========
我之前把题目看成 你利用爬虫技术做到哪些很酷很有趣很有用的事情?
原来是能 利用.. 啊 ,那好玩的事情多啦,我来开脑洞好了,体验一下当项目经理的酸爽,你你你,把这些需求都给实现了,对,明天上线!
单单是爬虫,我想不出特别有趣的玩法,楼下说的爬取学校教务 证件照,我觉得在它成为爬虫问题之前,它首先是个hack问题,它的有趣起码也至少一半在hack吧囧(我是好人,我真的不懂这些!)
私以为爬虫最有趣的地方在于,爬取的数据是真实且新鲜的!!就像最新鲜的食材,无论拿去做什么都是美味,不过你也本该能去做点什么,而不是干摆着,否则简直暴殄天物
你想啊,在你学习数据挖掘或是机器学习的时候,多数人无非是去书本指定的网站下载陈年旧数据,或是自己伪造,多没劲啊,弄了半天,得到与书本demo一样的结果,哦一声然后就没有然后了。
可是,有了爬虫就不同啦
好比你跟着《集体智慧编程》学习,第二章它会教你简单的推荐算法,学会之后,你可以自己去豆瓣爬取用户对书籍和音乐的评分,以此作为分析的数据源,然后做聚类啦,做推荐啦
你可以据此算算自己跟女神的品味相似度,以及找到与她相似的人,或是直接由算法得到她可能喜欢的且没看过的书/电影/音乐。说不定比豆瓣本身推荐的还要好,女神眼前一亮,指不定就觉得这小子计算机不错啊,下回电脑坏了可以找他修
要是你的算法真的足够好,结合爬取的数据做聚类做推荐,豆友们都喜欢你推荐的东西,那么你完全有机会据此写个小众文艺网站,pk豆瓣,然后出任CEO,迎娶白富美,走上人生巅峰
当然,这些你可能都觉得不如编程有趣
来来来,干了这杯,还有三杯,因为我也这么想的
以上是当爬虫遇上数据挖掘,你也许看出来了,我把爬虫当成数据工厂了, 当然网站api也许来得方便些,但毕竟爬虫更自由。况且还有知乎这种没有api的网站呢
下面说说爬虫邂逅机器学习
你还为女神“呵呵睡觉去洗澡”而黯然神伤吗,也许你需要一个聊天机器人 只要998
你在知乎里爬取了你女神的所有回答记录
然后用于训练聊天机器人,你看beta版的女神是不是温柔多了!她是不是不去洗澡了,她回复是不是比以前快多了!她还可以多线程并发,额,python的话你还是用多进程吧。。
什么,你说你女神太逗比,劝分不好,额,主要是你也没追上!
这都不是事儿, 想让她古典婉约一些么
没事啊,训练聊天机器人的语言材料里,你可以把她的文字和王语嫣和薛宝钗的混在一起,稀释搅拌她就不怎么都比了有木有
你以霸道总裁语气跟她说 “爷嘴馋”
她含情脉脉 “前些日子寄给公子的桂花糕味道可好”
先这样吧,我要看部电影先=============原先的回答谢
邀真是抱歉,没用爬虫做过好玩的东西 囧刚来南京那会儿,周末没有计划,闲得蛋疼的时候,跟小伙伴用Scrapy小范围爬过知乎。github上还有几个这种小项目。这种事做的人蛮多的,而且似乎大家都喜欢爬知乎跟豆瓣学习Scrapy的时候,看到过几个比较有趣的Scrapy衍生项目,分享过来,你可以试着用他们做些好玩的东西~
这是用scrapy,redis, mongodb,graphite实现的一个分布式网络爬虫 ,如果爬取知乎或是豆瓣这种网页数量庞大的网站,还是用分布式吧,不然你只能
眼看着花谢花开,爬虫根本停不下来
这是一个可视化爬虫,基于Scrapy,我在本地跑过,蛮有意思的。它提供了可视化操作的Web页面,你只需点击页面上你要抽取的数据就行,这种方式可能蛮招geek嫌弃的(什么!!你居然让我用图形界面!!)
不过上手简单,效果明显,开始不容易乏味,可以作为正式学习爬虫前的娱乐 ,你如果不喜欢Scrapy,可以试试,pyspider让你在WEB 界面编写调试脚本,监控执行状态,查看历史和结果 ,你可以在线试下demo:话说我最近,有个小伙伴做了比较好玩的东西,可惜我没机会玩每天饭点去哪里吃饭 以及吃什么是个问题
于是小伙伴写了个程序 来决策,
据说加入你的星座和你日常用的编辑器,对输出结果有明显影响可惜我最近学得一手好厨艺,都没机会试用 , 真是忧伤(妈蛋,为了秀个厨艺,我都假装忧伤了,就不要拆穿行不行!)======想进一步学习的同学可以参考这些资料首先极力推荐,github上很火的
,前段时间github上冒出许多高关注的awesome-*项目,而 是对这些项目的汇总,就是说它是一个汇总资源汇总项目的项目,蛮拗口的是吧,其中就包括了对机器学习的汇总链接
以及数据科学的链接
。 从mooc视频到工具集应有尽有另外,之前知乎上有个很棒的回答,已经做了很好的总结了
我自己学习的入门书恰好也都在里边,像和,这两本书我都很喜欢,至于学习爬虫的话,直接参考Scrapy官方文档就行
爬一下附近学校有什么Tech Talk能天天蹭pizza。
用 Android QQ 来监视某人的出行及作息规律去年暑假做的事情,首发于
我就不整理了,直接贴过来,以下原文:====================================================================上次发现 Android QQ 和 iOS QQ 可以显示网络状态(2G/WiFi)之后,突然想到,这样子好像可以监视某人的出行和作息规律。简单的来说,在家里或者工作的地方,一般是有 WiFi 的,然后出门了, WiFi 就断掉了。如果监测频率足够频繁,那么结合一定的推理,可以大致推测出一个人的行动。如果长期监视,那么可以大致推出一个人的作息时间。因为只有 Android QQ 和 iOS QQ 有这个功能,所以要得到一个人的网络状态比较麻烦。我的做法是跑 Android 模拟器。然后用按键精灵模拟,并把网络状态截图,用 curl post到服务器上。服务器会把每次发送的时间、截图保存下来。因为是用程序截图的,所以只要网络状态是一样的,那么截图就是一样的,这样服务器就只会保存2~3张图片而已,其余的发现是相同的图片,数据库做个标记就好了。然后人工做 OCR ,还是注意到只有2~3张图片,所以工作量很少。得到数据后,要做各种统计就可以自己乱搞了……不过有个问题就是: iPhone 似乎 Wi-Fi 掉了之后不会自己连上去,除非重新点亮屏幕……Github: 这个是查看数据的页面:这个是人工 OCR 的页面:=============================================================啊,我只是发现了可以做这种事,真的没有恶意啊!第 1 条附言
320 天前新增 Timeline 功能。第 2 条附言
316 天前前天增加了同时监视多人的功能,更新了下按键精灵的脚本,现在应该更方便了。个人能力和精力不足(加上这是第三次 append),所以此贴基本完结。如果前辈们愿意指教,还请回复 or 联系我,我将不胜感激。说下我的发现吧:1. iPhone QQ 在 3G/4G/WiFi 状态下,如果 QQ 不在前台的话,30分钟后会自己变成 iPhone 2G 在线。2. iPhone QQ 在晚上12点会准时集体显示不在线,直到早上8点又集体以 iPhone 2G 在线形式出现。3. Android 似乎没有上述问题,应该比较准确(对 Android 观测不足)4. 感觉这个网络状态的更新还是比较准的。我监视了自己的另一个号,当网络环境更改时(WiFi-&4G / 4G-&WiFi),只要 QQ 在前台运行,就会立即更新。5. 最初我的想法是通过这个工具直接监视行动、作息,后来发现受到 iPhone 的种种限制。虽然这个工具不再那么精确,甚至出现了盲区(00:00~08:00及 QQ 不在前台的半个小时后),但是我发现,这个工具可以非常好的配合其他社工手段。我有实验过(例如,某对你说,他有事要出去了,好,你看到他30分钟后立马由 WiFi 转成 2G,嗯,那他说的就是真的;再例如,你发现某一直都是2G 状态,可以发条 iMessage 给某,过了段时间发现某回了 iMessage ,然后 QQ 就变 WiFi 在线了,从中就可以推测某可能之前一直在忙,没有空玩手机之类的……)总之,可以作为一个非常好的辅助工具。=================================================啊,我真的没那么邪恶的(做这个事情觉得罪恶感好强

我要回帖

更多关于 有没有什么好玩的网游 的文章

 

随机推荐