冯亮作为一名计算机专业博士三年级的学生,每天跟其他年轻学者一样奋斗在学术第一线。对于他们来说,信息检索既是刚需,也是痛点。尤其是中文学术资料搜索,虽然有学校提供的检索数据库,但是整天在万方、知网、维普几个平台之间轮询检索,也是一件痛苦的事情。
今年6月份以来,冯亮突然发现自己在学术搜索方面的痛苦指数降低了。原来,百度学术上线之后,充分利用自己“不偏科”的优势,成功上位,解决了广大学者们最关心的问题。通过百度学术搜索,竟然可以直达国内最具影响力的知网空间(CNKI)、万方、维普等学术站点。而十月份以来,百度学术搜索在重装上阵之际,祭出四大武器,分分钟改善了冯亮的学术生活。下面,我们就来看看这四大武器的真面目吧。
(一)高级搜索与高级筛选双箭齐发 让您的搜索更精准
信息化时代,用户最大的困扰不是缺乏信息而是资源海量且分散,学者查找文献亦如此。为了提高用户搜索效率和准确度,百度学术增加了高级搜索和高级筛选的服务。
在高级搜索中,用户可以根据主题词、作者、出版物、检索词位置、时间段等进行单独搜索和组合搜索。
高级筛选则是细化用户需求,支持按专业领域、时间、论文类型和收录数据库等对结果进行细化筛选。最贴心的莫过于根据中国学术国情,本土化原创定制的“核心索引”,不仅可以大大提高论文文献质量,更可以满足某些论文对文献来源的特殊要求。
这个高级双引擎武器,使得我们的学术搜索更加随心所欲,可以按照个人的搜索习惯更加便捷地找到所需。
(二)精准知识推荐和深度知识提示 让你的搜索更全面
相信许多学者用户在搜索文献时,都有“学到很多”的体会。也就是用户在阅读相关文献时发现新的关键词,然后回到搜索框依次输入搜索。这不仅效率低,更考验用户的记忆力和判断力。
百度学术搜索为了帮助学术用户获得全方位的学术知识,特地在页面右侧增加了关联知识卡片和深度知识提示服务。关联知识卡片是根据用户的搜索内容做的精准知识推荐,它的形式是以知名学者、期刊、会议为中心建设知识库,挖掘各知识库之间的关联,为用户做学术的铺路人。而深度知识提示就是对每一条检索到的论文,都可以方便查看其作者或出版源的全部文献列表。除此之外,新增的文献计量评价功能可以深度揭示文献之间的引用关系,可以进一步查看每篇文献被其他哪些文献所引用。
这个知心爱人般的新武器,可以使我们基于现有知识点,通过网络精准推荐来迅速扩展知识面。
这是本项目的开篇,在这个小项目中,将要基于爬虫和GUI编程写一个写个小工具,目的是不用打开浏览器,也能搜到一些关键信息,并将这些信息持久化保存下来,读者可以对这些数据进行分析,比如舆情分析,或作为 NLP 的语料输入。
众所周知,搜索引擎的一个核心技术就是爬虫技术,各大搜索引擎的爬虫将个网站的快照索引起来 ,用户搜索时,输入关键词并回车后,基于搜索引擎的浏览器就将相关信息按照一定排序规则展现给用户,今天分享的这个爬虫,是爬取百度爬虫爬取的内容,听起来,有点像俄罗斯套娃。
话不多说,先用一张图,说明要爬取的内容
如图,爬取的目标是百度咨询下的每一条内容,包括标题、来源、时间和内容,并且翻页爬取、爬完能够自动停止,而且能够按照焦点/时间排序。
经过调试分析,发现排序规则和参数rtt相关,rtt = 1 是按照焦点排序,rtt = 4 是按照时间排序,这样就很容易解决排序抓取的问题。
翻页只需要控制pn参数即可,其值等于当前页码 * 10;爬完自动停止,首先要知道什么时候爬完,从上面图中可以发现,网页上有“找到相关资讯约535,000篇”,好家伙,除以每页 10 篇,总页数就知道了,就知道什么时候停止了。
下面就是写代码逐渐实现的过程了。
然后稍微小炒一下,拿到总篇数,但是不能浪费这次请求,毕竟这个页面上也有 10 篇文章需要解析,所以第一次请求的目的是拿到停止条件同时解析前 10 篇,注意它和后面的请求处理过程多了拿到总篇数这个过程,所以不放在后面的循环里。
(点击文末阅读原文可直达)
本项目的下一部分,等我找好朝天椒,再爆炒上桌,莫急莫急。