文本检索就是科技文献检索索吗

中文信息检索及相关问题的研究 ...
扫扫二维码,随身浏览文档
手机或平板扫扫即可继续访问
中文信息检索及相关问题的研究
举报该文档为侵权文档。
举报该文档含有违规或不良信息。
反馈该文档无法正常浏览。
举报该文档为重复文档。
推荐理由:
将文档分享至:
分享完整地址
文档地址:
粘贴到BBS或博客
flash地址:
支持嵌入FLASH地址的网站使用
html代码:
&embed src='/DocinViewer-4.swf' width='100%' height='600' type=application/x-shockwave-flash ALLOWFULLSCREEN='true' ALLOWSCRIPTACCESS='always'&&/embed&
450px*300px480px*400px650px*490px
支持嵌入HTML代码的网站使用
您的内容已经提交成功
您所提交的内容需要审核后才能发布,请您等待!
3秒自动关闭窗口用于文本数据挖掘和信息检索的matlab工具箱 - 下载频道 - CSDN.NET
&&&&用于文本数据挖掘和信息检索的matlab工具箱
&用于文本数据挖掘和信息检索的matlab工具箱
可以用于各种数据挖掘和信息检索任务的matlab工具箱,利用matlab中稀疏矩阵这种结构,尤其适合于文本挖掘应用。
若举报审核通过,可奖励20下载分
被举报人:
fanruinjupt
举报的资源分:
请选择类型
资源无法下载
资源无法使用
标题与实际内容不符
含有危害国家安全内容
含有反动色情等内容
含广告内容
版权问题,侵犯个人或公司的版权
*详细原因:
您可能还需要
Q.为什么我点的下载下不了,但积分却被扣了
A. 由于下载人数众多,下载服务器做了并发的限制。若发现下载不了,请稍后再试,多次下载是不会重复扣分的。
Q.我的积分不多了,如何获取积分?
A. 获得积分,详细见。
完成任务获取积分。
评价资源返积分。
论坛可用分兑换下载积分。
第一次绑定手机,将获得5个C币,C币可。
下载资源意味着您已经同意遵守以下协议
资源的所有权益归上传用户所有
未经权益所有人同意,不得将资源中的内容挪作商业或盈利用途
CSDN下载频道仅提供交流平台,并不能对任何下载资源负责
下载资源中如有侵权或不适当内容,
本站不保证本站提供的资源的准确性,安全性和完整性,同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
开发技术下载排行
你下载资源过于频繁,请输入验证码
如何快速获得积分?
你已经下载过该资源,再次下载不需要扣除积分
用于文本数据挖掘和信息检索的matlab工具箱
所需积分:5
剩余积分:
VIP会员,免积分下载
会员到期时间:日
剩余下载次数:1000
VIP服务公告:维基百科,自由的百科全书
文本信息检索是针对文本的技术。在技术社区中,文本信息检索常常被等同于信息检索技术本身。
相对视频、音频检索而言,文本信息检索是发展较快也较成熟的,其他模态的信息检索技术,往往也要仰赖文本信息检索的支持。
虽然目前已不仅仅局限于对文本进行检索,文本信息检索仍然是大部分的基础。
自人类的文字产生起,如何快速地从大量的,记录在各种各样的存储媒体中尋找或獲取信息就成为一个引人注目的问题。这个问题关系到人类如何能够主动地获取自己需要的知识。因此,文本信息检索技术甚至可以追述到古代的书籍编目。但是直到近一个世纪,随着人类的知识以前所未有的速度急剧膨胀,信息存储方式越来越丰富,使得在海量的,多模态的信息库中进行快速、准确的检索成为急迫的需求。1945年,Vannevar Bush的论文《就像我们可能会想的……》第一次提出了设计自动的,在大规模的存储数据中进行查找的机器的构想。这被认为是现在信息检索技术的开山之作。进入50年代后,研究者们开始为逐步的实现这些设想而努力。在50年代中期,在利用对文本数据进行检索的研究上,研究者取得了一些成果。其中最有代表性的是Luhn在公司的工作,他提出了利用词对文档构建索引并利用检索与文档中词的匹配程度进行检索 的方法,这种方法就是目前常用的的雏形。
在60年代,信息检索技术的一些关键技术取得了突破。其间出现了一些优秀的系统以及评价指标。在评价指标方面,由Cranfield的研究组组织的Cranfield评测提出了许多目前仍然被广泛采用的评价指标,而在系统方面,Gernard Salton开发的SMART系统构建了一个很好的研究平台,在此平台上,研究者可以定义自己的文档相关性测度,以改进检索性能。这样,作为一个研究课题,信息检索技术拥有了较为完善实验平台与评价指标,其研究理所当然地步入了快车道。也正因为如此,在70年代到80年代,许多信息检索的理论与模型被提出,并且被证明对当时所能获得的数据集是有效的。其中最为著名的是Gerard Salton提出的向量空间模型
。至今该模型还是信息检索领域最为常用的模型之一。但是,检索的对象——文本集合的缺乏使得这些技术在海量文本上的可靠性无法得到验证。当时的研究大多针对数千篇的组成的集合。这时,美國國家標準技術研究所(NIST)组织的文本检索会议(Text Retrieval Conference, TREC)的召开改变了这一情况。TREC是一个评测性质的会议,为参评者提供了大规模的文本语料,从而大大推动了信息检索技术的快速发展。会议的第一次召开是1992年,不久后,互联网兴起为信息检索技术提供了一个巨大的实验场。从到,大量实用的文本信息检索系统开始出现并得到广泛应用。这些系统从事实上改变了人类获取信息与知识的方式。
目前,在文本检索领域,简单的信息检索已经开始向更加复杂且人性化的演化,引入了信息抽取技术以提取文档中的结构化信息。
早期的信息检索系统采用“布尔查询”的方法来进行全文检索。这种方法无疑将构造一个合适的查询的责任推到用户身上。用户必须详细的规划自己的查询,其复杂程度不亚于编程语言。这种检索方式并不提供任何的文档相关性测度,对于文档与查询的评价就只有“匹配”,“不匹配”两种而已。这两点问题决定了布尔查询不能被广泛应用。但是,由于布尔检索能够给用户提供更多的可控制性,今天我们仍然可以在搜索引擎的“高级搜索”中找到布尔查询的身影。
对于大规模的语料库,任何检索都可能返回数量众多的结果,因此对检索结果进行排序是必须的。因此,一个好的信息检索模型必须提供文档相关性测度。一个好的测度应该使与用户查询需求最相关的那些结果,排在最前面,同时允许尽可能多的,与用户查询有一定关系的结果被包括进来。目前,最为常用的信息检索模型有三种:
向量空间模型 (Vector Space Model, VSM)
概率模型 (Probabilistic Model)
推理网络模型 (Inference Network Model)
最早由Gerard提出。在此模型中,一个文档(Document)被描述成由一系列关键词(Term)组成的向量。模型并没有规定关键词如何定义,但是一般来说,关键词可以是字,词或者短语。在中,还可以是混淆类、音子、音子串等等单元。假设我们用“词”作为Term,那么在词典中的每一个词,都定义向量空间中的一维。如果一篇文档包含这个词,那么表示这个文档的向量在这个词所定义的维度上应该拥有一个非0值(对绝大多数系统来说,是正值)。
当一个查询被提交时,由于这个查询也是由文本构成,所以也可以被向量空间所表示。模型将对查询与文档,计算一个相似度需要注意的是,模型也没有对相似度给出确切的定义。它可以使欧氏距离,也可以是两个向量的夹角的。
假设表示文档向量,而表示查询向量,文档与查询的相关性可以用余弦距离表示如下:
如果我们用和表示和中的第维的值,并且对每个文档矢量进行归一化,即令,那么上式有可以表示为
在此,究竟如何取值是一个重要的问题,其取值一般被称为关键词在文档D中的权重。关键词权重问题将在随后进行专门的讨论。
传统向量空间模型的一个问题是各个维度间缺乏相关性,因而无法对文档中各个词的相关性提供信息。从宏观上看,仍然没有摆脱“关键词匹配”的窠臼。一个自然的想法就是对文档特征——文档向量进行降维,将维数巨大的文档向量投影到某个较小维度的空间中,使得关键词之间即使不完全匹配,也能够根据语义发生关系。这就诞生了潜语义索引(Latent Semantic Indexing),它通过对向量空间进行奇异值分解,将高维文档向量投射到低维潜语义空间中。潜语义索引随后被融入概率模型框架中,形成了基于概率模型的PLSI(Probabilistic Latent Semantic Indexing), 和LDA(Latent Dirichlet Allocation)。
概率模型的基本思想是估计文档与查询相关联概率,并对所有文档根据关联概率进行排序。这一模型最早由Maron和Kuhn在1960年提出。在给定查询的情况下,用表示文档与查询相关的概率,而用表示文档与查询不相关的概率。 那么,就可以用
对文档进行排序。利用贝叶斯公式,可以很容易的将上面的公式变为产生式的形式:
由于和同文档无关,上面的公式可以最终表示为:
概率模型的主要任务就集中在估计和上。
推理网络模型是一种较上述两中模型更为一般化的模型,上述模型都可以归结为推理网络模型的一种实现。在此模型下,仅仅规定文档以某种 “力度”产生某个来自查询的关键词,至于力度如何定义,则完全没有规定,即可以是概率,也可以是关键词权重。
在信息检索系统的具体实现中,需要快速地找到文档中所包含的关键词。相比文档来说,关键词的个数是较少的,因此,以关键词为核心对文档进行索引是更加可行的方法。这就是信息检索领域常用的“倒排文档索引”技术。倒排文档索引可以被看成一个链表数组,每个链表的表头包含关键词,其后续单元则包括所有包括这个关键词的文档标号,以及一些其他信息。这些信息可以是文档中该词的频率,也可以是文档中该词的位置等信息。
倒排文档示例
倒排文档索引的优势不仅在于关键词个数少带来的检索效率提高,还在于其特别易于同信息检索技术结合。在实际应用中,查询中所包含的关键词往往是很少的,完全不包含查询中的所有关键词的文档,一般来说是不会被列入结果集的。因此,以关键词为主键进行索引,只需要用查询中包括的关键词,进行几次简单的查询就能够找出所有可能的文档。
倒排文档索引的具体数据结构可以进行进一步的优化。在关键词查询上,往往采用B-Tree或进行快速查询。而文档列表的数据结构则可以采用简单的无序列表进行存储,但是此种无序列表存在一个问题,就是当多个关键词对应的文档集需要进行比较的时候,比较效率将比较低。因此,在实际应用中往往采用组织文档列表。
关键词对于区分文档的作用是不同的。例如一些虚词对于区分文档的内容与查询是否相关并没有多大的意义。
对于概率模型而言,可以有完备的理论来估计每篇文档生成某个词的概率,因而其主要工作集中于如何确定较好的概率估计方法。而对于向量 空间模型来说,确定关键词权重在很大程度上依赖于研究者的经验及对文档特性的分析。
目前,对关键词权重的确定方法一般都需要获取一些关于关键词的统计量,而后根据这些统计量,应用某种认为规定的计算公式来得到权重。 最常用的统计量包括:
tf,Term Frequency的缩写,表示某个关键词在某个文档中出现的频率。
qtf,Query Term Frequency的缩写。表示查询中某关键词的出现频率。
N,集合中的文档总数
df,Document Frequency的缩写,表示文档集合中,出现某个关键词的文档个数。
idf,Inversed Document Frequency的缩写。
dl,文档长度
adl,平均文档长度
在向量空间模型下,构造关键词权重计算公式有三个基本原则:
如果一个关键词在某个文档中出现次数越多,那么这个词应该被认为越重要。
如果一个关键词在越多的文档中出现,那么这个词区分文档的作用就越低,于是其重要性也应当相应降低。
一篇文档越长,那么其出现某个关键词的次数可能越高,而每个关键词对这个文档的区分作用也越低,相应的应该对这些关键词予以一定的折扣。
早期的权重往往直接采用tf,但是显然这种权重并没有考虑上述第二条原则,因此在大规模系统中是不适用的。目前,常用的关键词权重计算公式大多基于tf和df进行构建,同时,一些较为复杂的计算公式也考虑了文档长度。现简要列举如下:
得分。严格地说,TF/IDF得分并不特指某个计算公式,而是一个计算公式集合。其中TF与IDF都可以进行各种变换,究竟何种变换较能符合实际需求,需要由实验和应用来验证。常见的变换方法有:
其中,最后一个公式,即:被大量系统证明是最有效的。
此外,较为常用的关键词权重算法还包括Okapi权重和Pivoted Normalization 权重(PNW)。这些公式综合考虑了查询和文档中的词频,以及文档的长度。Okapi权重需要预设三个参数:
,在1.0-2.0之间
,通常为0.75
,在0-1000之间
而PNW则需要预设一个参数,大部分情况下取0.20。
任何研究都需要有一个客观的评价体系,信息检索系统也不例外。但是对于一项需要在实际生产生活中应用的系统,其评价导向又必须包含一定的主观性。信息检索系统性能的两个基本客观指标是召回率(Recall Rate)和准确率(Precision Rate),这与绝大多数的模式识别技术相同。用表示检索系统所针对的检索集合,表示一个查询,而表示查询所返回的相关文档集, 表示文档集中与查询相关的所有文档。并定义算符为集合中元素的个数,有召回率、准确率的定义如下:
由于信息检索系统返回的是一个排序的文档集合,因此召回率与准确率是互补的。设定不同的相关性得分门限就能够得到相应的准确率与 召回率。如果我们在以准确率为Y轴,召回率为X轴的图上画出不同门限下的准确率与召回率,一般它会程下面的形状:
那么,对于系统的评价指标就存在一个问题,如果一个系统偏重与给用户最准确的结果,那么高的准确率是必要的,反之,如果系统 希望包括尽可能多的相关结果,又会偏好召回率。系统如果简单的用召回率或准确率对系统性能作评价,无法评估系统的理想性能的。
模式识别中常用F值作为性能的评价指标,其定义为
F值可以平衡地反映召回率与准确率,但是在信息检索中仍然不是非常实用,因为它仍然是一个单点的指标,没有反映全局特性。为了得到 一个能够反映全局性能的指标,可以看考察下图,其中两条曲线分布对应了两个检索系统的准确率-召回率曲线。
可以看出,虽然两个系统的性能曲线有所交叠但是以圆点标示的系统的性能在绝大多数情况下要远好于用方块标示的系统。从中我们可以 发现一点,如果一个系统的性能较好,其曲线应当尽可能的向上突出。更加具体的,曲线与坐标轴之间的面积应当越大。最理想的系统, 其包含的面积应当是1,而所有系统的包含的面积都应当大于0。这就是用以评价信息检索系统的最常用性能指标,平均准确率(mean Average Precision, mAP)。其规范的定义是,设为系统在召回率为R时的准确率,
当然,一般在做评价时取得的准确率与召回率都是离散值,因此一般在计算时都采用求和而非积分。
mAP是一个较好的客观评价指标,但是它也有一个缺陷,那就是缺乏直观性。因此在系统评测时常常还是要附带上准确率-召回率曲线。在实际 应用中,还有一些单值评价指标,能够反映系统的主观性能。其中最常用的是N-Best准确率。一般系统的返回结果都采用分页显示,用户一般 不会翻看太多页,因此前几个结果在检索中是最为重要的。N-Best准确率可以很好的反映这个性能。
V. Bush, “As We May Think”, Atlantic Monthly, vol. 176, pp. 101–108, 1945
H.P. Luhn, “A statistical approach to mechanized encoding and searching of literary information”,IBM Journal of Research and Development, vol. 1(4), pp. 309–317, 1957.
C.W. Cleverdon, “The Cranfield tests on index language devices”, in Aslib Proceedings, vol. 19, pp. 173–192, 1967.
G. Salton, “The SMART Retrieval System–Experiments in Automatic Document Retrieval”, Tech. Rep., Prentice Hall Inc., Englewood Cliffs, NJ, 1971.
G. Salton, A. Wong, and C.S. Yang, “A vector space model for information retrieval”, Communications of the ACM, vol. 18(11), pp. 613–620, 1975.
G. Salton and C. Buckley, “Term-weighting approaches in automatic text retrieval”, Information Processing and Management, vol. 24(5), pp. 513–523, 1988.
G. Salton and M. J. McGill, Introduction to Modern Information Retrieval, McGraw Hill Book Co., 1983.
S. Deerwester, S.T. Dumais, G.W. Furnas, T.K. Landauer, and R. Harshman, “Indexing by latent semantic analysis”, Journal of the American Society for Information Science, vol. 41(6), pp. 391–407, 1999.
T. Hofmann, “Probabilistic latent semantic indexing”, in Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval, pp. 50–57, 1999.
D. M. Blei, A. Y. Ng, and M. I. Jordan, “Latent dirichlet allocation”, J. Mach. Learn. Res., vol. 3, pp. 993–.
M.E. Maron and J.L. Kuhns, “On relevance, probabilistic indexing and information retrieval”,Journal of the ACM, vol. 7, pp. 216–244, 1960.
S. E. Robertson, S. Walker, and M. Beaulieu, “Okapi at TREC7, automatic ad hoc, filtering, VLC and filtering tracks”, in Seventh Text REtrieval Conference (TREC-7), pp. 253–264, 1999.
A. Singhal, J. Choi, D. Hindle, D. Lewis, and F. Pereira, “AT&T at TREC 7”, in Proceedings of the Seventh Text REtrieval Conference (TREC-7), vol. 500, pp. 239–252, 1999.
高勤 汉语语音文档检索技术研究及系统实现 北京大学硕士研究生学位论文文本信息检索会议_百度百科
关闭特色百科用户权威合作手机百科 收藏 查看&文本信息检索会议本词条缺少信息栏、名片图,补充相关内容使词条更完整,还能快速升级,赶紧来吧! 由美国国防部高等研究计划署(DARPA)与美国国家标准和技术局(NIST)共同举办的TREC(文本信息检索会议)就是一直基于此方法组织信息检索评测和技术交流论坛。提供跨语言检索(CLIR)、博客、问答系统等多个track的评测及相关数据。
新手上路我有疑问投诉建议参考资料 查看中科院大牛博士是如何进行文献检索和阅读_中华文本库
第1页/共13页
文本预览:
江苏省职业病哨点监测工作方案根据卫生部《重点职业病监测技术方案》有关要求,结合我省实际,制定本方案。一、监测目的通过对接触重点职业病危害因素的人群监测,掌握我省哨点监测地区职业病危害因素暴露水平、人群分布、地区分布动态和特征;掌握哨点监测地区职业病危害因素对暴露人群健康状况影响及职业病发病的特点、动态、流行规律。为预测哨点监测地区职业病流行趋势、制定防治对策、措施提供科学依据。二、监测点的设置和确定根据卫生部《重点职业病监测技术方案》的要求选定监测点,结合当前江苏省职业病发病情况和国家《重点职业病监测技术方案》的要求,本次在全省建立5个重点职业病监测哨点,开展对煤工尘肺、苯及其苯系物中毒、锰中毒和汞中毒4种重点职业病的监测,具体哨点建立情况见附表1。监测哨点应设在工作场所存在以上4种职业病危害因素的用人单位。监测用人单位数不少于辖区内存在同一种职业病危害因素用人单位总数的60%,其中小规模用人单位数不低于50%,同时兼顾非正规经济组织(家庭作坊式企业)。三、监测内容和方法(一)、监测范围、对象及数量监测点选择存在所选职业病病种的1个县(区)或1个市作为固定点连续监测。监测对象主要是监测点与所选职业病病种有关行业的重点接触人群,如与职业性锰中毒有关的重点接触人员。固定监测点首次摸底调查人数应包括监测点内接触和非接触所有人数,监测人群从接触人群中随机抽取,人数不少于1000人,监测人群的年龄18-50岁。(二)、监测内容(1)收集辖区基本情况资料①人口资料和经济指标:上年度辖区面积、主要自然资源。监测点内人口资料和总劳动力数(包括流动人口)。按年龄别、性别、受教育程度、城乡人口分别统计,此材料按当地最近一次人口普查资料填写,具体调查内容见附表4和附表5。②产业分布和职业人口指标:上年度辖区内的企业基本情况、主导工业的分布情况、产业结构、主要经济指标、职工数、生产工人数、主要职业病危害、接触职业病危害人数、生产总值和构成,具体调查内容见附表4和附表5。③职业病危害因素暴露人群分布、行业分布、地区分布的资料:按照《中华人民共和国职业病防治法》,各监测点县级疾病预防控制机构要及时收集人口资料、职业病危害因素暴露人群资料、行业或职业分布、地区来源调查,并填写附表,具体调查内容见附表4和附表5。现场调查时,要对所有职业病个案调查,具体调查内容见附表2和附表3。并将个案调查表录入数据库,在上报职业
第1页/共13页
寻找更多 ""

我要回帖

更多关于 科技文献检索 的文章

 

随机推荐