求元数据相关英文的文章毕业论文格式要求,或可以提供能免费下载的地址,先谢谢啦 邮箱

&& 查看话题
关于英文文章的 通讯作者
可不可以在投稿的过程中先把自己的邮箱当作通讯作者
当文章被录用了以后再将通讯作者改成老板呢?
对这个问题 有经验,有把握的虫子 请指点下,万分感谢
以前这个事情问老板的时候老板曾和我大发雷霆,老板说从头到尾,他都必须是通讯作者,但这样自己查文章或者催得时候很麻烦,还得找老板,老板还不一定愿意帮忙联系编辑部,愁死人了
应该可以的,不过老板始终是通讯作者 总之得和老板搞好关系&&自己看吧 老板曾和我大发雷霆-------老板都发火了,你还敢。
你可以注册个邮箱,作为通讯作者的邮箱,只要稿件上的那个是真的就行了。这样肯定得罪你老板了。以前上学时。老板经常出差。我们都是给他注册个邮箱,从他的邮箱上线去approve.:D:D 应该可以的,但是要谨慎,有的杂志会有特别的要求,另外和老板的关系要处理好啊 这个是可以的。我发表文章的时候,文章上面一直写的都是老板是通讯作者,但是在投稿系统里,你可以说你是通讯作者,等文章接收了,主编会问你谁是通讯作者,这时候你就可以从系统里改过来! 这个老板的要求了
很多很多期刊都可以这样操作了 如果老板执意他负责整个投稿过程 那就让老板去搞吧。 明白了
感觉遇上一个JP变态老板真是极度郁闷啊 应该是可以的吧,我一个朋友这么干过。但我主要考虑楼主的动机问题,一般都是老板的邮箱的。如果学生投文章老板都不知情的话,老板确实很郁闷,如果老板知道的话为啥不是老板的邮箱呢。而且有的期刊不一定这么好改通讯作者的呀 最好一开始就将老板的邮箱作为通信作者,一般处理稿件用自己的。反正到后面改挺麻烦,老外不像中国人,他以为你不诚信。 个人感觉LZ的做法可行,问题出在老板那里。个人建议:寄人篱下,还是按老板的意思做吧。 这个就是你老板不了解了。
我们组都是以自己的名义申请账号和邮箱的。一切的最终定稿都是以文章正文为准。
我们用自己信箱往elsevier投稿具体过程是这个样子:
1.我们用a邮箱(自己邮箱)注册并投稿,但是稿件正文里标注的通讯联系人是老板和他邮箱b
2.在编辑审稿阶段,编辑不会跟b联系,自始至终跟a联系。
3.当稿件接收后,稿件就离开编辑部,转入出版社出版阶段,这个时候你申请的账户也不会再变动,会停留在accept。那么出版社联系你得时候,就不知道你申请的邮箱a了,就会与文中的通讯联系人邮箱b联系。
罗嗦这么多,就是跟你说,你老板out了。审稿过程中不管你用的是什么邮箱,最终的终稿都是以正文为准的。但是现在好多杂志社注册时候可以同时填写两个邮箱的,你老板实在是不让你用自己邮箱,就可以同时填写两个,这样管他收到没收到的,你都能收到出版社信息,当然这也仅限于审稿阶段。到了出版阶段,就没有办法了,不过出版阶段对咱们学生来说也不那么重要了。文档分类:
在线文档经过高度压缩,下载原文更清晰。
淘豆网网友近日为您收集整理了关于【精品推荐】PDF科技论文语义元数据的自动抽取研究.pdf的文档,希望对您的工作和学习有所帮助。以下是文档介绍:【精品推荐】PDF科技论文语义元数据的自动抽取研究.pdf 专业推荐↓精品文档102
现代图书情报技术PDF科技论文语义元数据的自动抽取研究3张秀秀 马建霞(中国科学院国家科学图书馆兰州分馆 兰州 730000)【摘要】在分析 PDF文件结构的基础上,解析 PDF文件的内容流,并采用基于规则的匹配方法和基于格式的定位方法,自动抽取科技论文中的语义元数据信息。实验结果表明,上述方法对标题、作者等重要的语义元数据信息能够达到较好的抽取效果。【关键词】PDF 科技论文 语义元数据 自动抽取【分类号】TP391. 43Automatic Extraction of Semantic M etadata from PDF Research PapersZhang Xiuxiu Ma Jianxia( The Lanzhou Branch of National Science Library, Chinese Academy of Sciences, Lanzhou 730000, China)【Abstract】This paper analyzes content streams of(来源:淘豆网[/p-.html]) PDF files based on its structure, and extracts semantic metadata auto2matically from research papers byway of rule - based matching and format - based locating. Experimental results show thatthis method can extract important semantic metadata such as title and author effectively.【Keywords】PDF Research paper Semantic metadata Automatic extraction
收稿日期: 2008 - 11 - 03
收修改稿日期: 2008 - 11 - 21
3 本文系中国科学院国家科学图书馆青年人才领域前沿项目“元数据自动抽取工具在数字知识库建设中的应用研究与开发”和(来源:淘豆网[/p-.html])国家社会科学基金项目“机构知识库建设与应用研究”(项目编号: 07BTQ019)的研究成果之一。1 引 言 元数据提供了网络资源描述、表达、管理和使用的基本方案,是网络资源组织和检索的核心所在。随着计算机技术和网络技术的迅猛发展,面对海量文献描述的需要,如何快速、高效地产生元数据成为数字图书馆建设过程中面临的一大难题。当前数字图书馆建设过程中,元数据大多由人工逐条标记输入,这不仅花费了大量的人力、物力和时间,而且也越来越不能满足海量文献管理的需要。若元数据信息可以自动生成、自动抽取,必将大大减轻信息人员的工作负担,极大地提高工作效率。 网上发布的科技论文大多以 PDF形式存在,因此,本文的研究将针对 PDF格式的论文展开。文章首先介绍了 PDF文件的物理结构和逻辑结构,然后在对 PDF文件直接进行文本、格式解析的基础上,依据科技论文中文本内容的组织方式和排版格式等信息,采用基于规则的匹配方法和基于格式的定位方法,实现相关元数据的自动抽取,其中最主要的工作是抽取出论文的标题、作者、摘要、关键词(来源:淘豆网[/p-.html]) 4种重要的语义元数据。2 元数据自动抽取的相关研究 元数据抽取是信息抽取的一个分支,随着元数据自动抽取的内在需求不断增长,国内外学者对元数据自动抽取技术展开了一系列的理论研究。 元数据自动抽取的方法大体可以分为两类:基于规则的方法和机器学习的方法。基于规则的方法采用基于应用实践XIANDA I TUSHU Q INGBAO J ISHU
模式识别和模式匹配的模板挖掘技术达到抽取自由文本的目的,如:文献[ 1 ]利用正则表达式规则从 PDF文档中抽取首页元数据;文献[ 2 ]采用基于层级知识描述框架的 InfoMap方法抽取引文元数据等。基于规则的方法易于理解和操作,并且如果规则制定得当,抽取效果将十分理想。但是基于规则的方法需要专业人员预先设计一系列规则,而且如果抽取的目标发生变化则会有规则不适应的情况出现。机器学习的方法采用另外一种思路,它通过训练样本并建立样本的输入与输出之间的关系来预测新数据,如文献[ 3 ]采用最大熵等模型从常见文档中抽取标题元数据;文献[ 4 ]采用(来源:淘豆网[/p-.html])条件随机场模型抽取多种通用元数据;文献[ 5 ]采用概率评估模型抽取引文元数据等。机器学习的方法具有良好的适应性,但机器学习的方法建立起来的模型,其有效性依赖于训练样本的数量和质量。 文献[ 6 ]利用 PDF2HTML工具将 PDF格式的文件转化成 XML格式的中间文档,再利用转化过程中保留的文件格式信息抽取论文的首页元数据。利用文件格式信息抽取元数据启发了元数据自动抽取的新思路,改变了基于规则的方法和机器学习的方法只能从结构松散或者纯文本中抽取有用信息的一贯做法,但是目前的 PDF转化工具转化效果参差不齐,难免在转化过程中造成一些格式信息的失真。 本文的工作主要借鉴了文献[ 1 ]和文献[ 6 ]的研究成果,不同之处在于文献[ 1 ]中的元数据抽取仅仅依赖基于规则的方法,处理的对象是自由文本,而本文对于具有明显文本特征的关键词和摘要采用基于规则的方法抽取,对于论文标题和作者则更多地利用格式特征进行定位。另外,本文与文献[ 6 ]的抽取工作也有差别,文献[ 6 ]利用工具 PDF2HTML(来源:淘豆网[/p-.html]) 首先将 PDF文件转化,实际处理的对象是转化后的 XML 文档,而本文将解析 PDF文件并直接获取文件中的文本与格式信息。3 PDF文件结构 PDF是一种标签命令式的结构化文档格式,支持7位 ASCII码和多种压缩编码方式。一个原始的 PDF文件从结构上可以分为 4个部分:文件头、文件体、交叉引用表和文件尾[7 ]。文件头(Header)指明了文件所遵从的 PDF规范的版本号,它出现在 PDF文件的第一行。文件体(Body)是 PDF文件的主体部分,由许多序列化的间接对象组成,这些间接对象共同构成了 PDF文件的具体内容,如页面、字体、图像等。交叉引用表(Cross - reference Table)是一个关于间接对象的地址索引表,通过它能够实现对间接对象的快速随机存取。文件尾( Trailer)声明了交叉引用表的地址,指明了文件体的根对象,还保存了加密等安全信息。 PDF的文档结构反映了文件体中间接对象之间的等级层次关系,是一种树型结构,如图 1所示。树的根节点就是整个 PDF文件的根(来源:淘豆网[/p-.html])对象(Catalog) ,根对象包含多种属性,其中最重要的属性为页面属性,它包含了PDF文件用于显示文字、图形、图像等内容信息。图 1 PDF的文档结构4 语义元数据自动抽取的设计实现4. 1 PDF文件解析 根据文件尾提供的信息,可以找到交叉引用表和整个文件的根对象,从而读取 PDF文件。因此整个处理流程将从寻找文件尾的 Trailer关键字开始,具体步骤如下:
(1)从文件尾中找到属性标签/Root,取得其后的间接对象号,这个对象号标识了文档根对象的位置,是整个正文内容的入口;
(2)转入文档根对象,其标识为/Type /Catalog,在其中寻找属性标签/Pages,取得其后的间接对象号,这个对象号标识了文档页根对象的位置;
(3)转入文档页根对象,其标识为/Type /Pages,在其中寻找属性标签/Kids,取得其后的第一个间接对象号,这个对象号或者标识了文件第一页的对象位置,或者仍然是页根对象。如果情况为后者,则仍然执行步骤(3) ,否则执行步骤(4) ;
(4)转入文档(来源:淘豆网[/p-.html])页对象,其标识为/Type /Page,在其中寻找属性标签/Contents,如果找不到 Contents标签,总第 175期 2009年 第 2期104
现代图书情报技术则说明此页内容为空,否则取得其后的全部间接对象号,并以先序深度优先的顺序按步骤(5)依次处理这些内容对象;
(5)转入内容对象,提取/Filter标签后的解码名,并将 Stream与 Endstream之间的内容流存入一个字节数组中。在源代码中,字节数组显示的内容流为乱码,需要对其进行解码处理。 PDFBox开源软件包中的 Filer包提供了有关解码的方法,根据解码名调用相应的解码方法,可以获得解码后的内容流。 (6)将所有内容对象的解码流连接起来,组成第一页的内容流。图 2显示了某中文科技论文的文件头信息,图 3显示了其解码后的部分内容流。 ①文本对象:以 BT操作符开始,以 ET操作符结束,其内容既包括文本信息,也包括字体、位置等格式的信息;
②字体信息: Tf操作符用来设置字体信息,第一个参数描述字体名称,(来源:淘豆网[/p-.html])第二个参数描述字体大小,值越大,说明字体越大,反之则越小。另外,英文的 PDF文件习惯将 Tf的第二个参数值设为 1. 0,此时要从 Tm操作符获得字体信息。Tm操作符共有 6个参数,其中第一个参数基本上反映了字体大小;
③位置信息: PDF文件将打印区的左下角设置为打印原点, y轴正方向朝上, x轴正方向朝右。Td/TD操作符可以设置文本行的位置,第一个参数描述当前行的水平位移,第二个参数描述当前行的垂直位移;
④文本信息: Tj/TJ操作符用来设置文本内容,括号内的参数就是希望获得的文本串。4. 2 内容元数据抽取分析 科技论文是自由格式的文本组合,不同的出版商在论文排版方面有着不同的规定,这就决定了内容元数据的自动抽取具有一定的难度。但论文信息的组织仍有一定的规律可寻,经研究发现,大部分论文的框架都可以分为以下 6个部分:标题(可以有副标题) ;作者及相关信息(可以有多个) ;摘要;关键词(可以没有,英文文章不太注重关键字) ;文章主体;参考文献。 从抽取的角度看,主要关心的是前 (来源:淘豆网[/p-.html])4部分,因为它们基本涵盖了整篇论文的主要内容。另外,前 4部分基本上都出现在论文的第一页,所以为了提高抽取效率,在实际处理过程中仅对 PDF文件的第一页进行解析。 ( 1)标题的抽取 标题一般没有什么固定的位置,比如有些文章可能包含页眉信息,此时标题会出现在页眉以下;有些文章可能没有页眉信息,此时标题会出现在文章的第一行。另外,科技论文的研究领域涉及方方面面,因此标题也没有一个专用名词供识别。不过,绝大多数文章标题的字体都是整篇文章中最大的,因此可以根据标题的这一特征来定位和抽取。 具体实现中,通过扫描整个内容字符串,寻找所有Tf操作符并获得第二个参数的值,比较得出最大者。如果所有 Tf操作符的第二个参数值均为 1. 0,此时寻找所有的 Tm操作符并比较得出第一个参数值中的最大者。对应 Td /TD操作符位置上的文本串就是标题。 有些文章可能会有副标题,副标题的字体一般都比标题小,而且位于标题以下,另外,对于中文文章,副标题一般会以破折号“———”开始。 ( 2)作者名的抽取 作者名的抽取工(来源:淘豆网[/p-.html])作最为复杂,因为不同文献处理作者及相关信息的排版方式种类繁多,而且中英文文献略有差异。总体来说,作者名通常位于标题的下方、地址或邮件等的上方,可能会有一个或多个作者,但大多会在一行排列。中文文章伴随作者名的通常有作者单位信息,放在一对圆括号中,而英文文章伴随作者名的有作者单位信息,或者还有 E - mail信息。因此,在具体实现中,首先定位标题,如果标题以后不是副标题,那么就可以抽取作者信息了。但是怎样判断抽取结束呢? 可以考虑下面几种情况:应用实践XIANDA I TUSHU Q INGBAO J ISHU
①下一行是否以左括号开始;
②下一行中是否含有标识作者单位的名词,如 Depart2ment、Center、School、University、Institute等;
③下一行中是否含有标识作者 E - mail的文本符号“@”;
④下一行是否遇到标识摘要的专用名词“摘要”或者“Abstract”。 如果遇到上述 4种情况中的任何一种,都标志着作者名抽取结束。 ( 3)摘要的抽取 不论是中文摘要,还是英文摘要,通常都有一个专用名词供识别,即:
“摘要”+摘要描述,
或者 “Abstract”+Description。 一旦匹配到上述规则的表达式,就可以获取摘要信息了。 ( 4)关键词的抽取 关键词也有一个专用名词供识别,即:
“关键词”+关键词表,
或者 “Keywords”+ Keyword List。 一旦匹配到了上述规则的表达式,则可以获取关键词信息了。5 试验结果图 4 元数据自动抽取工具显示界面 图 4为项目组成员基于 Java语言自主开发的元数据自动抽取工具。该工具能够自动批量地抽取中英文的科技论文,并且在图形界面上显示标题、作者、关键词和摘要 4种重要的语义元数据信息。 为了评价该工具的抽取效果,本文对中英文的科技论文分别进行准确率测试。其中,中文测试集来源于《中国学术期刊全文数据库》,以“信息抽取”为关键词进行精确检索,共检索到文献 213篇;英文测试集来源于 Springer,以“Metadata”为关键词进行检索,共检索到文献 11 426篇,实际下载了前 200篇。实验结果见表 1。表 1 元数据自动抽取的实验结果中文英文标题 0. 841 0. 850作者名 0. 708 0. 683摘要 0. 914 0. 930关键词 0. 901 0. 974
从表 1可以看出,元数据自动抽取工具基本上能够较好地完成 PDF科技论文的语义元数据抽取。但是由于不同的期刊具有不同的论文版式,即便同一种期刊,不同类型的文献其版式也会有一定的差别,这就使得抽取结果不可避免的出现一定程度的偏差。 总体上,摘要和关键词抽取的准确率较高,而中英文标题抽取的准确率分别为 84. 1%和 85. 0%。造成标题无法正确抽取的原因可能有:
(1)标题并不是论文首页中字体最大的;
(2)某些未知原因使得解析的文本中有部分文字显示为乱码;
(3)论文可能是以扫描方式上传的,因此解析的内容流中提取不到文本信息。 中英文作者名抽取的准确率最低,分别为 70. 8%和 68. 3%。影响作者名抽取的准确率的原因可能有:
(1)标题定位错误,造成作者名的抽取规则失效;
(2)某些未知原因使得解析的文本中有部分文字显示为乱码;
(3)论文可能是以扫描方式上传的,因此解析的内容流中提取不到文本信息;
(4)作者名有规则以外的排版方式没有定义,如作者名出现在标题前等。6 结 语 采用基于规则的匹配方法和基于格式的定位方法可以解决大部分 PDF格式科技论文的语义元数据抽取。但是,毕竟没有任何规则可以涵盖现实世界中的总第 175期 2009年 第 2期106
现代图书情报技术所有情况,总会有规则之外的情况出现,使得元数据抽取的准确率降低。因而,对于首页元数据的格式特征和文本特征等方面的总结还需要进一步完善。参考文献:[1 ] 李朝光, 张铭, 邓志鸿, 等. 论文元数据信息的自动抽取[ J ].计算机工程与应用, 2002 (21) : 189 - 191, 235.[ 2 ] Min Yuh Day, Richard Tzong Han Tsai, Cheng Lung Sung, et al.Reference Metadata Extraction Using a Hierarchical Knowledge Rep2resentation Framework [ J ]. Decision Support System s, 2007 ( 43 ) :152
167.[ 3 ] Hu Y H, Li H, Cao Y B, et al. Automatic Extraction of Titles fromGeneral Documents Using Machine Learning [ J ]. Inform ation Pro2cessing and M anagem ent, ) : 1276 - 1293.[ 4 ] Yu J D, Fan X Z. Metadata Extraction from Chinese Research Pa2pers Based on Conditional Random Fields[ J /OL ]. [ 2008 - 10 -21 ]. http: / / ieeexplore. ieee. org/ stamp / stamp. jsp? arnumber =4405975&isnumber = 4405869.[ 5 ] Giles C L, Bollacker KD, Lawrence S. CiteSeer: An Automatic Ci2tation Indexing System [ J /OL ]. [ 2008 - 10 - 21 ]. http: / /clgiles.ist. psu. edu /papers/DL - 1998 - citeseer. pdf.[ 6 ] 陈俊林, 张文德. 基于 XSLT的 PDF论文元数据的优化抽取[ J ]. 现代图书情报技术, 2007 (2) : 18 - 23.[ 7 ] PDF Reference[ EB /OL ]. [ 2008 - 04 - 15 ]. http: / /www.
//pdf/pdfs/PDFReference13. pdf.(作者 E - mail: zhangxx@ llas. ac. cn)ALA发布经济萧条时期的图书馆推广工具箱 2009年 1月 13日,美国图书馆协会(American Library Association,ALA)发布了一项基于 W eb的新资源,为经济萧条时期的图书馆推广业务提供充分的依据。这项“经济困难时期的推广工具箱”可以通过网页 http: / /www. ala. org/ tougheconomytool2kit获取。 该工具箱提供的信息包括如何与决策者及媒体打交道,以及媒体对图书馆业的最新报道。工具箱还提供一系列的要点话题,这些话题包括如何阐明图书馆在经济萧条时期扮演的角色,图书馆的经济价值(附带一些投资回报实例) ,图书馆的馆藏资源及对这些资源的利用所带来的经济回升潜力。用户也可以分享推广成功的案例。 这项资源是 ALA创新计划“Advocacy U”的一部分,“Advocacy U”计划旨在为图书馆推广人员提供工具、培训及各种资源,以帮助他们在本地实际环境中实现图书馆的推广。 (相关信息请访问: http: / /www. ala. org/advocacyuniversity。)(本刊讯)
应用实践播放器加载中,请稍候...
该用户其他文档
下载所得到的文件列表【精品推荐】PDF科技论文语义元数据的自动抽取研究.pdf.pdf
文档介绍:
【精品推荐】PDF科技论文语义元数据的自动抽取研究.pdf 专业推荐↓精品文档102
现代图书情报技术PDF科技论文语义元数据的自动抽取研究3张秀秀 马建霞(中国科学院国家科学图书馆兰州分馆 兰州 730000)【摘要】在分析 PDF文件结构的基础上,解析 PDF文件的内容流,并采用基于规则的匹配方法和基于格式的定位方法,自动抽取科技...
内容来自淘豆网转载请标明出处.谁能够免费在知网下载论文?求一篇《网络信息检索发展趋势展望》的论文。先谢谢大家了_百度知道
谁能够免费在知网下载论文?求一篇《网络信息检索发展趋势展望》的论文。先谢谢大家了
麻烦您帮我下载一下并发至我邮箱@qq。如果您去里面下载论文不要收钱《网络信息检索发展趋势展望》的论文在知网里面有,很贵.com,5毛一张,但是我去那下载的话
提问者采纳
网络检索逐渐成为简单的; 趋势;随着现代化技术的发展、由独立数据库集中管理的信息内容扩展到如今开放,给检索工作带来了一个全新的发展空间; 【摘要】 本文对网络信息检索的未来发展趋势进行了初步的探讨; 【文献出处】 科技资讯 、管理松散的网络内容网络信息检索发展趋势展望
【作者】 丁明; 李龙森、分布广泛, Science & Technology Information,网上检索将会变得越来越; 【作者单位】 滨州医学院医学信息系。 【更新日期】
【分类号】 TP391:ASPT来源刊
CJFD收录刊 【中文关键词】 网络、动态; 滨州医学院医学信息系 滨州.3 【正文快照】 互联网的繁荣, 编辑部邮箱 2006年 04期
期刊荣誉。信息检索的对象已从过去相对封闭; 信息检索、大众化的行为方式、更新快; 祝博
提问者评价
谢谢你,只可惜我自己没有什么财富值要不然的话可以给财富给你。嘿嘿~~~~,谢谢!!!
其他类似问题
为您推荐:
您可能关注的推广
知网的相关知识
其他2条回答
已发到 请查收 亲 记得给最佳答案哦 嘿嘿
是这篇吧?
等待您来回答
下载知道APP
随时随地咨询
出门在外也不愁

我要回帖

更多关于 论文格式要求 的文章

 

随机推荐