翼中人民在地道中科学的研究方法是取得成功的关键键是什么

作者:竹间智能自然语言与深度學习小组

长期以来中文自然语言处理(NLP)的研究遭遇瓶颈,其中一个重要原因就是中文的语言学基本无法迁移到已有的成熟的深度学习模型中这也是中文 NLP 难于英文的重要原因之一。而竹间智能在自然语言处理的研究中结合深度学习、语言学和心理学等,通过 NLU 来弥补传統中文 NLP 在语言理解上的不足取得了不错的成果。在此和大家分享一些竹间智能在中文自然语言交互研究中的经验和思考

本文结合语言學和 NLP 的几个基本任务,从理论上对中文 NLP 的特点进行说明同时展望 NLU 在中文自然语言交互上的一些方向。

词是最小的能够独立运用的语言单位「词」这个概念,是从西方引入的在 1898 年《马氏文通》出版之前,传统的语言学研究对象是「字」而不是「词」。汉语和英语最直觀、最明显的不同就是英语的词是天然的,由空格分开而汉语的字紧密排列,从形式上看其实没有「词」这个单位。

现代汉语的典型特征之一是双音节词占优势古汉语常常是一字即一词,而现代汉语都把它们双音节化了比如「目-->眼睛」「悦-->高兴、喜欢」。如果单單把「睛」、「兴」等字拿出来它们承载的意义与原词是有差异的。加之考虑到实际应用的需求以词为索引可以减小搜索空间、加快搜索速度、提高准确率,所以做分词是有必要的

(1) 老板有意见他。

(2) 老板对他有意见

和 (2) 的正确切分是:

这种属于交叉歧义。abc 三个成分ab 可鉯分成一个词,bc 也可以分成一个词

(3) 其他语言学起来很难。

(4) 语言学是以人类语言为研究对象的学科

和 (4) 的正确切分是:

(4) 语言学/是/以/人类/语訁/为/研究/对象/的/学科/。

这种就是组合歧义ab 两个成分,组合在一起的时候是一个词分开以后可以各自成词。

解决分词歧义的技术方法主偠有三大类分别是基于规则的方法,基于统计的方法(例如 CRF、HMM、Deep Learning 等)以及规则和统计结合。网上也能查到一些相关的分词器实现。

茬技术需求方面有的需要细粒度的分词,有的需要粗粒度的这都是实际应用会面对的矛盾。这也是由于汉语本身语素、词和短语的界限不明造成的

(5) 中的「做不到」,属于动补结构 (动词+补语)从语言学的角度看,是个短语实际应用时,可以分成「做/不/到」也可以「莋不到」合在一起,看成一个词

中文分词也是英文和中文 NLP 的一个基本不同,英文不需要分词而中文需要进行分词,以便能够更好地进荇后续 NLP 任务当然,目前也有一些中文 NLP 技术可以避开中文分词任务。

汉语词性的独特之处在于汉语作为孤立语/分析语,没有明显的形態变化与英语等屈折语不同。比如:

(6) 我感觉他喜欢我(动词)

(7) 我的感觉很准。(名词)

如果用英语说这两句话应该是:

同样一个「感觉」,其实是同形异义词我们必须准确识别两种词性。

上面说的这种情况名词和动词的区别是比较明显的但汉语的复杂之处还不止这个。比洳:

(11) 我很珍惜她的喜欢(动词用作名词)

「喜欢」从绝大多数情况来看,都被人们看成一个动词但例 (11) 就把动词当作名词用了,而且没有词形变化这种情况在汉语里大量存在,这也就是沈家煊先生提出的汉语「名动包含」的观点

汉语的这一特点会造成句子里的核心谓语动詞难以识别的问题。还是拿例 (11) 来说句子里有两个动词「珍惜」和「喜欢」,但核心谓语动词是「珍惜」「喜欢」最好不要被判断为动詞,否则会影响后续的句法、语义分析

中科院计算所汉语词性标记集提供了 vn、an 等词性标签,v 代表动词a 代表形容词,后面加上 n其实有┅种「动名词」「形名词」的意思,也是对英语的一种借鉴vn 等标签可以帮我们解决掉一些非谓动词干扰的问题,但不能解决全部

在实際应用中,我们以「依句辨品离句无品」的原则去做词性标注,关注词在句子里的位置和作用虽然这未必是黎锦熙先生说这句话时的夲意。

不同的词类在句子中行使的功能是不一样的图 (1) 基本可以代表英语词类的功能,这张图比较符合我们的一般认识即名词作主语宾語,动词作谓语形容词作定语,副词作状语

但是汉语的情况,如图 (2)要复杂得多。名词也可以作谓语动词也可以作主宾语。比如:

唎 (12) 就是一个典型的名词性短语作谓语的例子这个句子不需要动词也成立。「我」是代词「永远」是副词,「十八岁」是数量短语

图 (3) 借用 CTB(美国宾州大学的汉语树库)的标注体系,NP 代表名词性短语VP 代表动词性短语,虽然这句话中没有动词但仍需要 VP 作为谓语的框架。

依存句法分析结果如下:

图 (4) 借用 LTP(哈工大社会计算与信息检索研究中心研发的「语言技术平台」)的标注体系SBV 代表主语,root 是「岁」即使没有动词,也能正确分析句子结构

汉语还有一些特殊句型,比如主谓谓语句、存现句、连谓句、兼语句等在句法分析层面上都有自巳独特的结构,也是需要特殊处理的

汉语还有一个特点是重意合而不重形式,句子结构比较松散多分句;英语则多从句,多引导词呴子结构比较容易判断。如果要判断句子里的因果关系、让步关系、目的关系、假设关系等目前来说还比较难。况且我们说话的时候瑺常会省略「因为」「即使」「如果」等明显的关联词,这也样也就使得特征变得不明显比如:

(13) 人勤地不懒。

(14) 如果人勤地就不懒

例 (13) 和 (14) 表达了一样的意思,但它们的表现形式是不一样的

汉语结构松散还表现为:

(15) 一斤苹果多少钱?

(16) 苹果一斤多少钱

(17) 多少钱一斤苹果?

再来談谈 NLU传统的 NLP 基本上都是在做「处理」的工作,是把人类的语言掰开揉碎而 NLU 则解决更深层的「理解」问题,即如何消化 NLP 已经处理好的东覀真正让机器明白人类语言的语义(semantic)。NLU 的出现也对中文 NLP 起到了重要的补足作用

NLP 和传统语言学已经可以帮助人工智能解决一部分初级問题,但却还远远不能 cover 千变万化的语言形式比如机器可以理解「我心情不好」,却难以理解「我的心淅淅沥沥下着小雨」这样的转喻;機器可以理解「我要吃饭」却难以体会同样是吃饭,「上饭店」和「下馆子」这一「上」一「下」间表达的心理上的微妙差异。

人机洎然语言交互涉及到语法、语义、语用三个层面越往后越难。为了推动人机自然语言交互的发展需要在 NLP 的基础上,引入 NLU、认知语言学、心理语言学、社会语言学等学科的综合参与甚至如竹间智能正在探索的,为了理解「寒暄」、「安抚」甚至是「讽刺」、「幽默」这樣的言语修辞行为需要在深度学习方法中结合对心理学的研究,在语义理解的基础上增加意图识别和情感判断以弥补传统中文 NLP 在语言悝解上的不足,让机器真正读懂人类语言的复杂语义以及背后的意图和情感。在此基础上给予对话者拟人的反馈从而达到更好的人机洎然语言交互效果。

同样人工智能也必将改变语言学研究的发展方向。传统的重理论分析而轻实例坐着想句子的研究方法将逐渐退出舞台;真实语料、口语和书面语并重,侧重对语言形态进行统计分析的研究将大量涌现另外,传统语言学将进一步向计算语言学靠拢未来将会有新的、更容易被计算机接受的语法提出。

专栏 | 自然语言处理在2017年有哪些值得期待的发展

在生命科学研究领域正确的思蕗和研究方法往往是科学家们成功的关键。请分析回答下列问题(1)孟德尔对豌豆的七对相对性状的杂交实验中F1的表现型都各只有一种,F2都產生接近3:1的性... 在生命科学研究领域正确的思路和研究方法往往是科学家们成功的关键。请分析回答下列问题 (1)孟德尔对豌豆的七对相对性状的杂交实验中F 1 的表现型都各只有一种,F 2 都产生接近3:1的性状分离比为解释上述实验结果,孟德尔提出了哪些假设:________________这些假设完媄地解释了上述实验现象。但作为一种假设还要能够预期另一些实验结果以证实假设的正确性。(2)孟德尔设计了_____________实验以高茎和矮茎这一楿对性状为例,该实验结果的预期是__________________实验选用隐性亲本与F 1 杂交,是因为隐性亲本的隐性基因对F 1 产生的配子的基因______________所以根据测交后代的性状表现,可推测F 1 产生的配子中含有什么基因(3)孟德尔对豌豆的七对相对性状的杂交实验中,F 2 产生3:1的性状分离比需要满足哪些条件:_________A.所研究的每一对相对性状只受一对等位基因控制,且等位基因要完全显性B.F 1 产生两种类型的配子且所有配子发育良好,受精机会均等C.所有后代可以处于不同的环境中只需存活率相同D.供试验群体要大,个体数量足够多(4)孟德尔运用______________法归纳得出了遗传的两大定律为杂茭育种提供了理论基础。如利用纯种高秆(显性)抗锈病(显性)小麦和矮秆不抗锈病小麦可培育成矮秆抗锈病小麦选种要从__________开始。杂交育种只適合于进行___________的生物
(1)a生物性状是由遗传因子决定的;b体细胞中遗传因子是成对存在的;c生物体在形成生殖细胞时,成对的遗传因子彼此分離分别进入不同的配子中;d受精时,雌雄配子的结合是随机的

你对这个回答的评价是?

下载百度知道APP抢鲜体验

使用百度知道APP,立即搶鲜体验你的手机镜头里或许有别人想知道的答案。

 提高学生科学人文素养的方法

初中阶段提高学生科学人文素养的方法 摘要:全面提高每一个学生的科学人文素养是初中科学教学的核心理念本文结合笔者的教学实践闡述了提高学生科学人文素养的方法。??????? 关键词:科学教学;人文素养;培养;方法   基于新课程理念全面提高每一个学生的科学人文素養是初中科学教学的核心理念叶澜教授曾说过:对于课堂教学需要我们教育者做的是,“从生命的高度用动态生成的观点看课堂教学。课堂教学应被看作是师生人生中一段重要的生命经历是他们生命的、有意义的构成部分,要把个体精神生命发展的主动权还给学生”这不仅要求我们对教学过程的理解要以生为本,以生为主体更重要的是要我们尊重生命的成长,考虑生命的发展促进生命的创造。  在教学中我们也必须潜移默化地提高学生的科学人文素养,让学生拥有对环境对自然的正确的态度有可持续发展的理念,有孜孜鉯求的科学探索精神拥有科学研究的方法,拥有科学地改造世界、造福人类、建设世界、发展世界的意识与动力  世界的快速变化昰明显的:如全球变暖、臭氧层变薄、沙漠化加剧、生物多样性受损、能源危机、环境污染、耕地急剧减少、自然灾害不断……这些不仅使人们感觉世界的变化,更使教育者觉得担子的沉重通过科学人文教育,提高人们对环境保护重要性的认知尤其重要  为此,我们鈳以尝试着在初中科学课堂中对学生渗透科学的科学人文素养的培养现将做法枚举一二。流程图如下:   要提高学生的科学人文素养总的方针是以“知、情、意、行”为主线:  一是让学生在了解知识(教材中的基本原理、基本方法等等)的同时,感知科学人文内涵  二是让学生从一些时事、一些事例中感受科学人文精神、感受人类与环境和谐的重要、感受如何使其和谐的方法与对策。  三昰通过一些综合实践活动以探究一些问题为方式,让学生在行动提升科学人文素养、在行动上植入科学人文精神  一、植根教科书,在授予知识与技能的同时感知科学人文内涵  通过讲述与教科书中科学家相关的故事,让学生从中感知科学家的内心世界了解科學探索需要的方法,需要的“甘于寂寞、甘于清贫、甘于奋斗”的孜孜以求的精神了解科学工作者的勤于思考、善于思考、治学严谨、鈈放疑点的科学精神,理解科学发展的真正目标是为人类造福为世界和谐;了解科技是发展的,是推动社会进步的动力也让学生能了解人与自然的关系,如何开发资源、能源如何改造世界,又如何合理地利用资源具有能源的知识、环保的知识、人口研究方面的知识等等,了解如何建设一个可持续发展的世界所需要的基本内容充实科学人文内涵。  例如:科学家和科学史对科学人文教育起到了桥梁作用平时教学中组织学生阅读教材中的“读一读”,并补充介绍一些科学家获得成果的经历和过程分析他们的经验和从中应吸取的敎训,帮助学生解读科学家的人生如牛顿勤于思考、悉心钻研的故事,伽利略以实验事实为依据向权威挑战的故事;布鲁纳、哥白尼用苼命捍卫真理的故事;我国的墨翟和他的学生共同完成的小孔成像实验并记录在《墨经》一书中,是世界上最早关于光的直线传播的记載;我国宋代学者沈括的成就——他最早记载了磁偏角比西方哥伦布早 多年,等等  九年级科学下册有两章内容集中讲述生态环境問题,即《生物与环境》、《人类与环境》在教学中更应作为重点深入讲解。不仅仅要为学生打下扎实的知识基础更要让学生明白,課本中提到的所有环境问题如水体、大气污染地面下沉,区域性的公害病等等其实离我们并不远,我们可能已经深陷其中、身受其害叻从而在情感、科学态度上有个质的飞跃,提高学生的科学人文素养  此外,七年级和八年级教科书中涉及环境教育的内容也有不尐我们可适时渗透。  七上的第三章“动物世界”中讲到由于滥捕滥掠,导致大量珍贵动物灭绝也使近海鱼类面临枯竭的危险,茬教学中我们要让学生认识到学习“动物世界”的目的是为了利用、改造和保护动物而不能涸泽而渔,人为地破坏生态平衡  八年級下中讲光合作用意义,其中之一是使大气中氧气和二氧化碳的含量基本保持稳定在此我们可作拓宽,列举上世纪大气中二氧化碳浓度嘚几个数据:1900年二氧化碳的浓度为300PPM,1970年为320PPM,现在已达到375PPM而二氧化碳气体浓度的增加可以造成全球气候变暖,即温室效应它将对农业和苼态系统带严重的影响,威胁着整个人类因此我们应珍惜每一株绿色的植物。  八年级上教材中提到电冰箱的制冷原理时我们可以插入“绿色环保冰箱”的概念,引导学生认识破坏臭氧层带来的影响  二、依托时政实例,有效拓展人文教学内容培养科学人文品質  在课堂教学过程中,引入一些有较强说服力的而又学生感兴趣的具体事例是开展科学人文教育所不可缺少的在初中科学课堂教学Φ,我们往往可以用一些身边发生的实例

我要回帖

更多关于 科学的研究方法是取得成功的关键 的文章

 

随机推荐