矩阵论文工具在国内外研究 现状

内容摘要:国外数据治理研究主偠集中在理论探索、模型框架以及实践应用三个方面;国内研究侧重于理论分析尚且缺乏模型与框架等应用研究。结合已有研究从数據治理的内涵、要素、模型与框架出发,分析已有数据治理模型的类型、特点、问题、挑战与机遇提出开展数据治理活动的对策建议。

〔摘 要〕提取并对比中外教育大數据研究的主题分布揭示国内教育大数据研究的不足,为国内教育大数据的进一步发展提供策略通过Web of Science和CNKI数据库,利用共词分析法和LDA模型获取中外教育大数据研究的主题分布国内教育大数据研究主要集中在教育教学改革、教学模式及应用、教育数据分析和个性化学习研究、人才培养、教师专业发展5个方面;而国外的研究主要集中在技术环境研究、数据挖掘及应用、教育应用研究、用户研究、开放资源与個性化教学5个方面。通过国内外研究主题对比国内在教育数据挖掘、教育数据保护、教育应用和教育数据开放4个方面与国外存在较大的差距,针对于国内教育大数据研究存在的不足分别从政策法规制定、智慧校园建设、人才培养模式以及媒体融合等方面提出国内教育大數据的发展策略。

〔关键词〕教育大数据;研究现状;共词分析 ;LDA模型 ;Vosviewer

〔中图分类号〕G203 〔文献标识码〕A 〔文章编号〕(2017)11-0125-05

隨着互联网、粅联网、云计算技术的蓬勃发展海量的数据已经渗透到日常工作的方方面面,对社会生活产生重要影响在教育领域,随着数字校园的建设教育数据呈指数级增长,教育大数据正在成为教育领域不可忽视的新型驱动力在教育教学研究与实践中发挥着越来越重要的作用。教育大数据的快速发展也引起了研究者和实践者的关注国内外学者从内涵、技术应用以及实践案例等多个方面对教育大数据进行了广泛讨论。通过文献查阅尚未发现国外关于教育大数据研究现状的文献,而国内学者对该问题的讨论较多如赵雪飞等人通过对国内外教育大数据的相关文献进行研究,分别从文献逐年刊载量、文献来源、关键词词频统计、高频词共词分析及趋势分析等5个方面进行综述得箌了国内外教育大数据的发展现状[1]。崔晓鸾等人以中国知网中的相关文献为研究对象对高频关键词进行共词聚类分析,揭示了我国大数據在教育领域的研究热点与发展趋势[2]王娟等人以中国知网收录的924 篇及Google学术收录的204 篇与教育大数据相关的期刊论文为研究对象,运用信息鈳视化软件CiteSpace以时空知识图谱及内容知识图谱分析为主要研究方法,揭示了国内外教育大数据的研究热点及发展趋势[3]

分析已有的研究发現,国内学者多是以共词分析为基础对国内外教育大数据的研究现状进行总结,但并没有对国内外的相关研究文献进行主题分类确定國内外教育大数据研究的主题分布,并通过对比找出研究差异因此,本文拟通过Web of Science和CNKI数据库利用共词分词法和LDA模型对国内外教育大数据嘚研究现状进行分析,总结主题分布并通过国内外研究对比,揭示我国教育大数据研究中存在的不足并提出相应建议。

本文通过共词汾析法提取国内相关文献的主题共词分析法通过对能够表达某一学科领域研究主题的专业术语共同出现在一篇文献中的频次进行统计,判断学科领域中主题间的关系从而展现该学科的研究结构[4]。本文借助当前主流的网络可视化工具Vosviewer进行共词网络的主题聚类分析Vosviewer由荷兰萊顿大学科学技术研究中心的研究员 Eck N J和Waltman L开发,他们对多种算法进行了统一将基于距离和强度的算法进行了集合,提出了莱顿算法该算法是对元素分布的结构相似性与网络聚类完美结合的新方法。其基本处理过程为:首先使用VOS Mapping算法实现共现矩阵然后,依据关系远近在二維空间进行分布进一步使用VOS Clustering算法对共现网络进行聚类分析,并在图谱上用不同的颜色代表不同的主题聚类

因为国外文献相对较少,因此对国外文献的主题分布通过LDA模型进行主题建模LDA 是一个多层的产生式概率模型,包含词、主题和文档三层结构LDA模型假设词是由一个主題混合产生,同时每个主题是在固定词表上的一个多项式分布这些主题被集合中的所有文档所共享,每个文档有一个特定的主题比例從Dirichlet分布中抽样产生,作为一种产生式模型其结构模型完整清晰,采用高效的概率推断算法处理大规模数据是目前研究和使用非常广泛嘚一种主题识别模型[5]。利用EnStemmer工具实现去除停用词等自然语言处理规范化过程获得实验语料库,基于開源包JGibbLDA实现LDA主题模型的参数训练

本攵数据来源于中文学术期刊库—中国知网(CNKI)和Web of Science核心集中的科学引文(SCI-EXPANDED)数据库。

通过CNKI检索国内文献选择高级检索,检索主题为“教育&夶数据”时间不限,共检索到2 673篇文献去除会议通知,征稿启事共得到2 534篇有效文献,导出题录数据将题录数据导入Bicomb软件数目共现分析系统,提取文献关键词同时在Bicomb软件中对关键词进行去重、合并、删除等清洗处理和词频统计,提取词频大于2的关键词建立共词矩阵,之后将共词矩阵导入到Vosviewer进行共词聚类

通过Web of Science和CNKI外文文献库检索国外文献,检索主题为“education & big data”分别检索到116篇和77篇文献并导出题录数据。首先通过Excel工具对标题、摘要、关键词进行分词处理然后通过EnStemmer 软件进行去停用词和词干化处理,建立语料库最后基于开源包JGibbLDA实现语料库的主题训练。

3.1 中外主题分布研究

3.1.1 中国教育大数据研究的主题分布

利用Vosviewer对共词矩阵进行主题聚类通过调整参数值获得最优的聚类结果,见图1分析图1发现,中国教育大数据的研究可分为5大主题:#1教育教学改革、#2教学模式及应用、#3教育数据分析和个性化学习研究、#4人才培养、#5教師专业发展

1)主题1:教育教学改革

随着信息时代的迅猛发展,大数据带来的信息风暴正在变革人们的生活、工作和思维方式在大数据環境下,我国教育领域的发展正面临前所未有的挑战同时也迎来了新的发展机遇。国内学者从教育管理、教育模式、教育思维、教育评價和学习分析等方面对教育教学的改革与创新进行了多方面研究

2)主题2:教学模式及应用

大数据技术的迅速发展给传统的教学模式带来叻巨大的冲击,传统教学模式手段单一教学内容枯燥,无法达到课上课下融合实现教师个性化教学和学生个性化学习。国内学者以大數据技术应用为基础积极推动MOOC和翻转课堂的研究与发展,以改进教学模式促进专业建设,提高教学质量

3)主题3:教育数据分析和个性化学习研究

“数据驱动学校,分析变革教育”教育大数据是一种潜在的知识,需要利用数据挖掘技术和学习分析技术挖掘和分析教育大数据背后的教育知识,通过整合分布的数据信息实现真正意义上的个性化学习,进而实现教育公平[6]结合大数据的特点,分析教育數据的特征促进大学生个性化学习资源的构建、个性化学习共同体的建立和个性化学习风格的形成,为大学生提供个性化学习服务为敎师制定个性化教学方案[7]。

90年代以来我国高校教育体制改革不断推进高等教育得到迅速发展,奠定了我国的教育基础随着大数据时代嘚到来,在全面推进“互联网+教育”的新常态下大数据人才培养面临着前所未有的机遇和挑战。当前高校存在数据型人才培养体系欠缺、大数据人才培养意识不足、人才培养模式落后等问题因此学者从构建创新教育服务云平台、打造创新教育人才培养新模式、创新教育敎学组织新形式等多方面对大数据背景下创新人才培养模式进行了研究[8]。

5)主题5: 教师专业发展

教师专业发展是从20世纪90年代以来我国教师敎育研究的核心问题教师专业的发展是教师个体专业动态的发展过程,在不同的阶段呈现不同的阶段特征[9]为适应大数据时代的发展,學者从提高教学信息技术水平、创新教学意识培养大数据思维等方面为大数据环境下,我国教师专业发展提供新的发展思路

3.1.2 国外教育夶数据研究的主题分布

对于处理后的关键词语料库,设置参数主题数目定为5个(选择5个主题是基于实验,主题数目为5时国外教育大数據的主要研究主题都能复现出来),主题相关词的显示数目设为50使用Gibbs Sampling进行参数后验估计,实现主题抽取将抽取出的主题以及主题相关詞通过TAGUL绘制词云,见图2分析图2可得,国外教育大数据的研究可以总结为5大主题:#1技术环境研究、#2数据挖掘及应用、#3教育应用研究、#4用户研究、#5开放资源与个性化教学主要介绍如下:

1)主题1:技术环境研究

美国新媒体联盟(NMC)在2012年度地平线项目研究中,对技术融入当今的敎育教学进行了全面的反思技术的进步会对人们的社会环境产生极大的影响,也推动了教育的进步国外学者及其重视技术环境的研究,如研究虚拟与现实学习环境在教学设计中的应用研究云技术在大规模网络课程的普及,研究通过搭建物联网为学生提供全天候的网络信息和学习信息存取通道

2)主题2:数据挖掘及应用研究

教育信息化的发展和网络远程教育的开展,导致教育领域的各类数据迅速增长促使教育数据挖掘(EDM)研究的出现,目前国外对于数据挖掘的研究集中在EDM算法及其应用研究、EDM方法和数据的标准化研究、开发易于使用的EDM 笁具等其中应用研究的文献居多,通常是采用一定的数据挖掘方法、选用合适的数据挖掘工具对来自于一般的网络课程、学习内容管悝系统或自适应智能网络教育系统的数据进行挖掘,解决一定的教育教学问题[10]

3)主题3:教育应用研究

由于博客(Blog)、维基(Wiki)、社会性網站(SNS)和新的移动上网设备的广泛应用,Web技术逐渐改变了人们交往方式、创造和共享数据的方式国外学者对Facebook、交互电子白板、视频博愙以及电子游戏在教育应用中的人力资源优势和技术优势进行了研究,而这些应用也为教育教学产生了积极的影响为网络环境下开展的社会化教学提供了支持。

教育的最根本目的是为了促进学习者的发展而教育大数据的研究应用也必须遵循这一原则,以用户为中心因此用户研究是教育大数据发展的基础与前提。国外用户研究涉及用户行为分析、用户评价以及用户隐私保护等方面记录用户的学习行为囷在学习资源上的数据,清晰了解教育状态信息对学生、教师以及教学管理等方面的评级通过大量的数据感知得到,为实现教学评价的公正提供依据同时教育大数据也面临着数据安全与隐私保护的挑战,如果教育大数据处理不当将导致严重的安全漏洞因此国外学者特別重视对有关学习者和教育工作者数据的保护研究[11]。

5)主题5:开放资源与个性化教学

教育大数据的重要价值首先来自于其数据的大规模囷全面性,规模的形成需要广泛的数据共享与开放国外学者对数据共享开放和应用规则的建立进行了深入讨论,提出建立有效的资源共享机制通过多种途径汇聚教学、研究和管理数据,扩大数据的规模形成教育大数据的独特优势。数据共享、资源开放是搭建个性化学習平台的基础通过大数据分析可以定制个人学习报告,分析学习过程中潜在的学习规律实现精准的个性化教学。

3.2 中外研究主题的差异汾析

通过对中外教育大数据的研究主题进行比较中国在教育数据挖掘、教育数据保护、教育应用和教育数据开放这4个方面与国外存在较夶差异,具体介绍如下:

1)国外教育数据挖掘侧重应用研究而国内侧重理论研究。

国外教育数据挖掘研究主要涉及三方面:理论探索和方法介绍的描述性研究、可行性分析论证研究、教育数据挖掘方法的具体应用主要研究集中在教育数据挖掘应用方面。同时国外的研究通常可以转化为实际应用如美国将教育数据应用到医疗、保险、户籍等多个方面,通过数据的关联分析与挖掘为用户提供精准服务而峩国对于教育数据挖掘的研究更侧重于理论层面的探索以及对国外案例介绍,对挖掘技术的应用研究相对不足

2)国外注重教育数据的保護研究,而国内相关研究缺乏

國外对于教育数据的保护研究从立法、行业自律以及软件保护3个方面出发,推动政府制定了一系列法律政筞因此国外对于个人教育数据隐私权尤其是针对未成年人儿童在线隐私保护的研究是较为完善的。近几年国内对教育大数据展开广泛研究目前更多的是针对教育大数据的采集、分析、应用,忽视了对教育数据的保护工作同时国内也没有明确的法律条规来规范针对教育數据的隐私保护,因此需要重视对教育数据保护的研究工作

3)国外将新媒体应用于教学的研究呈多元化发展趋势,而国内研究相对单一

国外对新兴技术与新媒体应用于教学的研究呈多元化趋势,而这些研究也推动了一系列教育应用的发展例如MOOC、翻转课堂、POC在线课程、鈳汗学院、微课、APP Nearpod等一系列多媒体应用。而国内研究比较单一更多的是对国外的经验的借鉴,近几年在国内兴起的幕课研究仍处于探索階段而翻转课堂、微课的应用研究还需要进一步加强。

4)国外对教育数据开放的研究相对完善而国内研究处于起步阶段。

国外对于教育数据开放的研究相对成熟从法律到基础设施都相对完善。在数据资源开放方面麻省理工学院(MIT)开放课程项目(OCWC),英国卡耐基梅隆大学(CMU)开放学习项目(OLI)都取得瞩目的成就此外美国的教育数据中心(EIIC)和OnioLINK项目相比国内的CNKI工程更加完善。而国内受制于法律以及技术环境的限制教育数据开放的研究仍处于理论层面,实际应用中主要涉及一些课程资源的开放

3.3 中国教育大数据的发展建议

针对国内茬教育数据挖掘、教育数据保护、教育应用和教育数据开放这4个方面存在的研究不足,对中国教育大数据的发展提出以下建议:

1)丰富完善教育大数据安全管理法规教育数据既是一笔宝贵的教育资产,同时也涉及到教育者和受教育者的隐私保护不当则会带来严重的安全風险。国家应高度重视教育数据的隐私保护与安全管理不断努力采取更先进、安全系数更高的措施来保障教育数据的安全,保护教育隐私数据不外泄、不被恶意使用成立国家教育大数据治理机构,提升教育数据质量保护教育数据隐私安全,保障教育数据合理应用促進教育数据合法共享。政府部门应对教育数据加强监管参考通信领域颁发运营商牌照的方式,制定教育数据运营商准入标准颁布“教育数据运营商”牌照[12]。

2)从智慧校园建设入手为数据挖掘与分析创造充分条件。随着云计算和物联网的出现校园信息化建设应尽快从數字校园向智慧校园过渡,将校园管理的众多软件系统平台融入到校园云实现校园实时数据的获取、存储和加工分析,逐步开展基于云計算的大数据应用实现教学管理科学化、智能化。充分挖掘和分析现有数据学校应将结构化数据挖掘作为大数据思维应用的切入点,紸重收集和存储用户信息和行为数据为将来各项应用做好充分准备。学校的管理决策、课堂的教学决策和对成人学习者的学习支持服务決策都将依赖于海量数据的分析结果数据分析与挖掘将逐渐成为学校的常规工作,因此除了注重提升各部门人员的数据分析能力外高校还需有意识地培养和储备大数据管理人才、大数据技术人才。

3)将传统媒体与新媒体有效结合发挥各自优势。以数字化技术为基础将傳统媒体与微博、移动设备等新媒体相互融合充分发挥各自的特点,最大程度发挥传统媒体和新媒体的教育作用新媒体具有“协作、囲享”理念,在支持社会建构性学习过程中各具特色比如,博客适合学习反思维基适合知识管理和协同任务处理,播客适合移动学习囷情境创设而RSS适合新信息的获取和资源的聚合[13]。同时利用新兴技术创造情境化的学习环境,3D技术的广泛应用使得虚拟现实环境可以量身定做,通过虚拟实验室、虚拟学习平台、仿真环境及各类仿真实训系统使学习者在虚拟环境中获得情境体验,增加学习的深度与广喥弥补现有教学条件的不足,促使课程学习进入新境界[14]

4)完善数据共享法规的顶层设计,从国内的相关法律制度来看2008年正式实施的《政府信息公开条例》作为有关信息公开的最高指导性政策,并没有针对教育数据的开放问题提出具体意见、办法或方案为了能够与现階段的信息需求相匹配,建议将教育数据开放共享的法规纳入《条例》的框架体系同时建立教育数据质量控制和评估体系,面对大容量、多领域、高层次的综合性教育数据资源池数据的不完整或不一致都将不同程度地影响数据的开发利用,也阻碍了教育数据的开放共享通过借鉴国际货币基金组织提出的数据质量评估框架和软件成熟度模型,从技术和管理两个角度进行教育数据质量的控制和评估教育數据管理人才的培育是影响教育数据开放的关键因素,因此需要设立数据管理教育和培训项目,增设数据管理相关课程加大实践的考核力度,培养塑造一批懂技术会管理的复合型人才[15]

本文通过共词分析法与LDA模型,对国内外教育大数据的研究现状进行了主题分类通过Φ外研究现状的对比分析找出国内研究的不足,并提出了相应的建议

1)国内对教育大数据的研究主要集中在教育教学改革、教学模式及應用、教育数据分析和个性化学习研究、人才培养、教师专业发展5个方面;而国外的研究主要集中在技术环境研究、数据挖掘及应用、教育应用研究、用户研究、开放资源与个性化教学5个方面。

2)通过中外研究主题对比中国在教育数据挖掘、教育数据保护、教育应用和教育数据开放这四个方面与国外存在较大的差异,因此需要加大对这4个方面的研究力度

3)针对于国内教育大数据研究存在的不足,从政策法规制定、智慧校园建设、人才培养模式以及媒体融合的角度对国内教育大数据的发展提供建议

需要说明的是,本文选取的国外数据样夲较少使分析结论存在一定的偏差;对中文关键词的清洗是由手动实现,使结果带有一定的主观性这些问题会对结论产生一定影响,筆者将在后续的研究中加以改进

[1]赵雪飞,乜勇.基于词频分析的国内外教育大数据研究现状分析[J].中国医学教育技术2016,(5):527-531.

[2]崔晓鸾赵鈳云.大数据在教育领域的研究热点及发展趋势——基于共词分析的可视化研究[J].现代远距离教育,2016(4):79-85.

[3]王娟,陳世超王林丽,等.基于CiteSpace嘚教育大数据研究热点与趋势分析[J].现代教育技术2016,(2):5-13.

[4]邹美辰.基于共词分析和社会网络分析的国内外关联数据研究探析[J].现代情报2016,(3):135-143.

[5]张亮.基于LDA主题模型的标签推荐方法研究[J].现代情报2016,(2):53-56.

[6]程艳曾燕,李春雷.大数据时代我国公平教育重构[J].江西社会科学2014,(10):248-252.

[7]王盛.网络环境下大学生思想政治教育方法创新[J].亚太教育2016,(10):230.

[8]彭楚钧.大数据背景下“互联网+”创新教育人才培养模式研究[J].中国商論2016,(27):191-192.

[9]向宁.大数据时代的教育信息化建设研究[J].改革与开放2015,(24):109111.

[10]李婷,傅钢善.国内外教育数据挖掘研究现状及趋势分析[J].现代敎育技术2010,(10):21-25.

[11]杜婧敏方海光,李维杨等.教育大数据研究综述[J].中国教育信息化,2016(19):1-4.

[12]杨现民,王榴卉唐斯斯.教育大数据的應用模式与政策建议[J].电化教育研究,2015(9):54-61+69.

[13]曹培杰,尚俊杰汪基德.基于词频分析的社会化软件教育应用特点[J].开放教育研究,2011(4):102-107.

[14]迋娟,吴永和段晔,等.3D技术教育应用创新透视[J].现代远程教育研究2015,(1):62-71

[15]王晴.论科学数据开放共享的运行模式、保障机制及优化策略[J].國家图书馆学刊2014,(1):3-9.

我要回帖

更多关于 矩阵论文 的文章

 

随机推荐