求一篇关于浅谈互联网金融下的对会计工作的认识处理方法论文5000字

【E-Power简介】英语专业毕业论文、英語学习辅导资料、英语四六级考试、研究生考试、分类专业毕业论文、精品教学课件、课堂学习激趣课件、毕业论文指导、中小学课程辅導、文化教育生活资源......【免责声明】本址文档少数为原创多数系网络收集下载,其中如有侵权或泄露隐私等不当网络情形请迅速联系告知,经确认一定及时删除相关文档

原标题:优秀论文选登 | 基于文本夶数据分析的对会计工作的认识和金融研究综述

本文首发于《管理科学学报》2020年09期获上海国家对会计工作的认识学院2020年度优秀科研成果獎励(优秀论文)。

马长峰上海国家对会计工作的认识学院副教授;

陈志娟,浙江工商大学金融学院副教授;

张顺明中国人民大学财政金融学院教授。

【摘要】作为一种非结构化 1数据文本大数据最近十年深刻影响对会计工作的认识学和金融学研究。这种影响体现在两類文献:第一类以信息为中心将文本分析技术用于信息的品质(可读性)和数量(文本信息含量)、信息披露和市场异象等方面的研究;第二类与信息无关,主要是利用文本大数据分析技术构建全新指标例如基于文本分析的公司竞争力、创新和经济政策不确定性等新变量。 本文在梳理上述文献研究脉络基础上揭示文本分析技术的优缺点,并且指出在对会计工作的认识和金融领域应用文本大数据技术的研究面临的挑战和机遇

【关键词】可读性;信息;市场有效性;欺诈;创新;经济政策不确定性

中共十九大报告提出“推动互联网、大數据、人工智能和实体经济深度融合”,说明大数据研究契合国家经济发展战略具有重大意义。大数据 2多表现出非结构化特征要求新嘚数据处理技术(例如机器学习),能够产生新的发现大数据包括文本、音频、图像和视频等类型。过去十年文本大数据对金融和对會计工作的认识研究产生巨大影响。 本文梳理相关研究脉络揭示最新研究动态;比较文本分析的优缺点并展望未来研究方向,提供新的研究视角并激发研究思路

文本分析是计算语言学、自然语言处理、信息恢复、内容分析等领域的交叉学科。应用文本分析进行对会计工莋的认识和金融研究的主要步骤如下:采集文档解析文档,文本挖掘指标构建,计量分析由于通常没有现成的文本大数据可用,研究者一般需要开发网络爬虫采集原始文档解析文档之前可能需要对原始文档进行格式转换,例如中国上市公司年报是PDF格式须转换为容噫被计算机处理的文本格式。解析文档主要是删除图形、表格、标签(例如HTML标签)和冗余标点符号等噪音从而提供干净文本正如Loughran和McDonald [5]指出,解析文档难度很大是关键环节。基于干净文本采用词袋技术等文本挖掘工具,即可构建可读性(Readability)、语调、文档相似性等指标进洏进行计量分析。

随着文本大数据的出现和计算语言学的发展文本大数据分析成为对会计工作的认识和金融研究的重要工具 3。根据研究內容本文将相关文献分为两类:第一类将文本分析用于信息品质和数量、信息披露和市场异象等问题的研究,第二类用于构建公司创新、竞争力等新指标

Li [1]是较早关于文本分析方面的研究综述,但该文限于公司信息披露方面的研究Lourghran和McDonal d[7]范围更广,但该文以研究方法为主线且未包含许多金融和对会计工作的认识重要领域的研究,特别地该文并没有包含中文文本分析的研究。沈艳等 [8]虽然包含了中文文献泹按照学科梳理文献,与本文按照研究内容的视角完全不同本文根据是否与信息相关来梳理文献,这一新视角是对此前文献综述的发展同时,相比此前文本分析的文献综述多以英文文献为主本文兼顾中英文文献,从而使本文的综述更全面

本文贡献为:(1)总结了应鼡文本分析研究对会计工作的认识和金融问题的一般步骤;(2)理清了应用文本分析进行对会计工作的认识和金融研究的脉络:按照是否囷信息相关,将文献归结为两类;(3)对比了文本分析的优势和缺点有助于研究者全面认识文本分析并规避方法缺陷;(4)指出未来应鼡文本分析技术进行对会计工作的认识和金融研究的可能方向,为后续研究提供参考;(5)分析中文文本分析的难度和前景有利于形成Φ国特色的对会计工作的认识和金融研究体系。

金融和对会计工作的认识都与信息密切相关因此有大量文献应用文本分析在信息品质、信息数量、信息披露和与信息相关的市场异象等方面开展研究。

1.1 信息品质--财务文档可读性

作为信息品质的一种度量可读性反应了投资者獲取文档中信息的难易程度,而这与公司信息披露、信息环境和市场对信息的反应密切相关我们将文献中的可读性指标分为三类:

1.1.1 基于詞句难度的可读性指标

Fog index是语言学中度量文档可读性的指标,最先被Li [9]引入对会计工作的认识和金融研究Fog index是句子难度(一句话含词越多越难)和词语难度(一个词音节越多越难)之和,具体公式为:Fog =0.4×(平均单词个数/句+多于2个音节单词占比百分数) (1)

Fog index数值代表第一遍阅读一篇文檔时一个人需要几年的教育才能读懂该文。例如如果一篇文档的Fog index是5,意味着至少5年的教育才能使一个人在第一遍阅读时能读懂该文甴于这个指标提出较早,并且适用于大规模文本分析因此这个指标在财务文档可读性研究中应用广泛。和Fog index类似Flesch index将Fog

与Fog index类似,丘心颖等 [10]用筆画数刻画汉字的难度(年报汉字平均笔画数越大可读性越差),结合句子难度构造了中文年报可读性(复杂性)发现年报可读性越差的公司随后被更多分析师跟踪。王克敏 [11]从文本逻辑和字词的复杂性两个角度刻画中文年报文本信息复杂性发现管理者会操纵年报文夲信息复杂性。

作为最早被引入对会计工作的认识研究的可读性指标Fog index为基础的研究延伸到很多领域。Dyer [12]用Fog index度量可读性揭示了年间美国仩市公司年报可读性下降的趋势。Bozanic [13]用Fog index研究律师对信息披露的影响

Li [9]用Fog index度量年报可读性,检验“管理层混淆假说”(managers obfuscation hypothesis)发现盈余越低的公司年报可读性越差(Fog index越大),这是因为管理层为降低市场反应而故意模糊信息而业绩好的公司年报不存在这样的情况,因此其盈余容噫持续Lo [14]发现操纵当年盈余高于上一年的公司年报的管理层讨论和分析部分(MD&A)可读性变差。Lo [14]表明盈余水平和MD&A部分的可读性负相关洏Li [9]表明盈余水平和年报全文的可读性正相关,这说明年报全文和其中MD&A部分的可读性受到管理层区别对待也表明区分年报不同部分的可读性值得研究,可能的原因是管理层对年报不同部分的关注程度不同

同样是结合语言学和对会计工作的认识金融的研究,Kim [15]发现体现将來时态程度越高的语言的国家更容易出现盈余操纵,其逻辑是体现将来时态程度这种语法特征越明显语言中越容易明确表明事件发生的未来时间,则公司高管越能察觉到盈余操纵的后果这是第一个语言时态和盈余操纵方面的研究。

可读性影响投资者交易和市场行为方面Miller [16]采用Fog index度量可读性,发现年报可读性会导致年报发布期间更多的小额投资者交易活动 Lawrence [17]也发现散户更可能投资年报可读性好、年报短的公司。Rennkamp [18]在实验中研究可读性发现可读性会导致散户反应过度,不精明的投资者尤其如此You和Zhang [19]发现年报词数越多,年报发布后12个月内市场反應不足越明显Lehavy [20]发现年报可读性越差,随后跟踪该公司的分析师人数越多分析师预测分歧程度越高,分析师预测准确度越低De Franco [21]证明,采用Fog index、Flesch-Kincaid、Flesch Reading Ease度量的分析师研究报告的可读性和交易量正相关

上述研究表明,强制性财务信息披露的复杂性(可读性的反义词)会恶化公司的信息环境(交易量降低、分析师预测分歧增加和分析师预测准确度降低等)如果公司高管在信息披露时故意降低可读性来隐藏信息,那么可读性差的公司减少(或者不改变)自愿信息披露然而,如果较低可读性源于公司自身的商业复杂性或者信息披露准则那么公司高管可能会增加自愿信息披露来减弱信息环境恶化。Guay [22]证明为了降低强制性信息披露带来的信息环境恶化,公司高管确实会增加自愿信息披露Lundholm [23]发现,在美国交叉上市的公司倾向于发布可读性更好的文档Li [24]发现高管对未来越乐观,MD&A的可读性越好Biddle [25]用Fog index度量财务信息披露品质,发现信息披露品质能够提高资本投资效率

1.1.2文件大小作为可读性指标

虽然Fog index被大量文献用于度量财务文档可读性,但是Loughran和McDonald [5]认为该指标的第二项,也就是单词难度用多音节来度量并不合理因为多音节单词对于商业领域并不一定很难。 例如“company”虽然是个多音节单词,但是这个词对大多数市场参与者来说却很熟悉而且他们发现Fog index并不能解释分析师预测分歧程度和意外盈余。因此Loughran和McDonald [5]将可读性定义为投资鍺或者分析师从一篇财务披露文档中吸收价值相关信息的难度并且提出文件大小(file size)作为可读性指标。 文件大小指的是一篇财务披露文檔所占字节数文件大小作为可读性度量最大的好处是不需要解析财务文档,因此该指标客观可重复。更重要的是Loughran和McDonald [5]发现,年报文件樾大(可读性越差)随后公司特质波动率越高分析师对盈余预测分歧程度越高,意外盈余绝对值越大也就是说文件大小能够度量可读性。 Ertugrul [26]也发现公司年报文件大小度量的可读性越差外部融资成本越高。 Dyer [12]用LDA(Latent Dirichlet Allocation)技术 4发现FASB和SEC要求导致的公允价值、内部控制和风险因素这三個方面是美国上市公司年报长度增加的主要原因 马长峰 [30]发现中文年报文件大小不能预测波动率,但摘要的文件大小能负向预测波动率

1.1.3 基于平实英语的可读性指标

虽然Loughran和McDonald [5]认为文件大小作为可读性指标易得、准确客观且重复性高,但是Bonsall [31]却指出文件大小的时变经常是因為和文本无关的因素(例如HTML,XML和PDF等相关内容的加入)进而提出了一种基于平实英语(Plain English)的可读性指标,也就是Bog index 该文认为,可读性应该從美国证监会在1998年推出的平实英语要求出发度量信息披露文档表达是否清楚。而Fog index指标蕴含的句子长度和单词难度仅仅是平实英语的一部汾(其他还有语态、动词、俚语、专业术语、抽象词汇、冗余词汇和过度细节等方面)且词语难度用音节数度量并不合理。Bog index优势在于:苐一、根据几乎全部平实英语特征构造指标;第二、以一个20万词汇列表为基础根据每个单词的熟悉程度打分从而更真实度量词语难度,吔改进了Fog index中词语难度度量的问题的确,该文发现只有Bog index指标在平实英语监管要求出台前后显著变化而其他可读性指标都不能捕捉这一监管规则变化。Bonsall和Miller [32]采用Bog index度量可读性发现财务信息披露文档可读性越差,导致公司债券评级越低(违约风险越高)评级机构之间分歧程度樾高,债务资本成本越高 Bonsall [31]也发现年报公布之前操纵盈余的公司MD&A可读性变差。 Li [9]是用可读性(Fog index)预测盈余品质而Bonsall [31]却发现盈余品质同样預测年报MD&A部分的可读性(Bog index)。 Asay [33]用基于平实英语的可读性证明高管会操纵信息披露中的表达方式

需要指出,文档可读性(所含信息被理解的难度)很难和公司从事商业活动本身的复杂性分离因此可读性的某些影响可能是可读性和复杂性共同起作用的结果。

1.2 文本的信息含量

可读性借鉴计算语言学刻画了文档的一种语言特征,而这种特征影响公司与市场参与者之间的信息交换那么,除语言特征之外文檔中的文本是否含有信息呢?许多文献发现除了数字报表,文本也含有信息能够对市场和投资者产生影响。因此文本信息是相对于财務报表的增量信息Henry [34]发现盈余新闻稿语调影响投资者反应。

Li和Ramesh [35]发现季报的市场反应限于首次发布而年报的市场反应则限于季末。 Loughran和McDonald [36]改進了用于构造语调的负面词汇列表发现年报全文而不是MD&A部分的负面词汇出现频率能预测年报公布后股票的价格、交易量、波动率等变量,并且能预测高管欺诈 只分析MD&A部分的文本的文献也发现了文本含有信息的有力证据。例如Feldman [37]发现年报和季报MD&A部分语调变化引起短期市場反应。 Li [24]使用朴素贝叶斯机器学习方法发现MD&A中高管陈述越乐观,公司未来的盈余和流动性就越好 Brown和Tucker [38]发现MD&A变化引起市场反应,但并不影響分析师预测的修改因此分析师并不用MD&A的信息。 Kothari [39]研究了公司报告、分析师报告和商业新闻等方面的披露文本发现信息披露语调乐观(悲观)伴随着公司风险降低(升高),其中风险包括资本成本、波动率和分析师预测分歧程度

中文文本信息含量的研究成果非常丰富。赵子夜 [40]研究管理层报告的样板化及其经济后果 谢德仁和林乐 [41]发现管理层净正面语调与公司来年业绩显著正相关。 林乐和谢德仁 [42]证明業绩说明会管理层语调能预测分析师行为 孟庆斌 [43]发现MD&A信息含量越高未来股价崩盘风险越低。 薛爽 [44]发现亏损公司MD&A中提及的外部或内部原因越多,下一年扭亏的可能性越小; 经营计划中提及的战略性改进措施越多则下一年度扭亏的可能性越大;当下一年度计划增加研发支絀时,会提高扭亏的概率

De Franco [45]研究了分析师报告中的股东和债权人利益冲突事件,发现损害债权人利益事件的分析引起信用利差增大债券交易量增加。 Huang [46]发现分析师的正面文本比负面文本更强烈引起投资者反应分析师报告文本能预测未来5年的盈余增长。 林乐和谢德仁 [42]发現管理层净正面语调提高了分析师更新其荐股报告的可能性及更新人数比例, 并会提高分析师荐股评级水平及其变动

Price [47]发现季度盈余电话會议中高管在问答中的语调为正(负),则随后3天和2个月的股价上升(下降) Blau [48]发现盈余电话会议语调为正则卖空交易活动会降低,卖涳对收益率预测能力变强 Borochin [49]发现季度电话会议语调和期权市场蕴含的不确定性负相关。 Doran [50]研究了REITs的季度电话会议发现电话会议语调能佷好地解释季度盈余公告当日和随后的超额收益率。 Doran [50]分析了盈余公告相关的电话会议发现公司高管个人(而非集体)的乐观能解释电話会议乐观语调(在控制了公司商业因素之后)。

Tetlock [51]发现新闻媒体的悲观引发股价下跌但随后翻转,同时过高或过低的悲观导致交易量增夶 这表明新闻媒体并未体现基本面信息而是伴随着流动性交易和噪音交易。Tetlock [52]发现公司新闻中负面词汇出现频率较高能预测未来盈余较低虽然股价短期对此反应不足,但是很快就将文本包含的基本面信息反应出来

1.3公司高管策略性信息披露行为

Bozanic [53]发现季度盈余披露中关於盈余的量化陈述和其他陈述都引起投资者和分析师反应,但高不确定性使高管增加其他陈述 Arslan-Ayaydin [54]发现更多的股权激励会让高管在盈余披露新闻稿中语调变得更积极。 程新生 [55]证明进行盈余重述的公司会在MD&A中披露更多的非财务信息

也有文献研究了文本信息和诉讼风险之间嘚关系。Levy [56]发现非董事首席财务官(CFO)在盈余电话中的语调比董事CFO更悲观会更早且更保守披露坏消息。 这种现象的原因是CFO想规避自己(洏不是公司)被诉讼的风险Rogers [57]发现乐观的陈述容易引起股东被控告,并且被告公司的盈余公告更乐观

Hanley和Hoberg [58]研究美国1933年证券法第11款规定的訴讼风险和IPO折价以及自愿信息披露之间的关系 5 在IPO之前的询价和路演过程中出现好消息时,信息披露成本高(可能为竞争对手提供信息)上市公司倾向于用折价来规避诉讼风险;出现坏消息时,信息披露成本低不披露风险高,公司通过全面披露规避诉讼风险该文通過文本分析技术揭示,除折价之外策略性信息披露是上市公司规避诉讼风险的另一个策略,并且IPO信息披露策略和正常时期相反

1.4 文本分析和财务欺诈

财务欺诈指公司未如实披露法定信息而欺骗股东的行为,是监管者、投资者和审计师都重视的问题而Amani和Fadlalla [59]指出,财务欺诈是朂受益于数据挖掘等大数据技术的财会领域 Loughran和McDonald [36]用财务诉讼词汇占比、负面词汇占比和不确定性词汇占比预测财务报告欺诈。 而Purda和Skillicorn [60]则用决筞树模型找出最能区分欺诈和真实报告的有序单词列表基于上述列表中的前200个单词,采用支持向量机(SVM)技术对每一篇财务报告文档標注真实概率,从而预测财务报告的欺诈可能性

Gray和Debreceny [61]对数据挖掘(包括文本挖掘)在财务欺诈方面的研究进行了综述,并且对欺诈类型提絀了一个分类方法 Glancy和Yadav [62]发展了一种财务报告欺诈探测计算模型。 Dilla和Raschke [63]从理论上分析了文本等数据可视化在欺诈交易中的应用 West和Bhattacharya [64]对商业智能為基础的财务欺诈探测技术的探测算法、欺诈类型和效果等方面进行了综述,其中包括文本挖掘技术 Lin [65]比较了不同技术在探测财务欺诈方面的效果,发现人工神经网络、决策树这两种方法优于Logistics回归 Cecchini [66]则发现结合文本分析和财务数字预测欺诈能力比其中任何单一技术效果嘟好。

还有文献分析了欺诈信息披露的特征Goel [67]发现欺诈年报比非欺诈年报使用更多被动语态句子、不确定性词汇和词典。 Humpherys [68]发现欺诈性披露比非欺诈披露使用更多煽动性语言和词汇貌似可信实则没有实质性内容。 Hoberg和Lewis [28]发现欺诈公司年报的MD&A过少解释公司绩效来源、过多披露媄化公司绩效的信息

1.5 文本信息和市场异象

许多金融市场异象和信息有关。由于文本信息比传统金融和对会计工作的认识数据更不明确洇此更难被投资者处理。如果市场异象来自信息处理那么研究者应该考虑用文本信息解释市场异象。You和Zhang [19]发现年报单词个数过多导致市场反应不足探讨市场对文本信息反应不足是否PEAD这一异象的成因。 Feldman [37]则分析了年报和季报MD&A中的语调发现语调变化能预测随后季度的意外盈餘和价格漂移。 Lee [69]分析了季报可读性是否影响了股价的有效性发现季报越长(可读性越差),季报公告后三天股价反应的盈余相关信息越尐同时发现季报可读性差伴随着信息不对称。

对应计异象(Accrual anomaly)这个问题Li [24]发现,如果应计项为正(负)而公司高管在MD&A中对于应计项的语调却昰负(正)那么应计异象消失,就是说应计项和未来收益率不再相关

文本分析也被用于IPO定价研究。Hanley和Hoberg [70]利用文本分析技术将IPO招股说明書能被刚刚发生的IPO或者同行业IPO解释的信息作为标准分量,不能被解释的部分作为信息分量 该文发现信息分量(标准分量)越大,定价准確度越高(低)折价越低(高)。其原因在于信息分量减少了投资者在询价中生产信息的成本Arnold [71]研究IPO招股说明书 中的风险因素部分,將风险因素中的词数相对于总词数(或者特定内容词数)之比作为不确定性发现不确定性和IPO首日收益率正相关。 Loughran和McDonald [72]研究美国IPO过程中的S-1表格发现这个文件中不确定性词汇占比越高,首日收益率越高、发行价修正绝对值越大随后波动率越大。 Bajo和Raimondo [73]发现公司在IPO之前的新闻报道囸面语调伴随IPO折价且这种效应随着临近IPO日期更加明显。

2 文本分析产生新指标和新变量

文本分析将研究对象从结构化数据拓展到非结构化攵本数据因此可以对原有变量构建新的度量指标,或者直接构造新的变量

2.1 财务约束的度量

Bodnaruk [74]用上市公司年报中和“约束”相关的词汇頻率作为财务约束的度量,发现这个基于文本分析的财务约束指标能预测股利缺失或增加、股权回收(equity recycling)和养老金不足等流动性事件优于传統的财务约束指标。 借助于年报中的负面词汇度量财务约束发现财务约束导致公司追求更为激进的税务策略,包括更高的未确认税收抵扣、更低的有效税率、税收天堂利用的增加和更高的审计调整Hoberg和Maksimovic [75]也用文本分析构建财务约束指标,Buehlmaier和Whited [76]用机器学习构造财务约束指标

Hoberg [77]采用t年上市公司i年报中“商业描述”的名词构造名词向量NV(i,t),将NV(i,t)和NV(i,t-1)之间的差异作为t年公司i的创新的度量构造了一种基于文本的创新度量指標。

作为市场整体指标D(t)其中Nt和Nt-1分别表示在t年和t-1年的公司个数。NV(i,t)和D(t)之间的相似度就是t年上市公司i的另一种创新指标

Bellstam [78]收集分析师关于上市公司的研究报告,利用LDA技术将所有上市公司研究报告的词汇分为15个主题从中选出和主流创新教科书词频最接近的一个主题作为创新主題,然后通过个股研究报告中含有的创新主题词汇的强度来度量公司创新

ratio),是行业层面的竞争性指标然而,同一行业内的公司之间嘚竞争性必然存在差异而行业竞争性指标显然不能度量公司层面竞争力。该文通过公司年报中提到竞争对手的频率来度量公司的竞争力

Li [80]分析上市公司业绩说明会的文本记录,通过发言内容来揭示高管发言人熟悉公司的哪些情况(知识)并且发现知识能够影响高管薪酬。

2.5 经济政策不确定性(EPU)

Baker [81]将主流报纸包含经济、政策和不确定性词根的文章数对文章总数的占比作为经济政策不确定性指标发现EPU提高股市波动率,抑制投资 陈国进 [82]和雷立坤 [83]采用EPU研究中国市场。

Hoberg和Phillips [84]基于上市公司年报产品描述部分的词汇构建了不同公司之间的产品相似性(差异性)指标,发现产品相似性促成并购并且能够提升并购后的公司产品独特性(新产品)。 基于文本分析的相似性可以跨荇业比较两个公司的产品相似程度而行业代码却不能实现这一点。

3.1 文本分析的优势和缺点

文本分析的优势在于第一、提供了文本形式嘚非结构化数据,丰富了数据类型从而拓展了研究对象和研究范围;第二、文本大数据拓展了原来的研究边界,例如引入语言学开展可讀性研究;第三、提供新的工具、变量和指标;第四、提供新的研究视角例如用文本信息研究IPO定价。

同时文本分析也有明显的缺点:苐一、文本信息本身并不明确,必须经过研究者加工处理才能用于计量分析而这会引入噪音甚至错误,同时数据处理的可重复性存疑;苐二、文本数据大多数缺乏权威来源数据来源存疑;第三、文本数据量很大,现有的计量分析方法并不一定适用;第四、应用文本大数據分析技术研究对会计工作的认识和金融问题对研究者的综合能力尤其是编程和数量分析能力提出了挑战。最后文本既可能含有传统財务数字没有的信息,也可能是管理层操纵文本的表现这是应用文本分析研究对会计工作的认识和金融学问题的一大挑战。

第一既要偅视数据,也要重视算法未来文本数据量进一步加大,这就要求研究者必须加强两个方面的技能:(1)人工智能算法及其实现尤其是機器学习和深度学习;(2)基于大数据的计量分析方法。

第二、中文文本分析的研究空间很大现有研究大部分针对英文文本,一个自然嘚借鉴是将英文研究方法用于中文文档但是,英文和中文是两种不同的语言:英文天生用空格分隔词汇而中文则没有词汇分隔符。这僦导致中文分词比英文分词难得多幸运的是,Python中已经有结巴这一模块可以进行中文分词、词性标注等。虽然如此中文分词仍然不如渶文分词准确,因为中文分词基于自然语言处理技术本质上并不精确。同时大部分中文财务文档是PDF格式,不能直接用计算机处理虽嘫如此,应用中文文本分析的金融和对会计工作的认识研究仍然大有前途原因有二:第一、相对于丰富的英文文本分析的研究成果,中攵相关研究成果明显不足;第二、也许更重要的是这对于形成有中国特色的对会计工作的认识和金融研究体系极具价值。

第三、结合中國特有的信息披露规则利用文本分析挖掘具有中国特色的对会计工作的认识和金融问题。虽然国际对会计工作的认识准则已经存在但鈈同国家的信息披露规则并不相同。从不同的法规环境出发可能找到中国特色的研究问题,甚至能够研究其他国家地区不能研究的议题例如马长峰等[30]对年报摘要文本的分析。

第五、词典的构建现有文献表明,在商科研究中直接采用语言学通用词典并不合适因此需要商科研究中的专用词典。不论对于公司年报可读性还是情绪分析都是如此同时,中文不同于英文因此有必要构建中文专用词典。

第六、分析师受到可读性影响的原因探讨作为专业信息解读者,分析师被指出未能发挥专业信息解读能力这种现象的原因可从行为偏差、淛度安排和激励机制等方面分析。

第七、文本分析是语言经济学的重要工具近年来语言经济学指出语言特征影响人的经济行为 7,而文字包含了语言特征因此通过文本分析技术挖掘语言特征是发展语言经济学研究的重要手段。

过去十年学术界应用文本大数据分析技术在信息品质、信息数量的度量,信息披露市场异象和资产定价等方面取得了大量研究成果;产生了创新、竞争力、实际权力、经济政策不確定性和产品相似性等新指标和新变量。结合大数据处理方法和大样本计量分析方法未来文本大数据在对会计工作的认识和金融领域将會取得更大研究进展。

一方面基于英文的文本分析必将进一步深化金融和对会计工作的认识问题的研究;另一方面,基于中文文本分析嘚对会计工作的认识和金融研究才刚刚起步更重要的是,加强基于中文文本分析的对会计工作的认识和金融研究对于形成有中国特色的對会计工作的认识和金融研究体系具有重要意义这正是中国学者的使命。

1按照Li [1]非结构化是指数据没有预先定义的数据模型,或(且)不能填入关系型表格。非结构化文本天然是高维数据通常模糊且不规则,难以直接被计算机处理因而不能直接用于计量分析。

2Gepp等 [2]指絀大数据特征表现为4V: volume、velocity、variety、veracity分别指数据量大、产生速度快、格式或类型多、数据品质和相关性时变。陈国青 [3]是大数据对管理的影响的綜述而Zhu [4]证明大数据能够起到公司治理的作用。

3Teoh [6]对对会计工作的认识研究可用的新数据(不限于文本)进行了分类总结提出了数据和计量方法的挑战和机遇。

5美国1933年证券法第11款规定由于IPO招股说明书材料披露不足导致股价低于发行价产生损失的情况下投资者可以起诉承销商和发行者。因此发行者和承销商只要能避免股价低于发行价或者全面披露中的一条即可规避这种诉讼风险。

6美国IPO招股说明书包括:概偠、风险因素、募资用途、MD&A

7程博和潘飞 [85]分析了语言多样性对分析师盈余预测质量的影响。

我要回帖

更多关于 对会计工作的认识 的文章

 

随机推荐