文本挖掘在中文信息分析中的应用研究述评

治疗白癜风最好的地方 http://m.39.net/news/a_5906354.html

作者:李尚昊朝乐门

(1.中国人民大学信息资源管理学院,北京;2.数据工程与知识工程教育部重点实验室,北京)

摘要:文本挖掘是一个新兴的研究领域,近年在中文信息分析领域得到了广泛应用,促进了信息分析方法的完善和效率的提高。首先对文献来源、研究方法和研究主题内容进行了概括,通过对CNKI中收录的文本挖掘和信息分析相关的研究期刊、学位与会议论文的关键词进行聚类和统计分析,归纳出文本挖掘在信息分析中应用研究的三个主要内容:文本挖掘的基本理论和方法研究、文本挖掘在Web中的应用研究、文本挖掘与具体领域相结合的中文信息分析应用研究。根据文本挖掘在信息分析中应用的主要内容,提出了该领域今后的研究重点:基于新技术的文本挖掘应用研究和基于新方法的文本挖掘应用研究。

关键词:文本挖掘;信息分析;研究述评;研究重点

中图分类号:G文献标识码:A文章编号:-()08--07

文本挖掘是近些年来一个新兴研究领域,主要是从大量的、无结构的文本信息中发现潜在的、可能的数据模式、内在联系、规律、发展趋势等,抽取有效、新颖、有用、可理解的、散布在文本文件中的有价值知识,并且利用这些知识更好地组织信息的过程。近年来,文本挖掘在信息分析中的应用以及与特定领域的结合已经逐渐成为当前研究的重点,文章旨在通过对相关文献的统计分析,分析当前的研究状况和探寻最新的研究热点及趋势。

1数据获取

文章选取中国学术期刊网(CNKI)作为文献检索来源,以篇名作为检索项,键入“文本挖掘”和“信息分析”,时间选择在年12月31日之前,于年5月1日共检索到93篇论文;以主题作为检索项,键入“文本挖掘”和“信息分析”共检索到篇论文。经过数据整理,去除一些非中文信息分析的应用及一些非相关文献,共得到篇论文。

文章以这一检索结果作为研究对象,从多个角度对近年来文本挖掘在中文信息分析应用中的研究状况进行整理与分析。

图1中大致反映了国内文本挖掘在中文信息分析应用中大致可划分为如下几个阶段:第一阶段为初步发展期(-年),第二阶段为快速发展期(-年),第三阶段为持续发展期(-年),随着时间的发展和推移,每个阶段的研究侧重点各有其特点,在文章后续部分将会有更进一步的阐述。

2文献来源与分布

2.1期刊论文来源

在检索出来论文中,期刊论文共有51篇,在CSSCI和CSCD中收录共有30篇,其中图书馆与情报学15篇,计算机软件及计算机应用11篇,高校学报2篇,生物医学1篇,管理科学1篇,如表1所示。

从期刊的主要学科分布可以看出,文本挖掘在信息分析中的应用研究主要集中在图书情报领域和计算机软件及应用领域,图书情报领域类期刊是该领域研究论文的主要期刊,以《图书情报工作》、《情报科学》、《情报杂志》为主,其次是计算机应用领域的期刊,以《计算机科学》、《计算机工程与应用》为主,除此之外,在管理学、经济学等其他领域的相关期刊上也有较少量的相关论文。

2.2学位论文来源

在检索出的论文中,研究生学位论文共有75篇,占有较大比例,从一定程度上反映了研究生论文在此研究领域中的活跃性和前沿性,表2列出了该研究领域中研究生论文的所在单位及发文数量(其中博士论文16篇,硕士论文59篇),同时列出各单位发文数量的具体分布。

从研究生论文的发文量可以看出,学位论文来源较多的为图书情报学科较为完备的综合性高校,如武汉大学、吉林大学、浙江大学等,其次为理工科院校,如合肥工业大学、大连理工大学、北京邮电大学、电子科技大学等,除此之外则为专业性较强的高校或研究所,如西南财经大学、中国医科大学、北京信息控制研究所等。

2.3研究生学位论文学科及专业来源

此处通过对研究生学位论文学科、专业及数量的统计分析,旨在反映文本挖掘在信息分析领域应用的研究者的主要学科分布与专业背景情况,见表3。

从研究生学位论文的学科和专业分布情况可以看出国内该领域的研究主要包括计算机科学与技术、管理科学与工程、信息与通信工程、工商管理、图书馆情报与档案管理、经济学、数学、医学和生物学9个学科,共涵盖18个专业。其中计算机应用技术专业研究生学位论文的数量占到41.34%,计算机软件与理论比例为12%,其次为情报学和软件工程各占到5.33%,以上专业为该领域研究的最主要学科领域。

2.4会议论文来源

从会议论文来源分布表(表4)可以看出,该领域的主题会议论文较少,而且近年来主要以医药研究的会议论文集为主。

2.5基金来源

论文基金来源分布见表5。

3研究理论基础与方法

3.1研究方法

文本挖掘是一个方法群,涉及众多领域,是典型的信息分析过程,其在信息分析中的应用研究是一项跨学科的应用研究。近年来,文本挖掘在信息分析中的应用领域越来越广泛,特别在计算机、生物化学和社科情报等领域有着较多的应用,因而其研究方法也更多地借鉴了其他学科的方法,呈现多样化趋势,其中数理统计方法、机器学习方法等是该领域研究的主要方法。

3.2相关理论基础

由该领域研究涉及的学科领域分布可以看出该研究具有跨学科的特点,其理论基础与统计学、计算机科学、图书情报学及计算语言学等学科都有着密切联系,通过综合数据挖掘、机器学习、自然语言处理等方法在实现在特定领域中的信息分析应用。

4研究主题内容分析

通过对文献内容的关键词进行整理和分析,可以把握该方向的主要研究重点和热点,本研究使用RostCM软件对所有文献的关键词进行统计和聚类分析,经手工编码和整理后,得出的最佳聚类结果为如下五类,通过整理得到如下结果,见表6。

在此基础上,对文献关键词出现次数在2以上的核心关键词进行进一步整理和统计分析,了解该学科领域研究的主题分布和关键内容,同时把握今后的研究重点与方向。见表7。

通过使用RostCM软件的标签云功能将核心关键词的频度统计将其可视化,相同频度的词以同一大小显示,频度越高,字体越大,由此可以更加直观的看到其分布情况,其结果如图2所示。

基于聚类分析的结果和核心关键词的词频统计,文章初步据此将国内文本挖掘在中文信息分析中的应用研究归纳为如下几个方面。

4.1文本挖掘理论及方法研究

从该领域研究的第一阶段-初步发展研究阶(-)段到第二阶段-快速发展研究阶段(-)的中期,主要研究的侧重点在于文本挖掘的基本理论和方法,该阶段对于文本数据挖掘的方法及主要模型有了一个初步探讨和分析。

中科院软件所的吴健、杜林在《信息检索与文本挖掘》中阐释了文本挖掘在信息检索系统中的应用,初步介绍了文本挖掘涉及的基本方法布尔模型和向量空间模型,指出了文本挖掘在信息检索应用中的优势。

林鸿飞、贡大跃、张跃、姚天顺在《可视化中文文本挖掘模型》中建立了一个基于概念和词典的中文文本挖掘模型,初步解决了概念歧义问题,同时提出了基于特征项和模糊语义的文本特征提取算法,指出基于自然语言理解的语法、语义和语用分析对于知识挖掘有着重要的应用价值。

韩客松、王永成在文献中系统的介绍了文本挖掘、数据挖掘和知识管理的概念,以及他们之间的区别和联系。文章通过技术角度将知识管理划分为知识库、知识共享和知识发现三个阶段,指出知识发现是知识管理的最高阶段,同时进一步指出文本挖掘是信息处理的新方向,在最高阶段的知识发现中有着重要的应用价值。

梅鑫、邢桂芬绍。文章中提出了文本挖掘技术的一个框架,包括信息检索、信息抽取、信息挖掘和解释。针对信息抽取技术将其分为事实抽取、模式匹配、词法分析、句法和语义结构、事实集成和知识表述,针对文本挖掘相关技术将其分为事务和事务规则、概念聚类、概念层次、可训练的自然语言处理系统和神经网络方法,同时给出了相应的评估方法。

周雪忠、吴朝晖在探讨文本挖掘的技术方法和相关基础方法的基础上,指出文本挖掘的目标在于发现隐含的归纳知识如关联知识、序列知识及完全创新的科学推断和假设等,同时指出发现更具价值的应用领域知识模式是文本挖掘的应用趋势。

4.2文本挖掘在Web中的应用研究

互联网的出现和信息技术的快速发展凸显了“信息丰富而知识匮乏”的问题,Web数据不仅数量巨大且增长快速,而且具有无结构、分布式、动态性、开放性、异构性的特点,因此通过文本挖掘从动态Web内容中找出有价值的规律、结构和模式逐步得到了更多


转载请注明:http://www.jiuzhaigousc.com/zdgf/9208.html


当前时间: