摘要
近年来在文本挖掘领域,学者们尝试从底层改造文本挖掘算法,提出文本图表示模型,更加丰富地表征文本内容和结构,从而改进现有文本挖掘算法。相关的研究主要涉及文本图表示模型的定义、节点和边的构建、文本相似度计算方法,以及文本图表示模型在特征内容提取、文本分类和文本聚类、信息检索以及其他文本挖掘任务中的应用。本文主要从以上几方面对文本图表示模型研究进行综述。
In text mining research area, scholars attempt to reform text mining algorithms by changing their foundation. Text graph representation is accordingly introduced, which has strong abilities to represent the content and structure of text. Related work in this area is about the definition of text graph representation, construction methods of nodes and edges, the similarity calculation between texts, and its application in extracting feature content, text classification, text clustering, information retrieval and some other text mining tasks. This paper gives a thorough review about text graph representation, covering the above aspects.
出处
《情报学报》
CSSCI
北大核心
2013年第12期1257-1264,共8页
Journal of the China Society for Scientific and Technical Information
基金
国家自然科学基金项目:科研团队动态演化规律研究(项目批准号:71273196)的研究成果之一
关键词
文本表示
文本图表示模型
图结构
文本挖掘
text representation, text graph representation, graph structure, text ming