期刊文献+

网络文本主题词的提取与组织研究 被引量:14

Research on the Extraction and Organization of Key Phrases in Web Texts
下载PDF
导出
摘要 网络信息的指数爆炸给人们获取与掌控信息带来了困扰,为了挖掘海量信息中的关键因子并以恰当的方式进行组织,本文设计了网络文本主题词提取和组织算法。该算法基于多级滤噪的切分词拼接,利用特定的噪音库与滤噪策略严格控制拼接过程,在合理收录策略的挑选下,算法提取出了能够准确反映海量网络数据中关键因子的主题词串。为清晰地组织主题词,建立主题词与网络事件的有机联系,设计了新的词聚类策略对主题词提取结果进行处理,使表达同一热点的主题词合理地组织在一起,共同描述同一事件。在以实际网络文本为语料的实验中,算法表现出令人满意的性能。 The exponential explosion of Internet information complicates human access to those useful information. To detect the most important aspects of the vast information and manage the it accordingly, a key phrase extraction algorithm is proposed on the basis of a multi-level segmented word concatenation. Supported by a customized noise library and filtering strategies, the algorithm is capable of extracting key phrases in large amount of internet data. Further, a carefully designed clustering algorithms is applied so that the key phrases describing the same event are correctly grouped together. Experiment in real internet data proves the efficiency of our algorithms.
出处 《中文信息学报》 CSCD 北大核心 2008年第3期64-70,80,共8页 Journal of Chinese Information Processing
基金 国家973“大规模文本内容计算”课题资助项目(2004CB318109)
关键词 计算机应用 中文信息处理 主题词提取 未登录词识别 切分词拼接 主题词聚类 computer application Chinese information processing key phrases extraction unknown word identification segmented word concatenation key phrases clustering
  • 相关文献

参考文献13

  • 1Zhang Hua-Ping, Liu Qun, et al. Chinese name entity recognition using role model[J]. Special issue "Word Formation and Chinese Language processing" of the International Journal of Computational Linguistics and Chinese Language Processing, 2003, 8(2): 29-60. 被引量:1
  • 2Wu An-Di, Jiang Zi-Xin. Statistically-enhanced new word identification in a rule-based Chinese system[A].In.. Proc. of the Second Chinese Language Processing Workshop[C]. HongKong, China: 2000. 46-51. 被引量:1
  • 3Li Hong-Qiao. etc al. The use of SVM for Chinese new word identification[A]. In: Proc. of First International Joint Conference on Natural Language Processing[C]. Sanya, Hainan Island, China: 2004. 497- 504. 被引量:1
  • 4Ukkonen E. On-line construction of suffix trees[J]. Algorithmica 1995, 14, 249-260. 被引量:1
  • 5刘挺,吴岩,王开铸.串频统计和词形匹配相结合的汉语自动分词系统[J].中文信息学报,1998,12(1):17-25. 被引量:65
  • 6邹纲..中文新词语自动检测研究[D].中国科学院计算技术研究所,2004:
  • 7刘远超,王晓龙,徐志明,关毅.文档聚类综述[J].中文信息学报,2006,20(3):55-62. 被引量:65
  • 8Dubes R. C. and Jain A. K., Algorithms for Clustering Data[M]. Prentice Hall, 1988. 被引量:1
  • 9Kaufman L. and Rousseeuw P. J., Finding Groups in Data: an Introduction to Cluster Analysis[M]. John Wiley and Sons, 1990. 被引量:1
  • 10Steinbach M., Karypis G., and Kumar V. A comparison of document clustering techniques [A]. KDD Workshop on Text Mining[C]. 2000. 被引量:1

二级参考文献47

  • 1陈浩,何婷婷,姬东鸿.基于k-means聚类的无导词义消歧[J].中文信息学报,2005,19(4):10-16. 被引量:16
  • 2黄昌宁,语言信息处理专论,1996年 被引量:1
  • 3Li Junjie,J Harbin Inst Technol,1995年,2卷,2期 被引量:1
  • 4何克抗,中文信息学报,1995年,5卷,2期,1,28页 被引量:1
  • 5李俊杰,博士学位论文,1995年 被引量:1
  • 6刘源,信息处理用现代汉语分词规范及自动分词方法,1994年 被引量:1
  • 7姚天顺,中文信息学报,1990年,4卷,1期 被引量:1
  • 8刘源,现代汉语常用词词频词典,1990年 被引量:1
  • 9Regina Barzilay,Min-Yen Kan,and Kathleen R.McKeown.Simfinder:A Flexible Clustering Tool for Summarization[A].In proceedings of the Workshop on Summarization in NAACL 01[C].Pittsburg,Pennsylvania,USA:June 2001. 被引量:1
  • 10Zheng Chen,Wei-Ying Ma,Jinwen Ma.Learning to Cluster Web Search Results[A].In:proceedings of the 27th Annual International ACM SIGIR Conference[C].Sheffield,South Yorkshire,UK,July 2004,210 -217. 被引量:1

共引文献128

同被引文献168

引证文献14

二级引证文献158

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部