基于“文本对齐”进行短文本过滤算法的研究
摘要
在应用编辑距离算法进行文本聚类的算法思想上,提出"文本对齐"思想,并提供了相应的算法。
出处
《信息通信》
2013年第9期22-23,共2页
Information & Communications
参考文献6
-
1黄永光,刘挺,车万翔,胡晓光.面向变异短文本的快速聚类算法[J].中文信息学报,2007,21(2):63-68. 被引量:17
-
2彭泽映,俞晓明,许洪波,刘春阳.大规模短文本的不完全聚类[J].中文信息学报,2011,25(1):54-59. 被引量:35
-
3朱文换.BBS短文本聚类技术研究[M].哈尔滨:哈尔滨工业大学,2009. 被引量:1
-
4Levenshtein V I. Binary codes capable of correcting de!e-tions, insertions, and reversals [J]. Doklady Akademii Nauk, SSSR, 1965, 163(4):845-848. 被引量:1
-
5HowNet[EB/OL]. http://www.Keenage. Com.2007. 被引量:1
-
6WordNet[EB/OL]. htt p://wordnet, princeton, edu/. 2006. 被引量:1
二级参考文献20
-
1王滨华,石志刚.基于散列关键词的大规模网页去重算法[J].高性能计算技术,2004,0(5):35-38. 被引量:1
-
2陈儒,张宇,刘挺.面向中文特定信息变异的过滤技术研究[J].高技术通讯,2005,15(9):7-12. 被引量:7
-
3黄永光,刘挺,车万翔,胡晓光.面向变异短文本的快速聚类算法[J].中文信息学报,2007,21(2):63-68. 被引量:17
-
4A.K. JAIN, M.N. MURTY, P.J. FLYNN. Data Clustering: A Review[J]. ACM Computing Surveys, September 1999, 31(3). 被引量:1
-
5Wang L, Jia Y, Han W H. Instance message clustering based on extended vector space model[EB/OL]. Proceedings of 2^nd Iternational Symposium on Intelligence Computation and Applications. Wuhan, China: Springer, 2007: 435-443. 被引量:1
-
6He H, Chen B, Xu W R, Guo J. Short text feature extraction and clustering for web topic mining [EB/ OL]. Proceeding of the 3^rd International Conference on Semantics, Knowledge and Grid. Washington D. C. , USA: IEEE, 2007: 382-385. 被引量:1
-
7http://tech. ifeng. com/internet/detail _ 2010 _ 08/09/ 1600761_0.shtml[DB/OL]. 被引量:1
-
8HARTIGAN, J. and WONG, M. Algorithm AS136: A k-means clustering algorithm[J]. Applied Statistics, 1979,28: 100-108. 被引量:1
-
9Horatiu Mocian. Survey of Distributed Clustering Techniques[EB/OL]. 1^st term ISO report, 2009. 被引量:1
-
10M. E. J. Newman. Power laws, Pareto distributions and Zipf's law [J]. Contemporary Physics, 2005,46 (5):323-351. 被引量:1
共引文献48
-
1吴启明,易云飞.文本聚类综述[J].河池学院学报,2008,28(2):86-91. 被引量:21
-
2王丹,樊兴华.面向短文本的命名实体识别[J].计算机应用,2009,29(1):143-145. 被引量:18
-
3吴铁洲,孙杨,夏防震.有标记的文本聚类方法研究[J].舰船电子工程,2009,29(4):104-106. 被引量:1
-
4贺涛,曹先彬,谭辉.基于免疫的中文网络短文本聚类算法[J].自动化学报,2009,35(7):896-902. 被引量:18
-
5彭泽映,俞晓明,许洪波,刘春阳.大规模短文本的不完全聚类[J].中文信息学报,2011,25(1):54-59. 被引量:35
-
6娄建玮.高职院校学生网络舆情分析系统的研究[J].潍坊学院学报,2011,11(2):40-45. 被引量:2
-
7丁荩,涂浩.微博感知突发重大新闻事件的研究与分析[J].广西大学学报(自然科学版),2011,36(A01):335-338. 被引量:6
-
8时睿,封化民.一种基于名词的微博语义计算方法[J].北京电子科技学院学报,2011,19(4):16-22. 被引量:4
-
9曾诗奇,刘欣宇,宋玉龙,孙蕾,雷祎舲.浅析微博系统的研究进展[J].中国电子商务,2012(4):8-8.
-
10孙晓莹,李大展,王水.国内微博研究的发展与机遇[J].情报杂志,2012,31(7):25-33. 被引量:12
-
1平淡.对齐更简单 玩转Word文本对齐[J].电脑爱好者,2017,0(4):46-47.
-
2宁慧,王素红,王明星,徐丽.基于图论的片段合并方法研究[J].应用科技,2016,43(1):40-45. 被引量:2
-
3刘长德.还你一个真正干净的页眉[J].电脑爱好者,2012(22):30-30.
-
4汉-维平行语料库的构建及应用[J].新疆大学学报(哲学社会科学版)(维吾尔文),2016,0(1):8-12.
-
5张霄军,陈小荷.双语平行语料的预处理[J].外语教育,2007(1):145-149. 被引量:1
-
6木又木人.巧用Excel表格制作席卡[J].电脑迷,2008,0(17):73-73.
-
7Office加油站[J].电脑迷,2007,0(6):84-84.
-
8大虾人.实用软件技巧荟萃[J].计算机与网络,2005,31(21):20-20.
-
9Krzysztof Wolk Krzysztof Marasek.Alignment of the Polish-English Parallel Text for a Statistical Machine "Translation[J].Computer Technology and Application,2013,4(11):575-583.
-
10新产品&工具[J].程序员,2009(6):126-127.