融合主题和要素的汉柬可比语料获取方法被引量：3

A method of building Chinese-Khmer comparable corpus mixing with themes and elements

导出

摘要为了有效地获取可比语料,选取汉柬双语新闻文档作为可比语料库的候选语料,提出一种融合发布时间要素、实体要素和主题分布的可比语料获取方法.该方法首先计算文本的主题概率分布的JS距离,并融合各主题和要素特征,计算文本相似度;然后利用改进型的层次聚类算法对双语文本进行聚类,最后从聚簇类结果中获取可比语料.与基于词典的文本相似度计算方法进行聚类相比,该文方法有更高的Purity和F值并且获得的高质量的可比语料更多,说明了本文方法的有效性. In order to effectively obtain comparable corpus,this paper presents a method based on the inte- gration of time distribution, entity feature and topic distribution to obtain comparable corpus, selecting Chinese- Khmer bilingual news documents as the candidate corpus.The method first calculates the JS distance with the top- ic probability distribution of the text, and combines the theme and element features to calculate the text similari- ty;Then, the improved hierarchical clustering algorithm is used to cluster the bilingual texts;Finally, we can get comparable corpus from each cluster.Compared with text similarity computation method based on the dictionary, the proposed method has higher Purity and F values, and obtains more higher quality comparable corpus by this method.

作者郭月江严馨刘小惠余正涛线岩团莫源源

机构地区昆明理工大学信息工程与自动化学院上海师范大学语言研究所云南民族大学东南亚南亚语言文化学院

出处《云南大学学报（自然科学版）》 CAS CSCD 北大核心 2017年第3期360-368,共9页 Journal of Yunnan University(Natural Sciences Edition)

基金国家自然科学基金(61462055 61562049 61363044)

关键词可比语料库层次聚类双语主题模型跨语言文本相似度 comparable corpus hierarchical clustering bilingual latent dirichlet allocation cross- text similarity language

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1孙昌年,郑诚,夏青松.基于LDA的中文文本相似度计算[J].计算机技术与发展,2013,23(1):217-220. 被引量：23
2杨燕,靳蕃,KAMEL Mohamed.聚类有效性评价综述[J].计算机应用研究,2008,25(6):1630-1632. 被引量：117

二级参考文献27

1李洁,高新波,焦李成.一种基于修正划分模糊度的聚类有效性函数[J].系统工程与电子技术,2005,27(4):723-726. 被引量：8
2张惟皎,刘春煌,李芳玉.聚类质量的评价方法[J].计算机工程,2005,31(20):10-12. 被引量：60
3普运伟,金炜东,朱明,胡来招.核模糊C均值算法的聚类有效性研究[J].计算机科学,2007,34(2):207-210. 被引量：28
4李峰,李芳.中文词语语义相似度计算——基于《知网》2000[J].中文信息学报,2007,21(3):99-105. 被引量：106
5HALKIDI M, VAZIRGIANNIS M, BATISTAKIS Y. Quality scheme assessment in the clustering process [ C ]//Proc of the 4th Eur Conf Principles and Practice of Knowledge Discovery in Databases. 2000: 165-276. 被引量：1
6THEODORIDIS S, KOUTROUBAS K. Pattern recognition[ M]. [S.l. ] :Academic Press, 1999. 被引量：1
7HALKIDI M, BATISTAKIS Y, VAZIRGIANNIS M. On clustering validation techniques [ J ]. Intelligent Information Systems, 2001, 17 (2-3) :107-145. 被引量：1
8HALKIDI M, VAZIRGIANNIS M. Clustering validity assessment using multi representatives[ C]//Proc of SETN Conference. 2002. 被引量：1
9YANG Yan, KAMEL M, JIN Fan. A model of document clustering using ant colony algorithm and validity index [ C ]//Proc of IEEE International Joint Conference on Neural Networks. Montreal: [ s. n. ], 2005 : 2730- 2735. 被引量：1
10RESSOM H, WANG D, NATARAJAN P. Adaptive double self-organizing maps for clustering gene expression profiles [ J ]. Neural Networks ,2003,16(5-6) :633-640. 被引量：1

共引文献138

1何灵敏,潘益民.一种基于GA的聚类集成算法[J].中国计量学院学报,2011,22(3):282-285. 被引量：2
2谢凤英,秦世引,姜志国,孟如松.皮肤镜黑素细胞瘤图像自适应聚类的进化寻优[J].计算机辅助设计与图形学学报,2009,21(12):1745-1752. 被引量：2
3王超,刘涛,杜利平,杨桢,班晓娟,周贤伟.一种新的认知无线电主用户信号识别方法[J].电波科学学报,2009,24(6):1119-1123. 被引量：12
4刘春晓,张翠芳.基于SOM和PSO的聚类组合算法[J].通信技术,2010,43(1):208-209. 被引量：7
5刘志勇,邓贵仕.一种基于矩阵变换的层次聚类算法[J].郑州大学学报（理学版）,2010,42(2):39-42. 被引量：6
6廉琪,苏屹.基于SOM和PSO聚类组合算法的客户细分研究[J].华东经济管理,2011,25(1):118-121. 被引量：2
7谭维,杨燕.基于自组织特征映射的聚类集成算法[J].计算机工程与设计,2010,31(22):4885-4888. 被引量：4
8施蓓琦,刘春,陈能,林文鹏.典型地物实测光谱的相似性测度与实验分析[J].同济大学学报（自然科学版）,2011,39(2):292-298. 被引量：6
9刘燕驰.基于密度的最佳聚类数确定方法[J].中国管理信息化,2011,14(9):30-33. 被引量：4
10叶青,唐鹏举.一种改进的基于MST的聚类算法[J].计算机与现代化,2011(8):17-19. 被引量：2

同被引文献21

1沈艳,陈赟,黄卓.文本大数据分析在经济学和金融学中的应用:一个文献综述[J].经济学（季刊）,2019,18(4):1153-1186. 被引量：85
2唐国瑜,夏云庆,张民,郑方.基于跨语言广义向量空间模型的跨语言文档聚类方法[J].中文信息学报,2012,26(2):116-120. 被引量：6
3邓三鸿,万接喜,王昊,刘喜文.基于特征翻译和潜在语义标引的跨语言文本聚类实验分析[J].现代图书情报技术,2014(1):28-35. 被引量：3
4Ruiji FU Bing QIN Ting LIU.Generating Chinese named entity data from parallel corpora[J].Frontiers of Computer Science,2014,8(4):629-641. 被引量：1
5严馨,王若兰,余正涛,潘丽同,郭剑毅.基于最大熵模型的英柬双语平行句对获取[J].山西大学学报（自然科学版）,2015,38(4):588-594. 被引量：1
6莫源源,潘丽同,严馨,余正涛,刘小惠.基于最大熵模型的柬英平行网页获取[J].计算机工程,2016,42(5):194-200. 被引量：2
7夏青,严馨,余正涛,汪建成,高盛祥,洪旭东.融合要素及主题的汉越双语新闻话题分析[J].计算机工程,2016,42(9):186-191. 被引量：3
8黄栋,徐博,许侃,林鸿飞,杨志豪.基于词向量和EMD距离的短文本聚类[J].山东大学学报（理学版）,2017,52(7):66-72. 被引量：11
9孟志青,许微微.时态文本数据流特征流行趋势模型及算法[J].计算机科学,2019,46(B06):417-422. 被引量：5
10杨文娟,王文明,王全玉,汪俊杰.基于感知哈希和视觉词袋模型的图像检索方法[J].图学学报,2019,40(3):519-524. 被引量：6

引证文献3

1徐广义,严馨,余正涛,周丽华.融合跨语言特征的柬埔寨语命名实体识别方法[J].云南大学学报（自然科学版）,2018,40(5):865-871. 被引量：3
2胡丹.金融学文本大数据挖掘方法分析[J].互联网周刊,2022(9):12-14. 被引量：1
3潘思铭,巫邵诚.基于语义特征句向量距离的汉语-俄语跨语言文本聚类方法研究[J].情报探索,2023(7):1-10.

二级引证文献4

1刘宇鹏,栗冬冬.基于BLSTM-CNN-CRF的中文命名实体识别方法[J].哈尔滨理工大学学报,2020,25(1):115-120. 被引量：19
2余传明,黄婷婷,林虹君,安璐.基于标签迁移和深度学习的跨语言实体抽取研究[J].现代情报,2020,40(12):3-16. 被引量：4
3孙凌浩.利用翻译模型的跨语言中文命名实体识别[J].计算机工程与应用,2021,57(10):94-100. 被引量：2
4郭利荣.基于数据挖掘地址的文本信息提取方法[J].信息记录材料,2022,23(10):30-32.

1吕岚.基于层次聚类算法的WEB文本挖掘技术研究[J].福建电脑,2011,27(3):40-41. 被引量：1
2程蔚,线岩团,周兰江,余正涛,王红斌.基于双语LDA的跨语言文本相似度计算方法研究[J].计算机工程与科学,2017,39(5):978-983. 被引量：7
3李朝健,肖建华.常用聚类算法比较分析[J].电脑知识与技术（过刊）,2007(2):471-472. 被引量：8
4曹芳.近十年来我国电子文件研究论文的统计与分析[J].档案学研究,2003(4):45-49. 被引量：5
5李贤.基于时间要素的系统MTTR分配方法[J].科技视界,2017(5):119-119. 被引量：1
6葛广帅,刘东升,张丽萍,侯敏.基于图模型的克隆代码演化痕迹构建及模式识别[J].计算机工程,2017,34(5):47-54. 被引量：3
7孙锐.基于事件图的新闻标题生成研究[J].乐山师范学院学报,2017,32(4):42-46.
8李慧,马小平,施珺,仲兆满,蔡虹.结合信任度与社会网络关系分析的微博推荐方法研究[J].中文信息学报,2017,31(2):146-153. 被引量：2
9万青,马盈仓.基于属性概念的决策形式背景协调性研究[J].西北大学学报（自然科学版）,2017,47(3):336-341. 被引量：3
10李静远,丘志杰,刘悦,程学旗,任彦.抑制背景噪声的LDA子话题挖掘算法[J].华南理工大学学报（自然科学版）,2017,45(3):54-60. 被引量：1

云南大学学报（自然科学版）

2017年第3期

浏览历史

内容加载中请稍等...

融合主题和要素的汉柬可比语料获取方法被引量：3

参考文献2

二级参考文献27

共引文献138

同被引文献21

引证文献3

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

融合主题和要素的汉柬可比语料获取方法 被引量：3

参考文献2

二级参考文献27

共引文献138

同被引文献21

引证文献3

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

融合主题和要素的汉柬可比语料获取方法被引量：3