-
题名基于多特征融合和图匹配的维汉句子对齐
被引量:2
- 1
-
-
作者
倪耀群
许洪波
程学旗
-
机构
中国科学院计算技术研究所网络数据科学与技术重点实验室
中国科学院大学
洛阳外国语学院语言工程系
-
出处
《中文信息学报》
CSCD
北大核心
2016年第4期124-133,共10页
-
基金
国家自然科学基金(61232010
61303156)
+2 种基金
国家973课题(2012CB316303)
国家863课题(2012AA011003)
国家科技支撑计划(2012BAH46B04)
-
文摘
维吾尔语新闻网页与对应的中文翻译网页在内容上往往并非完全可比,主要表现为双语句子序列的错位甚至部分句子缺失,这给维汉句子对齐造成了困难。此外,作为新闻要素的人名地名很多是未登录词,这进一步增加了维汉句子对齐的难度。为了提高维汉词汇的匹配概率,作者自动提取中文人名、地名并翻译为维吾尔译名,构造双语名称映射表并加入维汉双语词典。然后用维文句中词典词对应的中文译词在中文句中进行串匹配,以避免中文分词错误,累计所有匹配词对得到双语句对的词汇互译率。最后融合数字、标点、长度特征计算双语句对的相似度。在所有双语句子相似度构成的矩阵上,使用图匹配算法寻找维汉平行句对,在900个句对上最高达到95.67%的维汉对齐准确率。
-
关键词
句子对齐
人名、地名翻译
多特征融合
二部图最佳匹配
-
Keywords
sentence alignment
translation of human name and location name
multiple features blending
maximum weight matching in bipartite graph
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于赋权二部图的记录簇匹配模型及其算法
- 2
-
-
作者
陈波
王延章
-
机构
大连理工大学管理学院
中国人民银行征信中心
-
出处
《计算机工程》
CAS
CSCD
北大核心
2009年第24期60-62,共3页
-
基金
中国人民银行信息化建设基金资助项目"统一征信平台研究"(P2008035)
-
文摘
通过一组成员记录表示实体时,相似记录匹配问题被扩展为记录簇匹配问题。提出2种记录簇匹配模式,应用赋权二部图理论建立记录簇匹配数学模型,设计记录簇上下界匹配算法。快速推导出记录簇匹配阈值的上下界,以减少记录簇子记录最大权的匹配次数。实验结果证明该算法能提高记录簇匹配精度和计算效率。
-
关键词
信息集成
记录簇匹配
二部图最大权匹配
-
Keywords
information integration
record cluster matching
maximum weight matching of bipartite graph
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-