一种多知识源汉语语言模型的研究与实现被引量：8

RESEARCH ON A CHINESE LANGUAGE MODEL BASED ON MULTI KNOWLEDGE SOURCES AND ITS IMPLEMENTATION

下载PDF

导出

摘要针对汉语语言模型中知识获取不足的问题 ,提出了一种统计与多种形式规则信息结合的机制 ,将规则的表示量化 ,提出语法语义规则矩阵的概念 ,通过扩充词网格、对基于最大可能性的 n元概率值合理调整 ,将短语构成规则、二元语法语义规则、最少分词原则等融入统计模型框架 ,构成多知识源语言模型 ,模型应用于智能拼音汉字转换系统 ,明显提高了音字转换正确率。 A method of integrating statistical information and different kinds of rules for Chinese language modeling is presented, which represents the rule as figure, introduces the concept of syntactic and semantic rules matrix, and the embeds the phrase rules represented as CFG, the syntactic and semantic rules, and least segmentation principle into the N gram statistical Chinese language model by augmenting the word lattice and adjusting the N gram probabilities based on maximum likelihood. The technique is applied in Chinese Pinyin to character conversion and improves accuracy of the system.

作者刘秉权王晓龙王宇颖

机构地区哈尔滨工业大学计算机科学与工程系

出处《计算机研究与发展》 EI CSCD 北大核心 2002年第2期231-235,共5页 Journal of Computer Research and Development

基金国家自然科学基金项目 (69973 0 15 ) 黑龙江省杰出青年基金项目 (F0 2 0 60 4)资助

关键词 N-gram音字转换自然语言处理规则矩阵多知识源汉语语言模型计算机 Chinese language model, N gram, Chinese pinyin to character conversion, rules matrix

分类号 TP391.12 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1潘凌云,杨长生.拼音、汉字计算机自动转换系统[J].计算机学报,1990,13(4):271-276. 被引量：4
2王晓龙,王开铸.声音语句输入的研究[J].计算机学报,1994,17(2):96-103. 被引量：7
3万建成.语音代码──汉字智能转换研究[J].中文信息学报,1994,8(2):61-72. 被引量：4
4张瑞强,王作英,张建平.带拼音纠错的汉语音字转换技术[J].清华大学学报（自然科学版）,1997,37(10):9-11. 被引量：4
5关毅,王晓龙,张凯.基于转移的音字转换纠错规则获取技术[J].计算机研究与发展,1999,36(3):268-273. 被引量：4
6王轩,王晓龙.大规模文本计算机音字相互转换技术的研究[J].计算机研究与发展,1998,35(5):417-421. 被引量：4
7王晓龙,王开铸,李仲荣,白小华.最少分词问题及其解法[J].科学通报,1989,34(13):1030-1032. 被引量：25

二级参考文献59

1王晓龙,王开铸,孙希文,王英伟.音字转换中的机器学习研究[J].计算机学报,1993,16(5):370-377. 被引量：7
2王晓龙,王开铸.声音语句输入的研究[J].计算机学报,1994,17(2):96-103. 被引量：7
3王轩.语音文字输入中计算语言模型的研究：博士论文[M].哈尔滨:哈尔滨工业大学,1997.. 被引量：1
4梁南元，中文信息学报，1987年，2卷，2期，45页被引量：1
5刘源，中文信息学报，1986年，1卷，1期，20页被引量：1
6关英春，计算机研究与发展，1985年，22卷，12期，5页被引量：1
7管纪文，中文信息处理国际会议论文集.2，1983年被引量：1
8梁南元被引量：1
9杨长生，浙江大学学报，1988年，1期被引量：1
10陈建民，现代汉语句型论，1986年被引量：1

共引文献41

1郑炜冬.多种方法融合的中文自动分词系统的设计与实现[J].韩山师范学院学报,2009,30(6):37-43.
2孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
3杨春花,万建成,姜合.一个并行分词体系结构模型[J].计算机工程与应用,2004,40(33):89-91.
4徐火辉.词输入与心理语言学[J].中文信息,1995,12(4):9-14. 被引量：1
5曾广平,杨扬,涂序彦,陈明.远程银行智能信息安全模型[J].北京科技大学学报,2006,28(1):96-100. 被引量：1
6杨春花,张洁,胡芳立.一个书面汉语词库系统的设计与实现[J].山东轻工业学院学报（自然科学版）,2006,20(2):29-34.
7成华,尹宝林.一个拼音汉字自动转换系统的设计与实现[J].北京航空航天大学学报,1996,22(4):465-469. 被引量：1
8王晓龙,王幼龙.语句级汉字输入技术[J].中文信息学报,1996,10(4):51-59. 被引量：13
9姜维,关毅,王晓龙,刘秉权.基于支持向量机的音字转换模型[J].中文信息学报,2007,21(2):100-105. 被引量：6
10王轩,王晓龙,藏晓莉.统计与规则相结合的计算机音字相互转换技术[J].哈尔滨工业大学学报,1997,29(4):1-4. 被引量：3

同被引文献52

1姚建华.自动化新闻与新闻劳动的重构:技能变迁的视角[J].福建师范大学学报（哲学社会科学版）,2021(1):106-114. 被引量：21
2陈清才,王晓龙,赵健.一种基于粗糙集的大规模语料库语言学知识发现模型[J].计算机工程与科学,2004,26(5):56-61. 被引量：1
3邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇.面向Internet的中文新词语检测[J].中文信息学报,2004,18(6):1-9. 被引量：59
4郑泽之,张普,杨建国.基于语料库的字母词语自动提取研究[J].中文信息学报,2005,19(2):78-85. 被引量：10
5孙霞,郑庆华,王朝静,张素娟.一种基于生语料的领域词典生成方法[J].小型微型计算机系统,2005,26(6):1088-1092. 被引量：11
6张小衡.不完全拼音码的模版处理——兼谈微软拼音输入法的进一步完善[J].计算机工程与应用,2005,41(20):74-76. 被引量：2
7姜韶华,党延忠.基于长度递减与串频统计的文本切分算法[J].情报学报,2006,25(1):74-79. 被引量：14
8中文自然语言处理平台.文本分类语料库(复旦)[EB/OL].(2003-06-23).http://www.nip.org.cn/categolies/default.php?cat_id=16. 被引量：1
9白栓虎.汉语词切分及词性自动标注一体化方法[C]..计算语言学进展与应用(JSCL-95)[C].,1995.56-61. 被引量：1
10Masaaki Nagata. A stochastic Japanese morphological analyzer using a forward-DP backward- A * N-Best search algorithm [C]. In: Proceedings of COLING'94, 15th Int. Conference on Computational Linguistics, Kyoto, Japan, 1994, 201-207. 被引量：1

引证文献8

1张茂元,卢正鼎,邹春燕.一种基于语境的中文分词方法研究[J].小型微型计算机系统,2005,26(1):129-133. 被引量：8
2窦家维,李顺东.一种新的语言信息计算模型[J].小型微型计算机系统,2005,26(10):1850-1853. 被引量：1
3姜韶华,党延忠,宣照国.无词典抽词的RMMFS和BMMFS方法及其比较研究[J].情报学报,2006,25(4):499-503. 被引量：5
4姜韶华,党延忠.自动提取含字母词语的领域新术语的研究[J].计算机工程,2007,33(2):47-49. 被引量：3
5朱鸿宇,刘瑰,陈左宁,唐福华.实体关系识别中长距离依赖问题的研究[J].小型微型计算机系统,2008,29(2):364-367. 被引量：2
6刘政怡,樊庆林,吴建国,李炜.基于输入法的通用存储结构[J].计算机工程与设计,2008,29(17):4554-4558.
7刘政怡,吴建国,李炜.基于整句输入法的状态空间模型[J].计算机工程与应用,2008,44(30):153-156. 被引量：2
8王建平.大语言模型架构下的智能写作系统设计与实现[J].信息与电脑,2023,35(22):130-132. 被引量：1

二级引证文献22

1王军辉,胡铁军,李丹亚,钱庆,方安.中文生物医学文本无词典分词方法研究[J].情报学报,2011,30(2):197-203. 被引量：4
2张素智,刘放美.基于矩阵约束法的中文分词研究[J].计算机工程,2007,33(15):98-100. 被引量：11
3姜文志,聂心东,范洪达,蒋伟俊.作战命令的语法信息计算模型[J].信息与电子工程,2008,6(1):51-53.
4彭春艳,张晖,包玲玉,陈昌平.基于条件随机域的生物命名实体识别[J].计算机工程,2009,35(22):197-199. 被引量：17
5于娟,党延忠.结合词性分析与串频统计的词语提取方法[J].系统工程理论与实践,2010,30(1):105-111. 被引量：19
6王忠建,王悦.面向少按键装置的汉语笔画输入方法[J].哈尔滨商业大学学报（自然科学版）,2010,26(3):329-333.
7律佳,廉立志.基于语境分析的汉语分词器在文本信息过滤系统中的应用[J].郑州轻工业学院学报（自然科学版）,2010,25(3):66-70.
8吴江宁,刘巧凤.基于图结构的中文文本表示方法研究[J].情报学报,2010,29(4):618-624. 被引量：14
9吴江宁,刘巧凤.基于最大公共子图的文本相似度算法研究[J].情报学报,2010,29(5):785-791. 被引量：8
10魏莎莎,熊海灵.中文分词中的歧义识别处理策略[J].微计算机信息,2010,26(30):190-192. 被引量：6

1夏祖勋,方慧嘉.多知识源信息综合中对不知信息的处理[J].华东船舶工业学院学报,1993,7(4):9-13.
2杜幼平,李桂青.基于多知识源的信息处理方法[J].湖北工学院学报,1996,11(1):46-49.
3曲卫民,张俊林,孙乐.基于主题的汉语语言模型的研究[J].计算机研究与发展,2003,40(9):1368-1374. 被引量：3
4肖镜辉,王晓龙,刘秉权.一种基于相似度的汉语语言模型平滑技术及其在音字转换中的应用[J].高技术通讯,2006,16(2):127-132.
5杨琳,张建平,颜永红.特定领域的汉语语言模型平滑算法比较研究[J].计算机工程与应用,2006,42(32):14-16. 被引量：5
6王龙,杨俊安,陈雷,林伟,刘辉.基于循环神经网络的汉语语言模型并行优化算法[J].应用科学学报,2015,33(3):253-261. 被引量：7
7宗成庆,章森,陈肇雄,黄河燕.基于多知识源的同音词识别方法[J].中文信息学报,1998,12(4):22-29. 被引量：1
8郭燕利,胡建军,毕常青.网络环境下UCDOS5.0的使用难题及解决办法[J].计算机应用研究,1998,15(4):56-57.
9王龙,杨俊安,陈雷,林伟.基于循环神经网络的汉语语言模型建模方法[J].声学技术,2015,34(5):431-436. 被引量：5
10孙瑞娜.基于CRFs的哈萨克语名词短语自动获取[J].图书馆理论与实践,2015(8):101-105. 被引量：1

计算机研究与发展

2002年第2期

浏览历史

内容加载中请稍等...

一种多知识源汉语语言模型的研究与实现被引量：8

参考文献7

二级参考文献59

共引文献41

同被引文献52

引证文献8

二级引证文献22

相关作者

相关机构

相关主题

浏览历史

一种多知识源汉语语言模型的研究与实现 被引量：8

参考文献7

二级参考文献59

共引文献41

同被引文献52

引证文献8

二级引证文献22

相关作者

相关机构

相关主题

浏览历史

一种多知识源汉语语言模型的研究与实现被引量：8