维吾尔语的N-gram语言模型研究被引量：1

Research of Uyghur N-gram Model

下载PDF

导出

摘要针对基于维吾尔语的N-gram模型统计数据稀疏问题造成统计模型识别性能降低,研究针对政府文献和报告领域的语料进行了1到3元文法统计,采用加法、线性插值、Witten-Bell和Kneser-Ney平滑算法进行了约束。结果表明,本实验中Kneser-Ney平滑技术可以大大降低统计维吾尔语的N-gram模型的困惑度。 For the reasons that statistic data sparse problem of Uyghur N-gram model caused statistic model low recognition performance,A N-gram model smoothing algorithm which is adapt to the Uyghur language was put forward.A 1-gram to 3-gram probability statistics were built in government references and Government reports domains,Addition,Linear interpolation,Witten-Bell and Kneser–Ney smoothing algorithm to added the grammar control.The results of the experiments shows that the perplexity of statistic models is decreased greatly by using the Kneser –Ney smoothing.

作者张亚军

机构地区昌吉学院

出处《电脑知识与技术（过刊）》 2011年第6X期4177-4179,共3页 Computer Knowledge and Technology

关键词语言模型平滑算法困惑度维吾尔语-汉语双语语料 language model smoothing algorithm perplexity Uyghur language & Chinese parallel corpus

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1Shengwei Tian,Turgun Ibrahim.Chinese-Uighur Sentence Alignment Based on Hybrid Strategy with Mistake Spread Suppression[].ESIAT.2009 被引量：1
2江铭虎,朱小燕,袁保宗.一种适应域的汉语N-gram语言模型平滑算法[J].清华大学学报（自然科学版）,1999,39(9):99-102. 被引量：9
3Roth D,Zelenko D.Part of speech tagging using a networkof linear separators[].Proceedings of the th AnnualMeeting of the Association for Computational Linguisticsand th International Conference on Computational Lin-guistics.1998 被引量：1
4Lidstone G J.Note on the gereral case of the Bayes-Laplace formala for inductive or a posteriori probabiblities[].Transaactions of theFaculty of Actuaries.1992 被引量：1
5徐志明,王晓龙,关毅.N-gram语言模型的数据平滑技术[J].计算机应用研究,1999,16(7):37-39. 被引量：10

二级参考文献2

1Chen Stanleyf，博士学位论文，1996年被引量：1
2Zhou M，IEICE Trans Inf Syst，1996年，E79卷，4期，333页被引量：1

共引文献15

1张仰森,曹元大.基于语料库的自然语言建模方法研究[J].计算机科学,2004,31(5):176-179. 被引量：1
2黄永文,何中市.基于互信息的统计语言模型平滑技术[J].中文信息学报,2005,19(4):46-51. 被引量：8
3黄永文,何中市.基于全局折扣的统计语言模型平滑技术[J].重庆大学学报（自然科学版）,2005,28(8):51-55. 被引量：3
4吴晓春,吴娴,朱巧明.一个语言模型压缩方法的研究与实践[J].苏州大学学报（工科版）,2008,28(3):16-20. 被引量：1
5张磊,褚昆,郭黎利.基于互信息的语言模型回退平滑算法[J].应用科技,2009,36(4):28-31.
6刘志文,侯宏旭,李沙茹拉,柳林.基于trigger对的蒙古语语言模型的三种实现方法比较[J].中文信息学报,2009,23(6):105-109. 被引量：1
7刘志文,侯宏旭,宋美娜,李沙茹拉.基于trigger对的长距离蒙古语语言模型的改进Katz平滑技术[J].内蒙古大学学报（自然科学版）,2010,41(1):107-110.
8张秋野,王力劭,丁鹏.连续语音识别网格技术在新闻制播平台的应用[J].电视技术,2010,34(2):58-60. 被引量：2
9朱颖.浅谈HMM在词性标注中的应用[J].电脑开发与应用,2011,24(3):52-55. 被引量：3
10戚欣,肖敏,孙建鹏.基于本体知识库的自动语义标注[J].计算机应用研究,2011,28(5):1742-1744. 被引量：9

同被引文献1

1李春生.一种体现长距离依赖关系的语言模型[J].科技视界,2014(5):55-56. 被引量：4

引证文献1

1毛丽旦.尼加提,古丽尼尕尔.买合木提,艾斯卡尔.艾木都拉.不同维度下维吾尔语N-gram语言模型性能分析[J].现代电子技术,2019,42(10):27-30. 被引量：4

二级引证文献4

1孟庆春.基于N-gram特征的网络恶意代码分析方法[J].数字技术与应用,2020,38(3):49-50. 被引量：3
2王晶,赵彩.语义关系下的英语长句机器翻译算法优化[J].信息技术,2021,45(8):102-105. 被引量：9
3张四维,武永泉,秦涛,彭冲,赵彦杰,焦良葆.面向电力线路巡检的语音指令识别系统研究和应用[J].信息化研究,2021,47(5):6-12. 被引量：2
4唐明伟,陈宙,丁晗萱,朱翼,顾明辉,陈羽.大语言模型中文问答正确性对比实验研究——以ChatGPT 3.5、Claude 1.0和文心一言2.1为例[J].情报探索,2024(7):71-78.

1黄永文,何中市.基于互信息的统计语言模型平滑技术[J].中文信息学报,2005,19(4):46-51. 被引量：8
2郭蓝天,李扬,慕德俊,杨涛,李哲.一种基于LDA主题模型的话题发现方法[J].西北工业大学学报,2016,34(4):698-702. 被引量：21
3赵知纬,钱龙华,周国栋.一个面向信息抽取的中文跨文本指代语料库[J].中文信息学报,2015,29(1):57-66. 被引量：3
4李嘉佑,贾自艳,何清,史忠植.基于Web挖掘的网页清洗技术[J].计算机工程与应用,2006,42(25):98-101. 被引量：7
5刘章,陈小平.联合无监督词聚类的递归神经网络语言模型[J].计算机系统应用,2014,23(5):101-106. 被引量：1
6梁华参,赵铁军.统计机器翻译中双语语料的过滤及词对齐的改进[J].智能计算机与应用,2013,3(4):10-13. 被引量：3
7实用软件[J].大众软件,2008(1):49-49.
8杨琳,张建平,颜永红.特定领域的汉语语言模型平滑算法比较研究[J].计算机工程与应用,2006,42(32):14-16. 被引量：5
9吐尔根·依步拉音,吾守尔·斯拉木,麦合甫热提,艾山·吾买尔.词典和统计相结合的维吾尔文拼写查错方法的研究[J].新疆大学学报（自然科学维文版）,2012(1):1-10.
10陶志荣.N—gram语言模型的Katz平滑技术[J].电子计算机,2002(2):32-35. 被引量：1

电脑知识与技术（过刊）

2011年第6X期

浏览历史

内容加载中请稍等...

维吾尔语的N-gram语言模型研究被引量：1

参考文献5

二级参考文献2

共引文献15

同被引文献1

引证文献1

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

维吾尔语的N-gram语言模型研究 被引量：1

参考文献5

二级参考文献2

共引文献15

同被引文献1

引证文献1

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

维吾尔语的N-gram语言模型研究被引量：1