一种基于多元信息库的自适应汉语歧义切分方法被引量：1

Self-Adaptive Chinese Ambiguous Word Segmentation Method Based on Multi-Gram Library

下载PDF

导出

摘要在分析目前分词方法的基础上提出了一种通过建立多元信息库、采用改进型的粗分算法以找出所有可能存在歧义的句子、借助于人工干预建立错误切分歧异词库等,实现汉语歧异切分的方法,通过修改、插入多元信息库中的信息量,进一步设计了一个具有自适应能力的歧义切分方法,并通过实验证明该方法能够有效改进汉语分词中错误歧义切分的结果. On the basis of the analysis of the existing algorithms of Chinese word segmentation, the article puts forward to realize Chinese word ambiguous segmentation by establishing mulit-gram library and improving the rough segmentation algorithm in order to find all sentences which have ambiguous word segmentation and establishing false segmentation ambiguous word library in virtual of manual interference. Moreover, the article designs a self-adaptive Chinese ambiguous word segmentation method based on modifying and inserting the values in the multi-gram library. It proves that the new method is able to improve effects in false ambiguous word segmentation.

作者朱巧明温滔李培蜂钱培德

机构地区苏州大学计算机科学与技术学院

出处《小型微型计算机系统》 CSCD 北大核心 2006年第8期1597-1600,共4页 Journal of Chinese Computer Systems

基金江苏省高技术研究项目(BG2005020)资助江苏省自然基金项目(BK2003030)资助江苏省教育厅自然(04KKB320134)资助

关键词多元信息库歧义切分自适应 multi-gram library ambiguous segmentation self-adaptive

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1张华平,刘群.基于N-最短路径方法的中文词语粗分模型[J].中文信息学报,2002,16(5):1-7. 被引量：99
2温滔,朱巧明,吕强.一种快速汉语分词算法[J].计算机工程,2004,30(19):119-120. 被引量：19
3徐秉铮,詹剑,贺前华.基于神经网络的分词方法[J].中文信息学报,1993,7(2):36-44. 被引量：15
4王显芳,杜利民.利用覆盖歧义检测法和统计语言模型进行汉语自动分词[J].电子与信息学报,2003,25(9):1168-1173. 被引量：8
5郭祥昊,钟义信,杨丽.基于两字词簇的汉语快速自动分词算法[J].情报学报,1998,17(5):352-357. 被引量：18
6陈桂林,王永成,韩客松,王刚.一种高效的中文电子词表数据结构[J].计算机研究与发展,2000,37(1):109-116. 被引量：26
7骆正清,陈增武,胡上序.一种改进的MM分词方法的算法设计[J].中文信息学报,1996,10(3):30-36. 被引量：28
8孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101

二级参考文献106

1孙茂松.谈谈汉语分词语料库的一致性问题[J].语言文字应用,1999(2):90-93. 被引量：20
2孙茂松,张磊.人机并存,“质”“量”合一—谈谈制定信息处理用汉语词表的策略[J].语言文字应用,1997(1):81-88. 被引量：7
3黄居仁,陈克健,陈凤仪,魏文真,张丽丽.《资讯处理用中文分词规范》设计理念及规范内容[J].语言文字应用,1997(1):94-102. 被引量：6
4刘开瑛.现代汉语自动分词评测技术研究[J].语言文字应用,1997(1):103-108. 被引量：15
5董振东.汉语分词研究漫谈[J].语言文字应用,1997(1):109-114. 被引量：11
6孙茂松,邹嘉彦.汉语自动分词研究中的苦干理论问题[J].语言文字应用,1995(4):40-46. 被引量：45
7徐秉铮,詹剑,贺前华.基于神经网络的分词方法[J].中文信息学报,1993,7(2):36-44. 被引量：15
8孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量：87
9周强.规则和统计相结合的汉语词类标注方法[J].中文信息学报,1995,9(3):1-10. 被引量：43
10骆正清,陈增武,胡上序.一种改进的MM分词方法的算法设计[J].中文信息学报,1996,10(3):30-36. 被引量：28

共引文献283

1李斌,袁义国,芦靖雅,冯敏萱,许超,曲维光,王东波.第一届古代汉语分词和词性标注国际评测[J].中文信息学报,2023,37(3):46-53. 被引量：4
2战疆,冯月利,王珊.PostgreSQL中文全文索引技术研究与实现[J].华中科技大学学报（自然科学版）,2005,33(z1):213-216. 被引量：3
3周蕾,朱巧明,李培峰.一种基于统计和规则的未登录词识别方法[J].南京大学学报（自然科学版）,2005,41(z1):819-825. 被引量：1
4苏芳仲,林世平.Web文本挖掘中的一种中文分词算法研究及其实现[J].福州大学学报（自然科学版）,2004,32(z1):67-71. 被引量：5
5曲维光.汉语自动分词的方法选择[J].计算机科学,2002,29(z1):54-56. 被引量：2
6张泉,曾国荪,王伟,孙明军,谷华楠.基于改进的模糊C-均值聚类的信任文摘[J].计算机研究与发展,2008,45(z1):268-273. 被引量：2
7刘春辉,金顺福,刘国华,李颖.基于优化最大匹配与统计结合的汉语分词方法[J].燕山大学学报,2009,33(2):124-129. 被引量：9
8滕伟,王永成.智能代理技术在新一代搜索引擎中的应用[J].计算机工程,2000,26(S1):709-715. 被引量：2
9隋丽萍,徐承韬,李瑞芳.一个中文全文检索系统的设计与实现[J].科技资讯,2007,5(18):244-245. 被引量：1
10郑炜冬.多种方法融合的中文自动分词系统的设计与实现[J].韩山师范学院学报,2009,30(6):37-43.

同被引文献12

1黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量：83
2李凯,左万利,吕巍.汉语文本中交集型切分歧义的分类处理[J].小型微型计算机系统,2004,25(8):1486-1490. 被引量：3
3金瑜,陆启明,高峰.基于上下文相关的最大概率汉语自动分词算法[J].计算机工程,2004,30(16):146-148. 被引量：8
4曾华琳,李堂秋,史晓东.一种基于提取上下文信息的分词算法[J].计算机应用,2005,25(9):2025-2027. 被引量：9
5蒋斌,杨超,赵欢.基于二字词位图表的汉语自动分词词典机制[J].湖南大学学报（自然科学版）,2006,33(1):121-123. 被引量：3
6翟凤文,赫枫龄,左万利.字典与统计相结合的中文分词方法[J].小型微型计算机系统,2006,27(9):1766-1771. 被引量：42
7朱鉴,张建,李淼.一种有效解决汉语歧义切分的方法[J].计算机工程与应用,2007,43(11):175-177. 被引量：1
8王东,陈笑蓉.一种改进的高效分词词典机制[J].贵州大学学报（自然科学版）,2007,24(4):380-384. 被引量：8
9闫引堂,周晓强.交集型歧义字段切分方法研究[J].情报学报,2000,19(6):637-643. 被引量：22
10郑德权,于凤,王开涛,赵铁军.基于汉语二字应成词的歧义字段切分方法[J].计算机工程与应用,2003,39(1):17-18. 被引量：8

引证文献1

1刘春辉,金顺福,刘国华,李颖.基于优化最大匹配与统计结合的汉语分词方法[J].燕山大学学报,2009,33(2):124-129. 被引量：9

二级引证文献9

1李国和,刘光胜,吴卫江,孙红军,唐先明,韩宝东.基于最大匹配和歧义检测的中文分词粗分方法[J].北京信息科技大学学报（自然科学版）,2010,25(S2):84-88. 被引量：1
2周宏宇,张政.中文分词技术综述[J].安阳师范学院学报,2010(2):54-56. 被引量：7
3张彩琴,袁健.改进的正向最大匹配分词算法[J].计算机工程与设计,2010,31(11):2595-2597. 被引量：11
4魏莎莎,熊海灵.中文分词中的歧义识别处理策略[J].微计算机信息,2010,26(30):190-192. 被引量：6
5李国和,刘光胜,秦波波,吴卫江,李洪奇.综合最大匹配和歧义检测的中文分词粗分方法[J].计算机工程与应用,2012,48(14):139-142. 被引量：3
6戴上静,石春,吴刚.中文分词中的正向增字最大匹配算法研究[J].微型机与应用,2014,33(17):15-18. 被引量：7
7唐英杰,高鹏飞,蔡强.基于SOPC技术的盲文分词系统的实现[J].北京印刷学院学报,2014,22(6):45-47.
8姜芳,李国和,岳翔,吴卫江,洪云峰,刘智渊,程远.基于粗分和词性标注的中文分词方法[J].计算机工程与应用,2015,51(6):204-207. 被引量：7
9郑越.基于人工智能的网络舆情系统解析[J].中国战略新兴产业,2018(7X):44-44. 被引量：2

1张雨,李郅威.简析工程数据库版本管理[J].科技信息,2011(24):210-210. 被引量：2
2林海文.带时间和空间距离参数的消歧方法[J].电脑与信息技术,2009,17(2):25-26.
3刘畅.浅论汉语歧义对古籍注释歧解形成的影响[J].励耘语言学刊,2006(2):159-167.
4杨思春,周云霞.汉英机器翻译中基于实例的歧义结构消解[J].计算机工程与设计,2004,25(5):688-690. 被引量：1
5王克明.从架构师的观点来看软件开发流程[J].程序员,2007(5):76-79.
6张素娟,郑庆华,胡云华,孙霞.一种面向网络答疑的汉语切分歧义消除算法[J].计算机工程与应用,2004,40(25):55-58. 被引量：4
7喻洁,夏安邦,王磊.大规模电力信息集成的技术支持研究[J].制造业自动化,2008,30(8):6-10. 被引量：1
8周立俭,崔学梅,李俊伟.一种改进的多小波遥感图像融合方法[J].计算机仿真,2011,28(12):249-252. 被引量：4
9司莉,潘秋玉.基于多语本体的语义查询扩展研究[J].数字图书馆论坛,2016(2):39-43. 被引量：1
10赵怿怡,刘海涛.歧义结构理解中的依存距离最小化倾向[J].计算机工程与应用,2014,50(6):7-10. 被引量：5

小型微型计算机系统

2006年第8期

浏览历史

内容加载中请稍等...

一种基于多元信息库的自适应汉语歧义切分方法被引量：1

参考文献8

二级参考文献106

共引文献283

同被引文献12

引证文献1

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

一种基于多元信息库的自适应汉语歧义切分方法 被引量：1

参考文献8

二级参考文献106

共引文献283

同被引文献12

引证文献1

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

一种基于多元信息库的自适应汉语歧义切分方法被引量：1