基于Web文本挖掘中的一种中文分词算法研究被引量：2

Research on a Chinese Word Segment Algorithm based on Web Text Mining

下载PDF

导出

摘要基于Web文本挖掘问题,提出了一种改进的索引结构的词库组织体系及基于该词典结构的中文分词算法。同时,加强消除歧义方面的处理,分词精度有所提高。试验结果表明,采用该方法可较大提高中文文本的切词速度及信息的查全查准率。 In the paper, we will give a improving method of organizing Chinese word library and the segment algorithm based on Web text mining. Also, we strengthen the processing of dispelling ambiguity in order to increase the segment precision. A large number of simulation experiments show that this method can greatly improve the speed of Chinese word segmentation, the recall ratio and precision of information.

作者谢红薇王栋

机构地区太原理工大学

出处《电脑开发与应用》 2007年第7期6-8,共3页 Computer Development & Applications

基金国家自然科学基金资助项目(No.60472093)

关键词中文信息处理分词算法字典索引匹配 Chinese information processing, segment algorithm, dictionary index ,matching

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1李东，张湘辉．汉语分词在中文软件中的广泛应用[EB／OL]．微软中国研究开发中心网站，2006-10-06．被引量：1
2李庆虎,陈玉健,孙家广.一种中文分词词典新机制——双字哈希机制[J].中文信息学报,2003,17(4):13-18. 被引量：108
3李振星,徐泽平,唐卫清,唐荣锡.全二分最大匹配快速分词算法[J].计算机工程与应用,2002,38(11):106-109. 被引量：39
4吴栋,滕育平.中文信息检索引擎中的分词与检索技术[J].计算机应用,2004,24(7):128-131. 被引量：48
5郑家恒,卢娇丽.关键词抽取方法的研究[J].计算机工程,2005,31(18):194-196. 被引量：41

二级参考文献22

1孙茂松,邹嘉彦.汉语自动分词研究中的苦干理论问题[J].语言文字应用,1995(4):40-46. 被引量：45
2吴胜远.一种汉语分词方法[J].计算机研究与发展,1996,33(4):306-311. 被引量：49
3张国煊.快速书面自动分词系统及其算法设计[J].计算机研究与发展,1993,1. 被引量：3
4夏征农.辞海缩印本[M].上海辞书出版社,1989.. 被引量：1
5刘源.信息处理用现代汉词分词规范及自动分词方法[M].清华大学出版社,1992.. 被引量：1
6马晏.基于评价的汉语自动分词系统的研究与实现[A]..语言信息处理专论[C].北京:清华大学出版社,1996.. 被引量：4
7Choi A, Cheng C H, Ko Y L. Word extraction from Chinese documents by occurrence counts [ A].1988 International Conference on Computer Processing of Chinese and Oriental Languages, Toronto,Canada: 488 - 491. 被引量：1
8Fan C K, Tsai W H. Automatic word identification in Chinese sentences by the relaxation technique[J]. Computer Processing of Chinese and Oriental Languages, 1988, 4(1):33-56. 被引量：1
9MitchellTM著曾华军张银奎译.机器学习[M].北京:机械工业出版社,2003.. 被引量：46
10梁南元.书面汉语自动分词系统—CDWS[J].中文信息学报,1987,(2):44-52. 被引量：45

共引文献215

1段小斌,林雯,阮百尧,陈基漓.一种基于三级索引词库结构的中文分词方法研究[J].计算机与数字工程,2007,35(7):47-49. 被引量：5
2苏芳仲,林世平.Web文本挖掘中的一种中文分词算法研究及其实现[J].福州大学学报（自然科学版）,2004,32(z1):67-71. 被引量：5
3毛姝洁,张雪虎.基于兴趣点简称的检索方法研究[J].太原理工大学学报,2008,39(S1):52-55. 被引量：1
4李丹宁,李丹,王保华,马新强.几种基于词典的中文分词算法评价[J].贵州科学,2008,26(3):1-8. 被引量：4
5范戈,廖碧成.一种基于词义分析的短信问答系统的设计与实现[J].山东通信技术,2009,29(1):18-21.
6唐涛.基于文本挖掘的领域本体学习模型研究[J].图书情报工作,2010,54(S2):348-352. 被引量：3
7张春霞,郝天永.汉语自动分词的研究现状与困难[J].系统仿真学报,2005,17(1):138-143. 被引量：60
8田俊华.基于自然语言提问的自动答疑系统设计[J].现代远程教育研究,2005,17(1):48-51. 被引量：10
9邵晶,党海峰,白慧先,郑庆华.OPAC与网络教育资源共享集成方案的研究[J].现代图书情报技术,2005(5):64-67. 被引量：3
10邵晶,党海峰,白慧先,郑庆华.OPAC资源与网络教育资源共享集成关键技术研究[J].大学图书馆学报,2005,23(3):41-44. 被引量：3

同被引文献13

1张锋,许云,侯艳,樊孝忠.基于互信息的中文术语抽取系统[J].计算机应用研究,2005,22(5):72-73. 被引量：36
2黄松,霍宏,方涛.基于Web Services的地名辞典服务的研究与实现[J].计算机工程与应用,2006,42(5):220-222. 被引量：5
3徐爱萍,边馥苓.GIS中文查询系统的词典设计与分词研究[J].武汉大学学报（信息科学版）,2006,31(4):348-351. 被引量：10
4刘纪平,刘钊,王亮.基于功能协同的电子政务空间信息服务[J].测绘学报,2006,35(4):299-302. 被引量：13
5朱巧明.中文信息处理技术教干旱[M].北景:清华大学出版社,2005. 被引量：1
6房志峰.中文搜索引擎中的分词技术研究[J].科学技术与工程,2008,8(9):2481-2483. 被引量：9
7徐飞,孙劲光.中文分词切分技术研究[J].计算机工程与科学,2008,30(5):126-128. 被引量：16
8张赢,万仲保.对专业搜索引擎中未登录词的识别研究[J].计算机技术与发展,2009,19(5):134-136. 被引量：2
9都菁,熊海灵.基于论坛语料识别中文未登录词的方法[J].计算机工程与设计,2010,31(3):630-633. 被引量：10
10岳晓光,梁晓诚,麦范金,赵子强.基于.NET的中文分词系统设计与实现[J].微计算机信息,2010,26(12):215-216. 被引量：7

引证文献2

1李艳红,庞小平,李海亭.地名分词搜索的词典设计与匹配方法研究[J].测绘信息与工程,2011,36(2):52-54. 被引量：6
2杨阳,魏晓,秦成磊.基于Web知识的中文分词结果优化[J].计算机应用与软件,2015,32(12):55-58. 被引量：6

二级引证文献12

1孙敬杰,杨军,龚竞.地理信息公共平台地名搜索引擎研究[J].测绘,2013(1):3-5.
2阳小兰,杨威,钱程,朱福喜.融合HowNet和BTM模型的短文本聚类方法[J].计算机工程与设计,2017,38(5):1258-1263. 被引量：9
3刘海燕,张钰.基于LexRank的中文单文档摘要方法[J].兵器装备工程学报,2017,38(6):85-89. 被引量：5
4胡云锋,韩月琪,张云芝,庄园.Extraction and Dynamic Spatial-Temporal Changes of Grassland Deterioration Research Hot Regions in China[J].Journal of Resources and Ecology,2017,8(4):352-358. 被引量：4
5吕健颖,尚福华,曹茂俊.课程知识本体自动构建方法研究[J].计算机应用与软件,2018,35(8):55-59. 被引量：1
6吴君峰,唐芳,潘婵玲,范晓燕.基于空间分析与模糊匹配的地名变化检查方法[J].测绘,2018,41(1):20-21. 被引量：1
7葛云生,孔杰.分布式全文检索技术的研究及应用[J].计算机工程与设计,2018,39(9):2997-3001. 被引量：3
8刘佳琪,罗永莲.中文事件新闻的中国地名抽取算法研究[J].信息与电脑,2019,0(15):53-54.
9方玉萍,万荣,方达.中文文本未登录词识别的研究[J].电脑知识与技术,2019,15(7Z):203-204.
10杨恒,颜宏文.基于DBM的电力投诉工单分类的应用研究[J].计算技术与自动化,2020,39(3):86-90. 被引量：3

1苏芳仲,林世平.Web文本挖掘中的一种中文分词算法研究及其实现[J].福州大学学报（自然科学版）,2004,32(z1):67-71. 被引量：5
2吴宏洲.分词技术的研究与应用——一种快速分词的实现[J].电脑知识与技术,2015,11(2X):179-182. 被引量：2
3唐涛,周俏丽,张桂平.统计与规则相结合的术语抽取[J].沈阳航空航天大学学报,2011,28(5):71-74. 被引量：7
4骆正清,陈增武,王泽兵,胡上序.汉语自动分词研究综述[J].浙江大学学报（自然科学版）,1997,31(3):306-312. 被引量：16
5李红斌.词典结构及其在编译构造中的应用[J].计算机研究与发展,1991,28(7):53-55.
6蔡蕊.一种改进的基于Hash的中文分词算法研究[J].福建电脑,2010,26(2):69-70. 被引量：3
7郝海涛.基于向量机的文本分类中词典结构研究[J].福建电脑,2009,25(3):83-84.
8孟维娟.自然语言处理中的歧义[J].上海电机学院学报,2006,9(S1):16-19. 被引量：1
9冯柳平.机器翻译中的歧义性问题[J].桂林电子工业学院学报,1998,18(4):43-46.
10叶继平,张桂珠.中文分词词典结构的研究与改进[J].计算机工程与应用,2012,48(23):139-142. 被引量：12

电脑开发与应用

2007年第7期

浏览历史

内容加载中请稍等...

基于Web文本挖掘中的一种中文分词算法研究被引量：2

参考文献5

二级参考文献22

共引文献215

同被引文献13

引证文献2

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

基于Web文本挖掘中的一种中文分词算法研究 被引量：2

参考文献5

二级参考文献22

共引文献215

同被引文献13

引证文献2

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

基于Web文本挖掘中的一种中文分词算法研究被引量：2