基于改进位置成词概率的新词识别被引量：3

A new method for Chinese new word identification based on the improved PWP

导出

摘要提出了一种基于改进位置成词概率的新词识别算法.该算法在位置成词概率的基础上,结合新词内部模式的特征提出了改进的位置成词概率,然后再综合互信息、邻接类别等统计量对新词进行识别.采用小说语料进行测试,实验结果表明该算法在一定程度上能有效提取新词. This paper proposes a new method for Chinese new word identification based on the improved （ position word probability, PWP）. Different from the traditional PWP, the improved PWP that proposes in this paper took the pattern of a string into consideration. At the meanwhile, we also used AV and MI statistics to identify Chinese new words. Experimental results show that this method is effective in recognition of Chinese new words.

作者林自芳蒋秀凤

机构地区福州大学数学与计算机科学学院

出处《福州大学学报（自然科学版）》 CAS CSCD 北大核心 2011年第1期43-48,共6页 Journal of Fuzhou University(Natural Science Edition)

基金福建省科技创新平台计划资助项目(2009J1007) 福建省教育厅科研资助项目(JA04161) 福建省发展改革委员会基金资助项目(SX2004-29)

关键词汉语新词识别改进位置成词概率 Chinese new words identification improved PWP

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献15

1曾依灵,许洪波.网络热点信息发现研究[J].通信学报,2007,28(12):141-146. 被引量：29
2郑家恒,李文花.基于构词法的网络新词自动识别初探[J].山西大学学报（自然科学版）,2002,25(2):115-119. 被引量：56
3Chien L F. PATtreebased keyword extraction for Chinese information' retrieval[C]//Proceedings of the 20th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. Philadelphia: [s. n.], 1997:50-58. 被引量：1
4Zhang J, Gao J F, Zhou M. Extraction of Chinese compound words : an experimental study on a very large corpus [C]// ACL2000 Second Chinese Language Processing Workshop. Hong Kong: [s. n.], 2000:132-139. 被引量：1
5Feng H D, Chert K, Deng X T, et al. Accessor variety criteria for Chinese word extraction[J]. Computer Linguistics, 2004, 30(1) : 75-93. 被引量：1
6Wu A, Jiang Z. Statisticallyenhanced new word identification in a rulebased Chinese system[C]//Proceedings of the Second Chinese Language Processing Workshop. Hong Kong: [s. n.], 2000:46-51. 被引量：1
7Chen A T. Chinese word segmentation using minimal linguistic knowledge[C]//Proceedings of the Second SIGHAN Workshop on Chinese Language Proceeding. Sapporo: [s. n.] , 2003:148-151. 被引量：1
8Li H Q, Huang C N, Gao J F, et al. The use of SVM for Chinese new word identifination[C]//Processings of First International Joint Conference on Natural Language Processing. Sanya: [s. n.], 2004 : 497-504. 被引量：1
9Peng F C, Feng F F, McCallum A. Chinese segmentation and new word detection using conditional random fields [C]//Proceedings of the 20th International Conference on Computational Linguistics(COLING 2004). Geneva: [s. n.], 2004:562-568. 被引量：1
10黄玉兰,龚才春,许洪波,等.基于局部性原理的有意义串提取方法[C]//第四届全国信息检索与内容安全学术会议论文集(上).北京:[出版者不详],2008:56-64. 被引量：1

二级参考文献9

1郑家恒李文花.新词语自动识别方法研究.自然语言理解与机器翻译[M].北京:清华大学出版社,2001.. 被引量：1
2陆志苇.现代汉语构词法（修订本）[M].北京:中华书局,1975.. 被引量：1
3ZHANG H P, LIU Q, YU H K, et al. Chinese named entity recognition using role model[J]. The International Journal of Computational Linguistics and Chinese Language Processing, 2003, 8(2):29-60. 被引量：1
4CHEN H H, DINGY W, TSAI S C, et al. Description of the NTU system used for MET-2[A]. Proc MUC-7[C].1997. 被引量：1
5YU S H, BAI S H, WU E Description of the kent ridge digital labs system used for MUC-7[A]. Proc MUC-7[C]. 1997. 被引量：1
6WU A D, JIANG Z X. Statistically-enhanced new word identification in a rule-based Chinese system[A]. The Second Chinese Language Processing Workshop[C].Hong Kong, China, 2000.46-51. 被引量：1
7LI H Q, HUANG C N, GAO J F, et al.The use of SVM for Chinese new word identification[A]. First International Joint Conference on Natural Language Processing[C]. Sanya, Hainana Island, China, 2004. 497-504. 被引量：1
8UKKONEN E. On-line construction of suffix trees[J]. Algorithmica, 1995, 14(3): 249-260. 被引量：1
9刘挺,吴岩,王开铸.串频统计和词形匹配相结合的汉语自动分词系统[J].中文信息学报,1998,12(1):17-25. 被引量：65

共引文献83

1黄东平,田芳.BBS信息过滤技术研究[J].长江大学学报（自然科学版）,2004,1(1):16-18. 被引量：4
2崔世起,刘群,孟遥,于浩,西野文人.基于大规模语料库的新词检测[J].计算机研究与发展,2006,43(5):927-932. 被引量：32
3任禾,曾隽芳.一种基于信息熵的中文高频词抽取算法[J].中文信息学报,2006,20(5):40-43. 被引量：22
4李新福,赵杰,梁巍.基于互信息的宋史语料库词表的提取[J].河北大学学报（自然科学版）,2006,26(5):557-560. 被引量：4
5吕学强,黄河,李渝勤,施水才.BBS中文新词语自动挖掘[J].现代图书情报技术,2007(1):37-39. 被引量：2
6夏霙,刘功申,李翔.基于标引信息的网络新概念发现算法[J].微型电脑应用,2007,23(1):8-10.
7罗智勇,宋柔.基于多特征的自适应新词识别[J].北京工业大学学报,2007,33(7):718-725. 被引量：14
8龚才春,贺敏,陈海强,许洪波,程学旗.大规模语料的频繁模式快速发现算法[J].通信学报,2007,28(12):161-166. 被引量：4
9韩艳,姚建民,朱巧明,张晶.不限领域的中文新词的识别研究[J].郑州大学学报（理学版）,2008,40(3):67-71. 被引量：2
10孙凌云,孙守迁.中国大陆地区专利地图技术研究[J].情报学报,2008,27(5):772-780. 被引量：2

同被引文献31

1刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
2邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇.面向Internet的中文新词语检测[J].中文信息学报,2004,18(6):1-9. 被引量：59
3刘风成,黄德根,姜鹏.基于AdaBoost.MH算法的汉语多义词消歧[J].中文信息学报,2006,20(3):6-13. 被引量：7
4王思力,张华平,王斌.双数组Trie树算法优化及其应用研究[J].中文信息学报,2006,20(5):24-30. 被引量：29
5朱德熙.语法讲义[M]北京:商务印书馆,2004. 被引量：1
6Sun Xiao,Huang Degen,Song Haiyu. Chinese New Word Identification:A Latent Discriminative Model with Global Features[J].Journal of Computer Science and Technology,2011,(01):14-24. 被引量：1
7Sun Xu,Wang Houfeng,Li Wenjie. Association for Computa-tional Linguistics[A].Associ-ation for Computational Linguistics,2012.123-128. 被引量：1
8Liu Zhiyuan,Zheng Yabin,Xie Lixing. User Behaviors in Related Word Retrieval and New Word Detection:A Collaborative Perspective[J].ACM Transactions on Asian Language Information Processing,2011,(04):20-27. 被引量：1
9Wang Hanshi,Zhu Jian,Tang Shiping. A New Unsupervised Approach to Word Segmentation[J].Comput-ational Linguistics,2011,(03):421-454. 被引量：1
10搜狗实验室.搜狗中文词语搭配库. 被引量：1

引证文献3

1赵小宝,张华平.基于迭代算法的新词识别[J].计算机工程,2014,40(7):154-158. 被引量：7
2雷一鸣,刘勇,霍华.面向网络语言基于微博语料的新词发现方法[J].计算机工程与设计,2017,38(3):789-794. 被引量：11
3邢付贵,朱廷劭.基于大规模语料库的古文词典构建及分词技术研究[J].中文信息学报,2021,35(7):41-46. 被引量：9

二级引证文献27

1周详,李少波,杨观赐.服装类商品属性实体识别[J].计算机应用,2015,35(7):1945-1949. 被引量：2
2雷一鸣,刘勇,霍华.面向网络语言基于微博语料的新词发现方法[J].计算机工程与设计,2017,38(3):789-794. 被引量：11
3丁祥武,张东辉.基于Spark的中文新词提取[J].计算机工程与设计,2017,38(11):3185-3191. 被引量：1
4和志强,王丽鹏,张鹏云.基于词共现的关键词提取算法研究与改进[J].电子技术与软件工程,2018(1):144-146. 被引量：1
5王欣.一种基于多字互信息与邻接熵的改进新词合成算法[J].现代计算机（中旬刊）,2018(4):7-11. 被引量：5
6闻永毅,王治梅,杨婷.中医文献语料库自动分词中的新词发现研究[J].西部中医药,2018,31(9):71-74.
7邹志文,朱红泽,李玲,张大秀.基于改进位置成词概率的微博新词发现算法[J].电脑知识与技术,2019,15(1):1-2.
8刘申凯,周霁婷,朱永华,高洪皓.融合知识图谱和ESA方法的网络新词识别[J].计算机技术与发展,2019,29(3):12-17. 被引量：2
9刘伟童,刘培玉,刘文锋,李娜娜.基于互信息和邻接熵的新词发现算法[J].计算机应用研究,2019,36(5):1293-1296. 被引量：29
10黄文明,杨柳青青,任冲.结合信息量和深度学习的领域新词发现[J].计算机工程与设计,2019,40(7):1903-1907. 被引量：6

1林自芳,蒋秀凤.基于词内部模式的新词识别[J].计算机与现代化,2010(11):162-164. 被引量：17
2刘冰洋,刘倩,张瑾,刘欣然,程学旗.多语种网络文本快速新词抽取[J].中文信息学报,2014,28(2):78-84. 被引量：2
3林伟.一种基于成词概率的贝叶斯垃圾邮件过滤方法[J].计算机技术与发展,2011,21(9):242-244.
4贺敏,龚才春,张华平,程学旗.一种基于大规模语料的新词识别方法[J].计算机工程与应用,2007,43(21):157-159. 被引量：24
5李淑平.中文新词识别研究概述[J].科技资讯,2016,14(29):145-146.
6廖祥文,林自芳,陈水利.基于词内部模式的中文新词识别研究[J].集美大学学报（自然科学版）,2011,16(6):461-466. 被引量：1
7秦文,苑春法.基于决策树的汉语未登录词识别[J].中文信息学报,2004,18(1):14-19. 被引量：23
8王倩倩,范通让.汉语中新词识别方法研究[J].河北省科学院学报,2014,31(2):35-40.

福州大学学报（自然科学版）

2011年第1期

浏览历史

内容加载中请稍等...

基于改进位置成词概率的新词识别被引量：3

参考文献15

二级参考文献9

共引文献83

同被引文献31

引证文献3

二级引证文献27

相关作者

相关机构

相关主题

浏览历史

基于改进位置成词概率的新词识别 被引量：3

参考文献15

二级参考文献9

共引文献83

同被引文献31

引证文献3

二级引证文献27

相关作者

相关机构

相关主题

浏览历史

基于改进位置成词概率的新词识别被引量：3