利用信息传播特性的中文网络新词发现方法被引量：5

A Method of Discovering New Chinese Words from Internet Based on Information Propagation

下载PDF

导出

摘要针对已有方法识别出的网络中文新词生命周期短且很快不再为人们所用的问题,提出了一种基于信息传播特性的中文新词发现方法。该方法结合"新词传播范围广、持续时间长"的特点,从用户覆盖率、话题覆盖率和新词生命周期3个方面设计统计量;采用N-gram算法得到候选词串列表;用基于词频和词语灵活度的方法过滤垃圾词串。实验中以微博文本作为语料来源,与已有方法相比,用户特性使得新词识别的准确率提高了11%,话题特性使准确率提高了10%,时间特性使准确率提高了13%,综合用户、话题和时间的方法使准确率提高了16%。实验结果表明:该方法中的每个特性都提高了中文网络新词识别的准确率,而且同时考虑3种特性的准确率比只考虑单一特性的高。 A method of discovering new Chinese words from Internet based on information propagation is proposed to solve the problems that the recognizing results of existing methods always have short life cycles and will not be used again in soon.The method combines the characteristics of new words such as widely spreading and long lasting,and three statistics,i.e.coverage rate of users,coverage rate of topics and life cycle of a new word,are defined.The Ngram algorithm is applied to generate candidates of new words,then the word candidates are filtered bade on word frequency and word flexibility.Experiments with the text of microblogs as corpus and comparisons with the existing methods show that the user statistic enhances the accuracy rate of recognizing new words by 11%,the topic statistic enhances the accuracy rate by10%,and the time statistic enhances the accuracy rate by 13%.When the three statistics are combined,the accuracy rate is raised by 16%.It can be concluded that each single statistic considered by the proposed method can enhance the accuracy rate,and more accurate rate can be obtained by considering the combination of the three statistics rather than just considering one statistic.

作者孙立远周亚东管晓宏

机构地区清华大学智能与网络化系统研究中心国家计算机网络应急技术处理协调中心西安交通大学智能网络与网络安全教育部重点实验室

出处《西安交通大学学报》 EI CAS CSCD 北大核心 2015年第12期59-64,共6页 Journal of Xi'an Jiaotong University

基金国家自然科学基金资助项目(61221063 61572397 61502383) 陕西省自然科学基础研究计划资助项目(2015JM6298)

关键词新词发现信息传播用户行为时间特性 new word discovery information propagation user behavior temporal characteristics

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献13

1张海军,史树敏,朱朝勇,黄河燕.中文新词识别技术综述[J].计算机科学,2010,37(3):6-10. 被引量：39
2霍帅,张敏,刘奕群,马少平.基于微博内容的新词发现方法[J].模式识别与人工智能,2014,27(2):141-145. 被引量：25
3苏其龙..微博新词发现研究[D].哈尔滨工业大学,2013:
4杨辉..汉语新词语发现及其词性标注方法研究[D].复旦大学,2008:
5邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇.面向Internet的中文新词语检测[J].中文信息学报,2004,18(6):1-9. 被引量：59
6SUI Zhifang,CHEN Yirong.The research on the automatic term extraction in the domain of information science and technology[C]∥Proceedings of the 5th East Asia Forum of Terminology.Beijing,China:China National Institute of Standardization,2002:17-21. 被引量：1
7HIDEKI I.Japanese named entity recognition based on a simple rule generator and decision tree learning[C]∥Proceedings of the 39th Annual Meeting on Association for Computational Linguistics.Stroudsburg,PA,USA:Association for Computational Linguistics,2001:314-321. 被引量：1
8罗盛芬,孙茂松.基于字串内部结合紧密度的汉语自动抽词实验研究[J].中文信息学报,2003,17(3):9-14. 被引量：32
9YE Yunming,WU Qingyao,LI Yan,et al.Unknown Chinese word extraction based on variety of overlapping strings[J].Information Processing and Management,2013,49(2):497-512. 被引量：1
10HUANG J H,POWERS D.Chinese word segmentation based on contextual entropy[C]∥Proceedings of the 17th Asian Pacific Conference on Language,Information and Computation.Piscataway,NJ,USA:IEEE,2003:152-158. 被引量：1

二级参考文献71

1邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇.面向Internet的中文新词语检测[J].中文信息学报,2004,18(6):1-9. 被引量：59
2曹勇刚,曹羽中,金茂忠,刘超.面向信息检索的自适应中文分词系统[J].软件学报,2006,17(3):356-363. 被引量：48
3崔世起,刘群,孟遥,于浩,西野文人.基于大规模语料库的新词检测[J].计算机研究与发展,2006,43(5):927-932. 被引量：32
4刘华.一种快速获取领域新词语的新方法[J].中文信息学报,2006,20(5):17-23. 被引量：14
5黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：250
6罗智勇,宋柔.基于多特征的自适应新词识别[J].北京工业大学学报,2007,33(7):718-725. 被引量：14
7Gao J, Li M, Wu A, et al. Chinese Word Segmentation and Named Entity Recognition: A Pragmatic Approach[J]. Computational Linguistics, 2005,31 (4) : 531-572. 被引量：1
8Liu T, Liu B-Q, Wang X-L, et al. The Effectiveness Study of Local Maximum Feature for Chinese Unknown Word Identification [J]. Journal of Chinese Language and Computing, 2007,17 ( 1 ) : 15-26. 被引量：1
9Chen K-J, Ma W. Unknown Word Extraction for Chinese Documents[C] // Proceedings of COLING 2002. Taipei, 2002: 169- 175. 被引量：1
10Ling GC, Asahara M, Mat sumoto Y. Chinese Unknown Word Identification Using Charaeter-based Tagging and Chunking[C]// Proeeedings of the 41st Annual Meeting of the Association for Computational Linguistics. Sapporo, Japan, 2003 : 197-200. 被引量：1

共引文献149

1王军.词表的自动丰富——从元数据中提取关键词及其定位[J].中文信息学报,2005,19(6):36-43. 被引量：40
2白菊平.探讨提高中文文献信息检索质量的相关技术[J].农业图书情报学刊,2005,17(12):119-120. 被引量：1
3崔世起,刘群,孟遥,于浩,西野文人.基于大规模语料库的新词检测[J].计算机研究与发展,2006,43(5):927-932. 被引量：32
4姜韶华,党延忠,宣照国.无词典抽词的RMMFS和BMMFS方法及其比较研究[J].情报学报,2006,25(4):499-503. 被引量：5
5刘华.一种快速获取领域新词语的新方法[J].中文信息学报,2006,20(5):17-23. 被引量：14
6任禾,曾隽芳.一种基于信息熵的中文高频词抽取算法[J].中文信息学报,2006,20(5):40-43. 被引量：22
7梁健,吴丹.种子概念方法及其在基于文本的本体学习中的应用[J].图书情报工作,2006,50(9):18-21. 被引量：13
8章成志,苏兰芳,苏新宁.基于多语境的相关词自动提取系统的设计与实现[J].现代图书情报技术,2006(9):23-28. 被引量：6
9李新福,赵杰,梁巍.基于互信息的宋史语料库词表的提取[J].河北大学学报（自然科学版）,2006,26(5):557-560. 被引量：4
10胡国平,张巍,王仁华.基于双层决策的新闻网页正文精确抽取[J].中文信息学报,2006,20(6):1-9. 被引量：16

同被引文献44

1喻国明.基于语料库方法的舆论热词数据库的构建——以2011—2013年全国两会舆情中心词和关联词的发现与分析为例[J].新闻与写作,2014(1):54-60. 被引量：11
2邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇.面向Internet的中文新词语检测[J].中文信息学报,2004,18(6):1-9. 被引量：59
3熊文新,宋柔.信息检索用户查询语句的停用词过滤[J].计算机工程,2007,33(6):195-197. 被引量：16
4李钝,曹元大,万月亮.Internet中的新词识别[J].北京邮电大学学报,2008,31(1):26-29. 被引量：7
5李渝勤,孙丽华.面向互联网舆情的热词分析技术[J].中文信息学报,2011,25(1):48-53. 被引量：17
6薛峰,周亚东,高峰,刘霁,赵俊舟,党琪.一种突发性热点话题在线发现与跟踪方法[J].西安交通大学学报,2011,45(12):64-69. 被引量：23
7袁里驰.基于改进的隐马尔科夫模型的词性标注方法[J].中南大学学报（自然科学版）,2012,43(8):3053-3057. 被引量：15
8汪洋,帅建梅,陈志刚.基于海量信息过滤的微博热词抽取方法[J].计算机系统应用,2012,21(11):131-136. 被引量：4
9张敏灵.一种新型多标记懒惰学习算法[J].计算机研究与发展,2012,49(11):2271-2282. 被引量：39
10田丰,桂小林,杨攀,王刚,郭岳龙.采用类别相似度聚合的关联文本分类方法[J].西安交通大学学报,2012,46(12):6-11. 被引量：8

引证文献5

1周亚东,刘丽丽,张贝贝,雷蕾.在线社会网络中多话题竞态传播分析与建模[J].西安交通大学学报,2017,51(2):1-5. 被引量：2
2王欣.一种基于多字互信息与邻接熵的改进新词合成算法[J].现代计算机（中旬刊）,2018(4):7-11. 被引量：5
3段青玲,张璐,刘怡然,王沙沙.基于农业网络信息分类的热词自动提取方法[J].农业机械学报,2018,49(7):160-167. 被引量：8
4田锋,王媛媛,吴凡,郑庆华.超平面距离的非平衡交互文本情感实例迁移方法[J].西安交通大学学报,2018,52(10):1-7. 被引量：2
5张舒,莫赞,柳建华,杨培琛,刘洪伟.基于NWD集成算法的多粒度微博用户兴趣画像构建[J].广东工业大学学报,2020,37(4):42-50. 被引量：2

二级引证文献19

1郭志杰,周世平,顾惊璞,曹学建.基于主题爬虫技术的三农舆情监测管理平台开发与应用[J].农业工程技术,2018,38(15):29-34. 被引量：3
2李筱瑜.基于新词发现与词典信息的古籍文本分词研究[J].软件导刊,2019,18(4):60-63. 被引量：5
3陈黎,马健.基于Scrapy的农业网络空间信息动态监测算法[J].山东农业大学学报（自然科学版）,2020,51(2):253-258. 被引量：8
4刘晓娟,王晨琳.用户动机视角下的Altmetrics指标研究[J].图书情报知识,2020(3):63-70. 被引量：11
5曹帅.结合关联置信度与结巴分词的新词发现算法[J].计算机系统应用,2020,29(5):144-151. 被引量：5
6陈志泊,李钰曼,许福,冯国明,师栋瑜,崔晓晖.基于TextRank和簇过滤的林业文本关键信息抽取研究[J].农业机械学报,2020,51(5):207-214. 被引量：15
7孙亦昕,许露,郑翼斐,朱妍,唐媛,董猛,刘宇,胡凯.基于非平衡学习与交互式标注的引文情感动机标注系统[J].软件工程,2020,23(7):56-59. 被引量：1
8安璐,沈燕.多话题竞争情境下网民关注度转移预测模型研究[J].情报科学,2020,38(10):3-10. 被引量：3
9金宇杰,袁明.基于TF-IDF算法的新词发现系统原理与实现[J].信息化研究,2020,46(5):39-44. 被引量：6
10赵诚,赵传信,夏芸.基于模糊向量机优化的信息分类优化模型设计[J].计算机仿真,2021,38(5):398-402.

1季琳莉.Web日志挖掘技术研究[J].青春岁月,2012,0(18):433-433.
2王力,张红燕.浅析交互界面的用户模型设计[J].智富时代,2016,0(1X):237-237.
3白洁,田瑞丽,张学军.Apriori算法在用户特性关联分析中的应用[J].计算机与网络,2016,42(12):70-72. 被引量：6
4邓海霞.2010年十大中文新词双语盘点(一)[J].中学生英语（下旬刊）,2011(3):20-20.
5Camp Yu.信仰之光来见见2015最牛的主板[J].微型计算机,2015,0(35):36-39.
6冯是聪,单松巍,张志刚,龚笔宏,李晓明.基于Web挖掘的个性化技术研究[J].计算机工程与设计,2004,25(1):4-6. 被引量：35
7王锐敏.微博客用户特性分析——以“新浪微博”为例[J].电子技术与软件工程,2013(10):14-15. 被引量：1
8熊熙.基于Web日志挖掘的个性化服务技术的研究[J].网络安全技术与应用,2010(6):61-64. 被引量：1
9张永攀,冯锡炜,关沧,汪俭华,毕福伟.电子商务个性化推荐系统的应用[J].辽宁石油化工大学学报,2013,33(1):69-73. 被引量：4
10秦浩伟,步丰林.一个中文新词识别特征的研究[J].计算机工程,2004,30(B12):369-370. 被引量：13

西安交通大学学报

2015年第12期

浏览历史

内容加载中请稍等...

利用信息传播特性的中文网络新词发现方法被引量：5

参考文献13

二级参考文献71

共引文献149

同被引文献44

引证文献5

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

利用信息传播特性的中文网络新词发现方法 被引量：5

参考文献13

二级参考文献71

共引文献149

同被引文献44

引证文献5

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

利用信息传播特性的中文网络新词发现方法被引量：5