基于散列技术的快速子串归并算法被引量：4

Fast Hash Algorithms on Statistical Substring Reduction

导出

摘要用统计方法研究东西方语言的多词单元问题和东方语言的未登录词问题时需要删除同频子串(子串归并).传统的子串归并算法时间复杂度为O(n2),在大规模语料库的处理中效率低下.提出一种基于散列技术的时间复杂度为O(n)的子串归并算法,并用数学方法证明其与O(n2)复杂度的算法等价,即输入相同时输出也相同.不同规模语料上的实验结果表明新算法能够大大缩短子串归并所需时间,适用于大规模语料库的处理. Statistical processing of multi-word units in occidental or oriental languages and unknown words in oriental languages requires substring reduction. The time complexity of traditional substring reduction algorithms is O(n^2), which is ineffective for large-scale corpora. It proposes a hash algorithm with time complexity O(n), and mathematically proves the equivalence to the O(n^2) one. That is, with the same inputs, the outputs are the same. The experiments on different scale corpora show that the new algorithm can dramatically shorten the processing time than the traditional one. So it is therefore an appropriate choice for large scale corpus processing.

作者吕学强张乐黄志丹胡俊峰

机构地区北京大学计算语言学研究所东北大学计算机软件与理论研究所沈阳师范大学计算中心

出处《复旦学报（自然科学版）》 CAS CSCD 北大核心 2004年第5期948-951,955,共5页 Journal of Fudan University：Natural Science

基金国家"八六三"高技术研究发展计划项目资助(2001AA114019 2001AA114210 2002AA117010-08) 国家自然科学基金资助项目(60083006) 国家"九七三"重点基础研究发展规划项目(G19980305011)

关键词归并散列算法时间复杂度大规模删除语料库法能处理东西方 large scale corpus text mining multi-word unit unknown word statistical string frequency

分类号 N941.1 [自然科学总论—系统科学] TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1Merkel M, Andersson M. Knowledge-lite extraction of multi-word units with language filters and entropy thresholds[A]. Proceedings of 2000 Conference on User-Oriented Content-Based Text and Image Handling[C]. Paris, France:ACM Press, 2000. 737-746. 被引量：1
2He S,Zhu J. An iterative method for extracting Chinese unknown words[J]. Chinese Journal of Electronics,2001,10(4):461-464. 被引量：1
3Nagao M,Mori S. A new method of n-gram statistics for large number of n and automatic extraction of words and phrases from large text data of Japanese[A]. Proceedings from the 15th International Conference on Computational Linguistics[C]. Kyoto: ACL,1994. 被引量：1
4陈博兴,杜利民.基于双语语料的单个源语词汇和目标语多词单元的对齐[J].中文信息学报,2003,17(1):13-19. 被引量：6
5张民,李生,赵铁军.大规模汉语语料库中任意n的n-gram统计算法及知识获取方法[J].情报学报,1997,16(1):28-35. 被引量：4
6吴立德等..大规模中文文本处理[M],1997.
7韩客松,王永成,陈桂林.无词典高频字串快速提取和统计算法研究[J].中文信息学报,2001,15(2):23-30. 被引量：36

二级参考文献16

1孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量：87
2黄萱菁,吴立德,王文欣,叶丹瑾.基于机器学习的无需人工编制词典的切词系统[J].模式识别与人工智能,1996,9(4):297-303. 被引量：24
3张民,李生,王海峰,赵铁军,王铁志.基于知识评价的快速汉语自动分词系统[J].情报学报,1996,15(2):95-105. 被引量：4
4[1]Melamed I.D. , Automatic Construction of Clean Broad-Coverage Translation Lexicons. In: Conference of the Association for Machine Translation in Americas, Montreal, Canada, 1996. 被引量：1
5[2]Church K. W. and Hanks, Word association norms, mutual information and lexicography. In: Computational Linguistics 16(1): 22 - 29,1990. 被引量：1
6[3]Smadja F. , McKeown K. R. and Hatzivassiloglou V. , Translation collocations for bilingual lexicons:a statistical approach. In: Computational Linguistics 22(1): 1 - 38,1996. 被引量：1
7[4]Haruno M., Ikehara S. and Yamazaki T., Learning bilingual collocations by word-level sorting. In:COL-INC96(525 - 530)1996. 被引量：1
8[5]Melamed I.D. ,Automatic Discovery of Non-Compositional Compounds. In: Proceedings of the 2nd Conference on Empirical Methods in Natural Language Processing, Providence, RI 1997. 被引量：1
9[6]Takaaki Tanaka and Yoshihiro Matsuo,Extraction of compound noun translation from non-parallel corpora. In:Proc. of the 5th Annual Meeting of the ANLP,Japanese, 1999. 被引量：1
10[7]Vintar, Spela, Using Parallel Corpora for Translation-Oriented Term Extraction. In:Babel Joumal, John Benjamins Publishing, 2001. 被引量：1

共引文献41

1黎铭,薛晓冰,周志华.基于多示例学习的中文Web目录页面推荐[J].软件学报,2004,15(9):1328-1335. 被引量：17
2陈炯,张永奎.一种基于词聚类的中文文本主题抽取方法[J].计算机应用,2005,25(4):754-756. 被引量：17
3胡国全,陈家骏,戴新宇,尹存燕.一种基于实例的汉英机器翻译策略[J].计算机工程与设计,2005,26(4):900-903. 被引量：5
4邱立新.试析《鲁府禁方》中童便的应用[J].中国科技信息,2005(12):168-169.
5孙霞,郑庆华,王朝静,张素娟.一种基于生语料的领域词典生成方法[J].小型微型计算机系统,2005,26(6):1088-1092. 被引量：11
6李新安,石冰.基于决策树方法的特定主题Web搜索策略[J].计算机应用,2006,26(1):223-226. 被引量：3
7姜韶华,党延忠.基于长度递减与串频统计的文本切分算法[J].情报学报,2006,25(1):74-79. 被引量：14
8翟凤文,赫枫龄,左万利.基于统计规则的交集型歧义处理方法[J].吉林大学学报（理学版）,2006,44(2):223-228. 被引量：9
9党延忠.基础研究学科发展的宏观知识挖掘[J].管理工程学报,2006,20(2):102-107. 被引量：3
10姜韶华,党延忠.无词典中英文混合术语抽取及算法研究[J].情报学报,2006,25(3):301-305. 被引量：2

同被引文献42

1张锋,樊孝忠,许云.Chinese Term Extraction Based on PAT Tree[J].Journal of Beijing Institute of Technology,2006,15(2):162-166. 被引量：2
2Oakes M P,Paice C D.Term extraction for automatic abstracting[M] //Bourigault D,Jacquemin C,L'Homme M-C.Recent Advances in Computational Terminology.John Benjamins Publishing Company,2001:353-370. 被引量：1
3Fortuna B,Lavrac N,Velardi P.Advancing Topic Ontology Learning through Term Extraction[C].PRICAI 2008,LNAI 5351,2008:626-635. 被引量：1
4Cerbah F,Euzenat J.Using Terminology Extraction to Improve Traceability from Formal Models to Textual Requirements[C].NLDB 2000,LNCS 1959,2001:115-126. 被引量：1
5Bourigault D.Surface Grammatical Analysis for the Extraction of Terminological Noun Phrases[C] //Proceedings of COLING'92,1992:977-981. 被引量：1
6Frantzi K T,Ananiadou S,Mima H.Automatic Recognition of Multi-word terms:the C-value/NC-value Method[J].International Journal on Digital Libraries,2000,3(2):115-130. 被引量：1
7Yoshida M,Nakagawa H.Automatic Term Extraction Based on Perplexity of Compound Words[C] //IJCNLP 2005:269-279. 被引量：1
8Zhang Huaping,Yu Hongkui,Xiong Deyi,et al.HHMM-based Chinese Lexical Analyzer ICTCLAS[C] //Preceedings of the 2nd SigHan Workshop,July 2003:184-187. 被引量：1
9Merkel M,Andersson M.Knowledge-lite extraction of multi-word units language filters and entropy thresholds[C] //Proceedings of 2000 Conference on User-Oriented Content-Based Text and Image Handling.Pairs,France:ACM Press,2000:737-746. 被引量：1
10Patry A,Langlais P.Corpus-Based Terminology Extraction[C] //Proceedings of the 7th International Conference on Terminology and Knowledge Engineering,2005:313-321. 被引量：1

引证文献4

1周浪,史树敏,冯冲,黄河燕.基于多策略融合的中文术语抽取方法[J].情报学报,2010,29(3):460-467. 被引量：28
2周浪,冯冲,黄河燕,王平尧.一种基于独立性统计的子串归并算法[J].计算机工程与应用,2010,46(24):129-131. 被引量：1
3丁溪源,黄河燕,张海军,王树梅.基于大规模语料划分的频繁模式查找算法[J].计算机科学,2012,39(3):149-152. 被引量：1
4侯婷,吕学强,李卓.专利术语抽取的层次过滤方法[J].现代图书情报技术,2015(1):24-30. 被引量：6

二级引证文献35

1谷俊,王昊.基于领域中文文本的术语抽取方法研究[J].现代图书情报技术,2011(4):29-34. 被引量：22
2钟军,田生伟,禹龙.Web文本中维吾尔语领域术语的自动发现[J].计算机应用,2012,32(2):407-410. 被引量：1
3何琳.基于多策略的领域本体术语抽取研究[J].情报学报,2012,31(8):798-804. 被引量：16
4祝清松,冷伏海.自动术语识别存在的问题及发展趋势综述[J].图书情报工作,2012,56(18):104-109. 被引量：16
5马创新,陈小荷,曲维光.注疏文献中的注释语句自动分析[J].计算机科学,2012,39(10):220-223. 被引量：8
6赵捷,苏静.基于知识元和MARTIF的术语集成方法研究[J].图书情报工作,2012,56(22):16-20. 被引量：2
7李丽双,党延忠,张婧,李丹.基于条件随机场的汽车领域术语抽取[J].大连理工大学学报,2013,53(2):267-272. 被引量：17
8何琳.基于多策略的领域本体术语抽取研究[J].中国索引,2013(1):45-52. 被引量：1
9胡阿沛,张静,刘俊丽.基于改进C-value方法的中文术语抽取[J].现代图书情报技术,2013(2):24-29. 被引量：23
10化柏林.针对中文学术文献的情报方法术语抽取[J].现代图书情报技术,2013(6):68-75. 被引量：30

1原仓周,张其善,柳重堪.车辆监控系统中短消息通信网关的设计与实现[J].北京航空航天大学学报,2004,30(2):184-188. 被引量：3
2曹晨.散列技术在SIP服务器中的应用[J].中国新通信,2010,12(5):53-56.
3陈望学,鲁春林,王连文,钱文舒.聚类分析的一个基本应用[J].湖北民族学院学报（自然科学版）,2016,34(2):170-172. 被引量：3
4陈友清.关联规则在商务网络管理中的应用[J].商场现代化,2008(15):148-150.
5王涛,覃锡忠,贾振红,牛红梅,曹传玲.基于相似度和信任度的关联规则微博好友推荐[J].计算机应用,2016,36(8):2262-2267. 被引量：8
6阮小温,吴英杰,王晓东.一种基于散列技术的隐私保护算法[J].福建电脑,2009,25(12):11-12.
7朱嘉贤.一个基于散列技术的关联规则挖掘算法[J].肇庆学院学报,2004,25(5):67-70.
8齐剑锋,鄢琦,艾迪明,涂序彦.企业计算机网络中保护数据安全性与完整性的一种实用方法[J].计算机工程,2002,28(1):150-152. 被引量：8
9王联辉,柯希炜.基于散列技术的自适应关联规则挖掘算法[J].微计算机应用,2009,30(4):50-53. 被引量：1
10李忠慧.一种基于散列和事务压缩的Apriori改进算法[J].科技信息,2009(24):192-193.

复旦学报（自然科学版）

2004年第5期

浏览历史

内容加载中请稍等...

基于散列技术的快速子串归并算法被引量：4

参考文献7

二级参考文献16

共引文献41

同被引文献42

引证文献4

二级引证文献35

相关作者

相关机构

相关主题

浏览历史

基于散列技术的快速子串归并算法 被引量：4

参考文献7

二级参考文献16

共引文献41

同被引文献42

引证文献4

二级引证文献35

相关作者

相关机构

相关主题

浏览历史

基于散列技术的快速子串归并算法被引量：4