基于统计词典和特征加强的多语言文本分类被引量：3

Multiple Language Text Classification Method Based on Statistical Dictionary and Feature Enhancing

下载PDF

导出

摘要在统计双语词典的基础上,提出一种特征加强的多语言文本分类方法.在执行文本分类时,考虑到其他语言的训练文本,使得多种语言的文本集合中均存在训练文本,放松了MLTC的要求.特征加强是一种交叉检查过程,即获取两种语言所有特征的卡方统计后,通过语言中相关特征的辨识力,再次对语言的特征辨识力进行评估,以提高分类的可信度.实验选择汉语或英语作为目标语言.实验结果表明:提出的方法具有更高的分类精度,且对训练集规格的敏感度更低. Aiming at the problem that multiple language text classification(MLTC)can only solve single language text classification problem of multiple independent,on the basic of statistical bilingual dictionary,multiple language text classification based on feature enhancing has been proposed.In the implementation of text classification,the training texts of other languages have been taken into account,which makes the text of a variety of languages in the training texts.And it relaxes MLTC requirements.Feature enhancing is a processing of cross examination.After chi square statistics of all the features for the two languages is obtained,the identification of language feature is reassessed through the feature identification to improve the reliability of classification.Chinese or English is chosen as the target language in the experiment.Experimental results show that the proposed method has a higher classification accuracy,and the sensitivity of the training set is lower.

作者龚静李英杰黄欣阳 GONG Jing;LI Ying-jie;HUANG Xin-yang(Department of Public Basic Course,Hunan Polytechnic of Environment and Biology,Hengyang Hunan 421005,China;Computer School,University of South China,Hengyang Hunan 421001,China)

机构地区湖南环境生物职业技术学院公共基础课部南华大学计算机学院

出处《西南师范大学学报（自然科学版）》 CAS 北大核心 2018年第9期45-50,共6页 Journal of Southwest China Normal University(Natural Science Edition)

基金国家自然科学基金项目(60572137) 湖南省教育厅项目(12C1056 17C0599)

关键词多语言文本分类双语词典特征加强交叉检查敏感度 multiple language text classification bilingual dictionary feature enhancing cross examination sensitivity

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1赖娟,金澎,洪艳伟.文本分类中的主动多域学习[J].西南师范大学学报（自然科学版）,2014,39(7):108-114. 被引量：3
2罗远胜,王明文,勒中坚,陆旭.双语潜在语义对应分析及在跨语言文本分类中的应用研究[J].情报学报,2013,32(1):86-96. 被引量：2
3刘志红..多语种多类别体系下文本自动分类系统的研究与实现[D].东北大学,2010:
4张金鹏,周兰江,线岩团,余正涛,何思兰.基于跨语言语料的汉泰词分布表示[J].计算机工程与科学,2015,37(12):2358-2365. 被引量：2
5张玲玲,冀俊忠,贝飞,吴晨生.基于句法分析和属性概率权重的跨语言情感分类算法[J].模式识别与人工智能,2015,28(11):1002-1012. 被引量：3
6熊文新.Web、语料库与双语平行语料库的建设[J].图书情报工作,2013,57(10):128-135. 被引量：8
7司莉,庄晓喆,贾欢.近10年来国外多语言信息组织与检索研究进展与启示[J].中国图书馆学报,2015,41(4):112-126. 被引量：11

二级参考文献179

1俞士汶,朱学锋.受限汉语研究的必要性[C].《语言现代化论丛》第三集.天津:南开大学出版社,1997. 被引量：2
2Koehn P. Europarl: A parallel corpus for statistical machine translation[ C ]//Proceedings of Machine Translation Summit X. Phuket: Asia-Pacific Association for Machine Translation, 2005:79 - 86. 被引量：1
3Dandapat S, Morrissey S, Kumar N, et al. Statistically motivated example-based machine translation using translation memory[ C ]// Sharma D, Sangal R, Sarkav S. Proceedings of the 8th International Conference on Natural Language Processing. Kharagpur: Macmillan Publishers, 2010:168-177. 被引量：1
4Renouf A, Kehoe A, Banerjee J. WebCorp : An integrated system for Web text search [ C ]//Nesselhauf C, Hundt M, Biewer C. Corpus Linguistics and the Web. Amsterdam: Rodopi, 2007:47 - 68. 被引量：1
5Baroni M, Bernardini S. BootCaT : Bootstrapping corpora and terms from the Web [ C ]//Teresa M, Maria L, Xavier F, et al. Proceedings of 4th International Conference on Language Resources and Evaluation. Paris: European Language Resourees Association, 2004: 1313-1316. 被引量：1
6Kueera H, Francis W, Carroll J. Computational Analysis of Present Day American English [ M ]. Providence: Brown University Press, 1967. 被引量：1
7Sharoff S. Creating general-purpose corpora using automated search engine queries [ C ]//Baroni M, Bernardini S. WaCky ! Working papers on the Web as Corpus. Bologna: Gedit, 2006:63 -98. 被引量：1
8Chang B. Chinese- English Parallel Corpus Construction and its Application[ C ]//Masuichi H, Ohkuma T, lshikawa K, et al. Proceedings of 18th Pacific Conference on Language, Information and Communication. Tokyo: The Logico-Linguistic Society of Japan, 2004:283 - 290. 被引量：1
9Eisele A, Chen Y. MuhiUN: A Nation documents[ C ]//Calzolari multilingual corpus from United N, Choukri K, Maegaard B, et al. Proceedings of the 7th International Conference on Language Resources and Evaluation. Paris: European Language Resources Association, 2010:2868 - 2872. 被引量：1
10William G, Church K. A program for aligning sentences in bilingual corpora[ C]//Appelt D. Proceedings of the 29th Annual Meeting of the Association for Computational Linguistics. Stroudsburg: Association for Computational Linguistics, 1991 : 177 - 184. 被引量：1

共引文献23

1熊文新.英汉环保领域平行语料的句对齐与再对齐[J].现代图书情报技术,2013(6):36-41. 被引量：4
2易欣,郭武士.基于语言无关性语义Kernel学习的短文本分类[J].计算机应用与软件,2015,32(7):314-318. 被引量：1
3买吾浪江.艾依提,张太红,杨文革.基于JAVAEE的维吾尔中介语语料库开发与实现[J].语言与翻译,2015(4):47-51.
4顾晓波.面向翻译教学的双语平行语料库建设研究[J].齐齐哈尔大学学报（哲学社会科学版）,2015(12):118-121.
5司莉,何依.2000年以来我国多语言语料库研究进展[J].现代情报,2016,36(6):165-170. 被引量：2
6刘娇,崔荣一,赵亚慧,张振国.跨语言文献相似度的分析方法[J].延边大学学报（自然科学版）,2016,42(2):151-155. 被引量：2
7沈夏炯,陈伟,黄祥志,臧文乾.基于多维数据模型的卫星质量评价模块组织方法研究[J].计算机与现代化,2017(3):101-105. 被引量：1
8赵生辉.中国少数民族语言语义电子文件初探[J].云南档案,2017,0(5):42-46.
9姚寒冰,王丽清,徐永跃.供需信息跨语言检索算法研究[J].计算机技术与发展,2017,27(8):152-155. 被引量：2
10杨超凡,邓仲华,彭鑫,刘斌.近5年信息检索的研究热点与发展趋势综述——基于相关会议论文的分析[J].数据分析与知识发现,2017,1(7):35-43. 被引量：7

同被引文献27

1石国亮,徐子梁.网络欺凌的界定及其特点分析[J].中国青年研究,2010(12):4-8. 被引量：26
2李生.自然语言处理的研究与发展[J].燕山大学学报,2013,37(5):377-384. 被引量：50
3苏婕.英汉语言文化差异及其翻译——评《文化话语视角下的英汉语言对比研究》[J].中国教育学刊,2017(2). 被引量：5
4高睿.茶文化在日语中的内涵与外延研究[J].福建茶叶,2017,39(1):337-338. 被引量：3
5刘文宇,李珂.基于批评性话语分析的网络语言暴力研究框架[J].东北师大学报（哲学社会科学版）,2017(1):119-124. 被引量：33
6陈新仁.基于谚语理解的语用充实新探[J].外语教学与研究,2017,49(6):890-899. 被引量：5
7周异夫.发展适应新时代需求的中国日语教育[J].外语教学与研究,2018,50(3):428-429. 被引量：7
8覃霄.文化视角下的日语翻译转换表达——评《日语翻译理论与实践》[J].江西社会科学,2018,38(6). 被引量：3
9付建荣.论“多元一体”民族观视域下的中华谚语史构建[J].内蒙古社会科学,2018,39(4):117-122. 被引量：4
10王冲.中华多民族谚语义类体系构建研究[J].内蒙古社会科学,2018,39(4):123-129. 被引量：4

引证文献3

1李潇雯,朱齐亮.分布式语义框架在自然语言理解中的应用[J].西南师范大学学报（自然科学版）,2021,46(1):19-24.
2卫萍萍.汉日双语中自然类惯用谚语的类型及异同研究[J].湖北第二师范学院学报,2021,38(7):39-45.
3柳致远,范永胜,张万里,冯骥,李勇,黄靖.常见中文社交平台中网络欺凌语言的检测分析[J].西南师范大学学报（自然科学版）,2021,46(8):86-94. 被引量：1

二级引证文献1

1徐炜桢.贝叶斯、RidgeClassifier和fastText算法在匿名新闻文本分类中的对比研究[J].软件,2021,42(10):174-177.

1粤简.新会县税务局开展税务监察工作交叉检查[J].中国税务,1988,0(10):51-51.
2祁燕,岳添骏,杨大为.基于用户打分和评论的推荐算法研究[J].沈阳理工大学学报,2018,37(2):11-17. 被引量：1
3陈娟.汲课外阅读之水活中考写作之源——初中生作文能力提升方法之我见[J].基础教育论坛,2018(11):38-39. 被引量：1
4吴闯,黄桂敏,李会娟.基于SLDA的英语短文观点分析模型[J].桂林电子科技大学学报,2018,38(2):117-121.
5福建开展津补贴专项督查全覆盖交叉检查工作[J].公务员文萃,2018,0(2):111-111.
6眉县党代表评党建增强组织活力/旬阳激发党代表履职活力/富平交叉检查查出真问题[J].当代陕西,2017,0(10):60-60.
7张爱英.基于多语言语音数据选择的资源稀缺蒙语语音识别研究[J].计算机科学,2018,45(9):308-313. 被引量：1
8郭倩倩.基于langid模型的多语言微博识别研究[J].现代计算机（中旬刊）,2018(9):23-27.
9严国进.交叉检查公共卫生项目应常态化[J].医师在线,2018,8(26):19-19.
10余传明,冯博琳,田鑫,安璐.基于深度表示学习的多语言文本情感分析[J].山东大学学报（理学版）,2018,53(3):13-23. 被引量：13

西南师范大学学报（自然科学版）

2018年第9期

浏览历史

内容加载中请稍等...

基于统计词典和特征加强的多语言文本分类被引量：3

参考文献7

二级参考文献179

共引文献23

同被引文献27

引证文献3

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于统计词典和特征加强的多语言文本分类 被引量：3

参考文献7

二级参考文献179

共引文献23

同被引文献27

引证文献3

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于统计词典和特征加强的多语言文本分类被引量：3