基于多分类器投票集成的半监督情感分类方法研究被引量：9

Semi-supervised Sentiment Classification Based On Ensemble Learning with Voting

下载PDF

导出

摘要情感分类是目前自然语言处理领域的一个具有挑战性的研究热点,该文主要研究基于半监督的文本情感分类问题。传统基于Co-training的半监督情感分类方法要求文本具备大量有用的属性集,其训练过程是线性时间的计算复杂度并且不适用于非平衡语料。该文提出了一种基于多分类器投票集成的半监督情感分类方法,通过选取不同的训练集、特征参数和分类方法构建了一组有差异的子分类器,每轮通过简单投票挑选出置信度最高的样本使训练集扩大一倍并更新训练模型。该方法使得子分类器可共享有用的属性集,具有对数时间复杂度并且可用于非平衡语料。实验结果表明我们的方法在不同语种、不同领域、不同规模大小,平衡和非平衡语料的情感分类中均具有良好效果。 Recently,sentiment classification has become a hot research topic in natural language processing.In this paper,we focus on semi-supervised approaches for this issue.In contrast to the traditional method based on cotraining,this paper presents a semi-supervised sentiment classification via voting based ensemble learning.We construct a set of diversified sub classifiers by choosing different training sets,feature parameters and classification methods.During each voting round,samples with highest confidence are picked out to double the size of training set and then to update the model.This new method also allows sub classifiers to share useful attributes sets.It has a logarithmic time complexity and can be used for non-equilibrium corpus.Experiments show that this method has achieved good results in the sentiment classification task with corpus in different languages,areas,sizes,and both balanced and unbalanced corpus.

作者黄伟范磊

机构地区上海交通大学信息安全工程学院

出处《中文信息学报》 CSCD 北大核心 2016年第2期41-49,106,共10页 Journal of Chinese Information Processing

关键词情感分类集成学习半监督学习 sentiment classification ensemble learning semi-supervised learning

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献25

1来火尧,刘功申.基于主题相关性分析的文本倾向性研究[J].信息安全与通信保密,2009,31(3):77-78. 被引量：16
2赵妍妍,秦兵,刘挺.文本情感分析[J].软件学报,2010,21(8):1834-1848. 被引量：537
3唐慧丰,谭松波,程学旗.基于监督学习的中文情感分类技术比较研究[J].中文信息学报,2007,21(6):88-94. 被引量：136
4周志华,王珏主编..机器学习及其应用 2007[M].北京:清华大学出版社,2007:275.
5Blum A, Mitchell T. Combining labeled and unlabeled data with co-training[-C]//Proceedings of the eleventh annual conference on computational, learning theory. ACM, 1998~ 92-100. 被引量：1
6苏艳,居胜峰,王中卿,李寿山,周国栋.基于随机特征子空间的半监督情感分类方法研究[J].中文信息学报,2012,26(4):85-90. 被引量：16
7Dietterich T G. Ensemble. methods in machine learning EM~. Multiple classifier systems. Springer Berlin Hei- delberg, 2000:1 15. 被引量：1
8Whitehead M, Yaeger L. Sentiment mining using en- semble classification models~M~. Innovations and Ad- vances in Computer Sciences and Engineering. Spring- er Netherlands, 2010: 509-514. 被引量：1
9李寿山,黄居仁.基于Stacking组合分类方法的中文情感分类研究[J].中文信息学报,2010,24(5):56-61. 被引量：42
10Su Y, Zhang Y, Ji D, et al. Ensemble learning for sentiment classification[M]//Chinese Lexieal Seman- tics. Springer Berlin Heidelberg, 2013: 84-93. 被引量：1

二级参考文献79

1刘永丹,曾海泉,李荣陆,胡运发.基于语义分析的倾向性文本过滤[J].通信学报,2004,25(7):78-85. 被引量：34
2朱嫣岚,闵锦,周雅倩,黄萱菁,吴立德.基于HowNet的词汇语义倾向计算[J].中文信息学报,2006,20(1):14-20. 被引量：326
3徐琳宏,林鸿飞,杨志豪.基于语义理解的文本倾向性识别机制[J].中文信息学报,2007,21(1):96-100. 被引量：120
4V Hatzivassiloglou,K McKeown.Predicting the Semantic Orientation of Adjectives[A].In:Proceedings of the 35th Annual Meeting of the ACL[C].New Jersey:ACL,1997:174-181. 被引量：1
5Peter D Turney.Thumbs Up or Thumbs Down Semantic Orientation Applied to Unsupervised Classification of Reviews{A].In Proceedings of the 40th ACL[C].New Jersey:ACL,2001:417-424. 被引量：1
6董振东,董强.知网[EB/OL].[2008-08-01].http://www.keenage.com. 被引量：1
7赵军,许洪波,黄萱菁,谭松波,刘康,张奇.中文倾向性分析评测技术报告[C]//第一届中文倾向性分析评测会议(The First Chinese Opinion Analysis Evaluation).COAE,2008. 被引量：13
8R.Vilalta and Y.Drissi.A perspective view and survey of meta-learning[J].Artificial Intelligence Review,2002,18(2):77-95. 被引量：1
9Saso Dzeroski and Bernard Zenko:Is combining classifiers with stacking better than selecting the best one?[J].Machine Learning.2004,54(3):255-273. 被引量：1
10Rie Ando and Tong Zhang.A framework for learning predictive structures from multiple tasks and unlabeled data[J].Journal of Machine Learning Research,2005,6:1817-1853. 被引量：1

共引文献710

1包乾辉,李佳利,石淑珍,戴引,刘雪.基于DSLML的鸡蛋消费在线评论情感分析[J].农业机械学报,2021,52(S01):496-503. 被引量：5
2王弘睿,刘畅,于东.面向人工智能伦理计算的中文道德词典构建方法研究[J].中文信息学报,2021,35(10):39-47. 被引量：3
3王昭雨,庄惟敏.情感语义视角:街区更新后评估方法应用研究[J].建筑学报,2020(S02):105-109. 被引量：18
4刘栋,张彩环.情境特征及其在情感分类模型中的应用[J].计算机应用研究,2020,37(1):144-147.
5徐晖,王中卿,李寿山,张民.结合情感信息的个性化对话生成[J].计算机科学,2022,49(S02):99-104. 被引量：2
6杨梦月,卫伟,陆慧娟,卢海峰.基于差分进化的中文情感分类集成算法研究[J].计量学报,2020,41(2):225-230. 被引量：2
7张良波,任际范,周晶晶,吴欣宇.电商直播中弹幕互动特征对销售效率的影响[J].管理科学,2023,36(4):17-29.
8安颖,葛格.基于平行语料库的英汉电商评价对比研究[J].汉字文化,2022(23):113-115.
9蔡馥谣.抖音短视频中辽宁城市形象的呈现与传播策略研究[J].都市文化研究,2024(1):230-242.
10何忠育,王勇,王瑛,陈新,廖朝辉.基于分布式计算的网络舆情分析系统的设计[J].警察技术,2010(3):19-22. 被引量：6

同被引文献71

1张新娟.一种基于改进粒子群算法的图像分类方法研究[J].自动化与仪器仪表,2016(7):163-164. 被引量：1
2易勇,何中市,李良炎,周剑勇,瞿义玻.基于遗传算法改进诗词风格判别的研究[J].计算机科学,2005,32(7):156-158. 被引量：6
3朱嫣岚,闵锦,周雅倩,黄萱菁,吴立德.基于HowNet的词汇语义倾向计算[J].中文信息学报,2006,20(1):14-20. 被引量：326
4唐慧丰,谭松波,程学旗.基于监督学习的中文情感分类技术比较研究[J].中文信息学报,2007,21(6):88-94. 被引量：136
5郝媛媛,邹鹏,李一军,叶强.基于电影面板数据的在线评论情感倾向对销售收入影响的实证研究[J].管理评论,2009,21(10):95-103. 被引量：85
6李寿山,黄居仁.基于Stacking组合分类方法的中文情感分类研究[J].中文信息学报,2010,24(5):56-61. 被引量：42
7阿力木江.艾沙,吐尔根.依布拉音,库尔班.吾布力,瓦依提.阿不力孜,艾山.吾买尔.基于类别分布差异和特征熵的维吾尔语文本特征选择[J].计算机应用研究,2013,30(10):2958-2961. 被引量：5
8徐晓.智能答疑系统的设计与研究[J].微型机与应用,2014,33(5):8-10. 被引量：3
9李洋.两岸三地华语电影的产业融合与个性重塑——第20期“电影学博士论坛”综述[J].当代电影,2014(10):150-152. 被引量：1
10高嘉伟,梁吉业,刘杨磊,李茹.一种基于Tri-training的半监督多标记学习文档分类算法[J].中文信息学报,2015,29(1):104-110. 被引量：8

引证文献9

1赵建明,李春晖,姚念民.基于机器学习的宋词风格识别[J].计算机工程与应用,2018,54(1):186-190. 被引量：4
2蒋翠清,郭轶博,刘尧.基于中文社交媒体文本的领域情感词典构建方法研究[J].数据分析与知识发现,2019,3(2):98-107. 被引量：19
3段乃侠.基于多媒体图像技术的招贴信息自动分类方法研究[J].自动化与仪器仪表,2019,0(7):18-21. 被引量：1
4赵乐,麦范金,张兴旺.多特征融合的Voting-SRM情感分类研究[J].小型微型计算机系统,2019,40(11):2269-2273. 被引量：10
5阿力木江·艾沙,殷晓雨,库尔班·吾布力,李喆.Centroid和EM结合的半监督文本分类[J].计算机工程与设计,2019,40(11):3118-3123.
6李月,周江.一种基于文本相似计算的校园智能问答系统设计[J].现代信息科技,2019,3(22):9-12. 被引量：2
7范涛,吴鹏,王昊,凌晨.基于多模态联合注意力机制的网民情感分析研究[J].情报学报,2021,40(6):656-665. 被引量：16
8宛艳萍,谷佳真,张芳.融合改进Stacking与规则的文本情感分析[J].小型微型计算机系统,2021,42(7):1389-1395. 被引量：8
9王璐.网络电影评论的情感挖掘分析[J].明日风尚,2016,0(12):260-260.

二级引证文献60

1张剑飞,张洒,夏万贵.基于改进注意力机制的生成对抗网络图像修复研究[J].智能计算机与应用,2022,12(6):141-145.
2王克海,鲁冠亚,张盼盼.基于机器学习的中小跨径公路梁桥抗震设计评价方法研究[J].公路交通科技,2019,36(2):74-84. 被引量：20
3吴国栋,刘国良,张凯,涂立静.SVM和RNN在网络评论情感分析中的比较研究[J].上海工程技术大学学报,2019,33(4):378-383. 被引量：3
4谢润忠,李烨.基于BERT和双通道注意力的文本情感分类模型[J].数据采集与处理,2020,35(4):642-652. 被引量：27
5洪小娟,宗江燕,黄卫东,洪巍.基于情感语义空间的食品安全舆情情感分析[J].现代情报,2020,40(10):132-143. 被引量：8
6李长荣,纪雪梅.面向突发公共事件网络舆情分析的领域情感词典构建研究[J].数字图书馆论坛,2020(9):32-40. 被引量：16
7薛扬,梁循,谢华伦,杜玮.基于最优文档嵌入的《红楼梦》作者辨析[J].中文信息学报,2020,34(9):97-110. 被引量：2
8王召义,陈应红,周海燕,孙婷婷.中文领域情感词典构建研究[J].情报探索,2020(11):48-56. 被引量：3
9黄震.面向自动问答系统的短文本相似度计算[J].信息技术与信息化,2020(11):200-201. 被引量：2
10张晗,陈平华,秦勇.基于行为日志的性格倾向预测[J].电子技术与软件工程,2021(4):168-170.

1高阳,田生伟,吐尔根.依不拉音.非平衡语料下改进的SVM-KNN算法[J].新疆大学学报（自然科学版）,2012,29(1):100-103. 被引量：1
2靖红芳,王斌,杨雅辉,徐燕.基于类别分布的特征选择框架[J].计算机研究与发展,2009,46(9):1586-1593. 被引量：18
3崔彩霞,王素格.基于类内频率的文本分类特征选择方法[J].计算机工程与设计,2007,28(17):4249-4251. 被引量：5
4小河.计算机技术与语言学的结合——细看机器翻译与语音识别[J].软件工程师,2001(2):11-18. 被引量：1
5张晓威,郑雄波,郭健.小波域内背景图像的文本信息提取研究[J].哈尔滨工程大学学报,2008,29(3):314-318. 被引量：2
6郑雄波,张晓威,朱磊.一种小波域内图像的文本信息提取算法[J].哈尔滨商业大学学报（自然科学版）,2008,24(3):281-284.
7宋璧,刘政凯,邵肖伟.视频字幕去除系统的设计及实现[J].计算机工程与应用,2004,40(27):107-108.
8谭学清,周通,罗琳.一种基于类平均相似度的文本分类算法[J].现代图书情报技术,2014(9):66-73. 被引量：4
9樊存佳,汪友生,王雨婷.一种改进的CHI文本特征选择方法[J].计算机与现代化,2016(11):7-11. 被引量：5
10刘秉权,王晓龙.一种面向用户的语言模型及其机器学习方法[J].哈尔滨工业大学学报,2004,36(2):150-153. 被引量：4

中文信息学报

2016年第2期

浏览历史

内容加载中请稍等...

基于多分类器投票集成的半监督情感分类方法研究被引量：9

参考文献25

二级参考文献79

共引文献710

同被引文献71

引证文献9

二级引证文献60

相关作者

相关机构

相关主题

浏览历史

基于多分类器投票集成的半监督情感分类方法研究 被引量：9

参考文献25

二级参考文献79

共引文献710

同被引文献71

引证文献9

二级引证文献60

相关作者

相关机构

相关主题

浏览历史

基于多分类器投票集成的半监督情感分类方法研究被引量：9