基于word2vec的跨领域情感分类方法被引量：14

Cross-domain sentiment classification based on word2vec

下载PDF

导出

摘要情感分类是用于判断数据的情感极性,广泛用于商品评论、微博话题等数据。标记信息的昂贵使得传统的情感分类方法难以对不同领域的数据进行有效的分类。为此,跨领域情感分类问题引起广泛关注。已有的跨领域情感分类方法大多以共现为基础提取词汇特征和句法特征,而忽略了词语间的语义关系。基于此,提出了基于word2vec的跨领域情感分类方法 WEEF(cross-domain classification based on word embedding extension feature),选取高质量的领域共现特征作为桥梁,并以这些特征作为种子,基于词向量的相似度计算,将领域专有特征扩充到这些种子中,形成特征簇,从而减小领域间的差异。在SRAA和Amazon产品评论数据集上的实验结果表明了方法的有效性,尤其在数据量较大时。 Sentiment classification aims to judge the sentiment polarity of review holders,which is popularly and widely applied in commodity comments and weibo topics etc.Due to the expensive cost in the labeling,the issue of cross-domain sentiment classification attracts more attention recently.However,most of cross-domain sentiment classification methods extract lexical features and syntactic characteristics based on the co-occurrence relationship,which ignore the semantic information among words.Motivated by this,this paper proposed a feature extension approach based on word embedding in word2vec,called WEEF,for cross-domain sentiment classification.It first selected high-quality domain-independent features as bridge,and used these features as the seeds.Second,it expanded domain-specific features to the seeds based on the similarity of word embedding,and generated the feature-clusters,which was beneficial to reduce the divergence between domain-specific words in different domains.Finally,experimental results conducte on SRAA and Amazon product reviews datasets show the effectiveness of the proposed approach especially in large scale of data sets.

作者王勤勤张玉红李培培胡学钢 Wang Qinqin;Zhang Yuhong;Li Peipei;Hu Xuegang(School of Computer Science&Information Engineering,Hefei University of Technology,Hefei 230009,China)

机构地区合肥工业大学计算机与信息学院

出处《计算机应用研究》 CSCD 北大核心 2018年第10期2924-2927,共4页 Application Research of Computers

基金国家重点研发计划资助项目(2016YFC0801406) 国家自然科学基金资助项目(61673152 61503112)

关键词语义特征共现特征词向量跨领域情感分类 semantic characteristics co-occurrence characteristics word vector cross-domain sentiment classification

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献2

1樊养余,李祖贺,王凤琴,马江涛.基于跨领域卷积稀疏自动编码器的抽象图像情绪性分类[J].电子与信息学报,2017,39(1):167-175. 被引量：4
2张博,史忠植,赵晓非,张建华.一种基于跨领域典型相关性分析的迁移学习方法[J].计算机学报,2015,38(7):1326-1336. 被引量：28

二级参考文献19

1Pan S ], Yang Q. A survey on transfer learning. IEEE Transaction on Knowledge and Data Engineering, 2010, 22(10) : 1345-1359. 被引量：1
2Dai Wen-Yuan, Jin Ou, Xue Gui-Rong, et al. Eigentransfer: A unified framework for transfer learning//Proceedings of the 26th Annual International Conference on Machine Learning. Montreal, Canada, 2009.. 193-200. 被引量：1
3Rosenstein M T, Marx Z, Kaelbling L P, et al. To transfer or not to transfer//Proceedings of the 9th Annual Conference on Neural Information Processing Systems Workshop on Inductive Transfer: 10 Years Later. Whistler, Canada, 2005. 被引量：1
4Shi Zhong-Zhi, Zhang ]30, Zhuang Fu-Zhen. Improving transfer learning by introspective reasoner//Proceedings of the 7th IFIP International Conference on Intelligent Information Processing. Guilin, China, 2012.. 27-38. 被引量：1
5Blitzer J, Mcdonald R, Pereira F. Domain adaptation with structural correspondence learning//Proceedings of the 2006 Conference on Empirical Methods in Natural Language Processing. Sydney, Australia, 2006:120-128. 被引量：1
6Blitzer J, Dredze M, Pereira F. Biographies, bollywood, boom-boxes and blenders: Domain adaptation for sentiment classification//Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics. Prague, Czech Republic, 2007:440-447. 被引量：1
7Ji Yang-Sheng, Chen Jia-Jun, Niu Gang, et al. Transfer learning via multi-view principal component analysis. Journal of Computer Science and Technology, 2011, 26(1) : 81-98. 被引量：1
8Blitzer J, Foster D, Kakade S. Domain adaptation with eoupled subspaces//Proceedings of the 14th International Conference on Artificial Intelligence and Statisties. Fort Lauterdale, USA, 2011:173-181. 被引量：1
9Ben-David S, Blitzer J, Crammer K, et al. Analysis of repre- sentations for domain adaptation//Proceedings of the 20th Annual Conference on Neural Information Processing Systems. Vancouver, Canada, 2006:128-135. 被引量：1
10Hosmer D W, Lemeshow S. Applied Logistic Regression. 2nd Edition. New York: John Wiley Sons, 2000. 被引量：1

共引文献30

1陈美杉,夏晨曦.肝癌患者在线提问的命名实体识别研究:一种基于迁移学习的方法[J].数据分析与知识发现,2019,3(12):61-69. 被引量：14
2支双双,赵庆会,金大海,唐琎.基于CNN和DLTL的步态虚拟样本生成方法[J].计算机应用研究,2020,37(1):291-295. 被引量：1
3古丽帕夏.吐尔逊,周杰.新疆伊犁州畜牧业发展现状分析[J].草食家畜,2017(5):70-74. 被引量：4
4张雅洁,任春平.不规则波情况下沿岸流不稳定运动传播方向的研究[J].海洋通报,2017,36(4):408-415.
5蒋林利,吴建生.层次K-均值聚类结合改进ITML的迁移度量学习方法[J].计算机应用研究,2017,34(12):3552-3555. 被引量：1
6高亦超,陈昌红,干宗良,刘峰.基于领域相似性迁移学习的行为识别[J].中国科技论文,2017,12(20):2385-2390. 被引量：1
7张延安,王宏玉,徐方.基于深度卷积神经网络与中心损失的人脸识别[J].科学技术与工程,2017,17(35):92-97. 被引量：16
8贾文娟,张煜东.自编码器理论与方法综述[J].计算机系统应用,2018,27(5):1-9. 被引量：23
9谭瑶,饶文碧.异构复合迁移学习的视频内容标注方法[J].计算机应用,2018,38(6):1547-1553. 被引量：4
10饶元,吴连伟,王一鸣,冯聪.基于语义分析的情感计算技术研究进展[J].软件学报,2018,29(8):2397-2426. 被引量：51

同被引文献113

1李嫚,姚文胜,龚至晖.运营商基于大数据的BI架构重构及数据应用研究[J].电信科学,2013,29(S1):102-106. 被引量：4
2梁樑,盛昭翰,徐南荣.一种改进的层次分析法[J].系统工程,1989,7(3):5-7. 被引量：73
3王宁.浅析潜在语义分析的原理及其应用[J].新世纪图书馆,2007(5):67-70. 被引量：2
4王飒,郑链.基于Fisher准则和特征聚类的特征选择[J].计算机应用,2007,27(11):2812-2813. 被引量：21
5诸葛建伟,韩心慧,周勇林,叶志远,邹维.僵尸网络研究[J].软件学报,2008,19(3):702-715. 被引量：157
6刘健,张维明.基于互信息的文本特征选择方法研究与改进[J].计算机工程与应用,2008,44(10):135-137. 被引量：23
7孟佳娜,林鸿飞,李彦鹏.基于特征贡献度的特征选择方法在文本分类中应用[J].大连理工大学学报,2011,51(4):611-615. 被引量：9
8奉国和.文本分类性能评价研究[J].情报杂志,2011,30(8):66-70. 被引量：38
9张明慧,王红玲,周国栋.基于LDA主题特征的自动文摘方法[J].计算机应用与软件,2011,28(10):20-22. 被引量：24
10江健,诸葛建伟,段海新,吴建平.僵尸网络机理与防御技术[J].软件学报,2012,23(1):82-96. 被引量：63

引证文献14

1杜淑颖,杜鹏,丁世飞.基于CNN的假冒域名识别方法研究[J].中国科学技术大学学报,2020,50(7):1019-1025. 被引量：3
2王家琪,张莉.面向文本特征选择的去冗余相对判别准则[J].山西大学学报（自然科学版）,2021,44(4):688-694. 被引量：2
3邵良杉,周玉.基于语义规则与RNN模型的在线评论情感分类研究[J].中文信息学报,2019,33(6):124-131. 被引量：19
4国佳,郭勇,沈旺,潘梦雅.基于在线评论的网络社区信息可信度评价方法研究[J].图书情报工作,2019,63(17):137-144. 被引量：16
5高巍,孙盼盼,李大舟.Twitter情感分析中停用词处理[J].计算机工程与设计,2019,40(11):3180-3185. 被引量：2
6邓丁朋,周亚建,池俊辉,李佳乐.短文本分类技术研究综述[J].软件,2020,41(2):141-144. 被引量：11
7黄奇景,付伟.基于Attention-BiLSTM的情感分类模型[J].电子技术与软件工程,2020(3):14-15. 被引量：1
8刘慧清,郭延哺,李维华.基于贝叶斯网的跨领域情感分析方法[J].计算机应用与软件,2020,37(12):119-126. 被引量：4
9张倩男.基于情感分析混合模型的用户评论主题分析——以vivo手机为例[J].科技和产业,2022,22(4):347-354. 被引量：1
10柴源.基于LSTM和Word2vec的图书评论文本情感分析研究[J].信息技术,2022,46(7):59-64. 被引量：4

二级引证文献68

1葛艳,郑利杰,杜军威,陈卓.基于BLSTM-Attention神经网络模型的化工事故分类[J].计算机系统应用,2020,29(10):205-210. 被引量：2
2李昌明.经验模态分解融合深度学习的时间序列预测模型[J].辽宁工程技术大学学报（自然科学版）,2022,41(2):175-183. 被引量：1
3李桂城,许丽,张利.基于LSTM的股票价格预测分析[J].智能计算机与应用,2022,12(5):123-128. 被引量：2
4陈默,刘于思.“羞辱”的力量:理性或辱骂网络评论及其社会线索对不同性别作者文章可信度的影响[J].中华文化与传播研究,2021(2):119-130.
5吴国栋,刘国良,张凯,涂立静.SVM和RNN在网络评论情感分析中的比较研究[J].上海工程技术大学学报,2019,33(4):378-383. 被引量：3
6王婕妤.开源社区用户信息交互模式研究[J].管理观察,2020,0(4):51-53.
7单思远.微信用户信息交互行为与对策研究[J].经济研究导刊,2020,0(10):136-137. 被引量：1
8陈楷,尹春晓.影响网络不实信息可信性的关键认知启发识别及分类研究--基于扎根理论[J].图书情报工作,2020,64(13):100-110. 被引量：2
9沈旺,代旺,高雪倩,孙美颀.基于多重图的社交网络用户可信度评价方法研究——网络欺凌与隐私泄露视角[J].现代情报,2020,40(8):27-37. 被引量：2
10尚丽维,张向先,卢恒,郭勇.在线社区信息交互关系网络关键节点研究综述[J].情报科学,2020,38(8):170-177. 被引量：3

1付学敏,陈旭东.基于高频词扩展的短文本分类方法研究[J].宿州学院学报,2018,33(7):90-92.
2Xi-bin JIA,Ya JIN,Ning LI,Xing SU,Barry CARDIFF,Bir BHANU.Words alignment based on association rules for cross-domain sentiment classification[J].Frontiers of Information Technology & Electronic Engineering,2018,19(2):260-272. 被引量：4
3郭时印,朱育锋,李尚群.专业学位研究生实施OFTC培养模式的实践探索[J].学位与研究生教育,2018(8):52-57. 被引量：10
4马丽,刘建芳.改进SIFT算法在模糊图像特征识别中的应用[J].计算机科学与应用,2018,8(4):539-545. 被引量：1
5吕达珊.汉日动词带处所宾语的语义关系[J].外国语言文学,2018,35(2):162-169.
6马晓军,郭剑毅,线岩团,毛存礼,严馨,余正涛.结合词向量和Bootstrapping的领域实体上下位关系获取与组织[J].计算机科学,2018,45(1):67-72. 被引量：6
7沈彤彤.“不”与程度副词在形容词前共现情况的分析[J].现代语文,2018(8):73-77.
8徐姗姗,余方敏.汉英时间词“前/ago/before”的组配模式与句法特征对比研究[J].戏剧之家,2018(29):219-221.
9李春雨,袁小军.现代汉语“X然”类词语研究[J].安徽文学（下半月）,2018,0(9):79-83.
10房有丽,王红.融合评分-评价一致性和多维时间序列的虚假评论识别方法[J].小型微型计算机系统,2018,39(9):2044-2049. 被引量：4

计算机应用研究

2018年第10期

浏览历史

内容加载中请稍等...

基于word2vec的跨领域情感分类方法被引量：14

参考文献2

二级参考文献19

共引文献30

同被引文献113

引证文献14

二级引证文献68

相关作者

相关机构

相关主题

浏览历史

基于word2vec的跨领域情感分类方法 被引量：14

参考文献2

二级参考文献19

共引文献30

同被引文献113

引证文献14

二级引证文献68

相关作者

相关机构

相关主题

浏览历史

基于word2vec的跨领域情感分类方法被引量：14