一种基于特征加权的文本相似度计算算法被引量：4

A Text Similarity Computing Algorithm Based on Feature Weighting

下载PDF

导出

摘要文本相似度的计算是文本挖掘的基础。传统的基于向量空间模型(VSM)的文本相似度计算方法把文本映射成词向量,再利用余弦距离公式来计算相似度,这样存在文本向量维数过高以及语义敏感度差的问题。针对以上问题,通过对词性以及权值大小的过滤可以缩减特征词规模,在一定程度上可以减少高维稀疏的情况发生,并且引入LDA模型的文本隐含主题特征,增加文本表示的语义背景,通过线性加权的方式结合VSM模型的特征词特征和LDA模型的主题特征,计算文本相似度。实验表明,与单独使用VSM模型和LDA模型比较,利用加权特征计算文本相似度有着更好的效果。 The calculation of text similarity is the basis of text mining.The traditional text similarity calculation method based on vector space model(VSM)maps the text into word vectors,and then uses the cosine distance formula to calculate the similarity,which has the problems of high dimension and poor semantic sensitivity.Through the filtering of the part of speech and the filtering of the word weight,it is possible to reduce the size of the feature words,which can reduce the occurrence of high-dimensional sparseness.The thematic features of the LDA(Latent Dirichlet Allocation)model were introduced,which can increase the semantic background of the text representation.The text similarity was calculated by combining the feature words of the VSM model with the thematic features of the LDA model.Experiments show that compared with the VSM model and the LDA model alone,combining these two features to calculate the text similarity has a better effect.

作者邱先标陈笑蓉 QIU Xianbiao;CHEN Xiaorong(College of Computer Science and Technology,Guizhou University,Guiyang 550025,China)

机构地区贵州大学计算机科学与技术学院

出处《贵州大学学报（自然科学版）》 2018年第1期63-68,共6页 Journal of Guizhou University:Natural Sciences

基金国家自然科学基金项目资助(61363028)

关键词文本相似度向量空间模型 LDA模型特征加权文本挖掘 text similarity VSM LDA feature weighting text mining

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1郭蓝天,李扬,慕德俊,杨涛,李哲.一种基于LDA主题模型的话题发现方法[J].西北工业大学学报,2016,34(4):698-702. 被引量：21
2韩普,王东波,刘艳云,苏新宁.词性对中英文文本聚类的影响研究[J].中文信息学报,2013,27(2):65-73. 被引量：11
3张超,陈利,李琼.一种PST_LDA中文文本相似度计算方法[J].计算机应用研究,2016,33(2):375-377. 被引量：18
4徐戈,王厚峰.自然语言处理中主题模型的发展[J].计算机学报,2011,34(8):1423-1436. 被引量：233

二级参考文献97

1苏祺,昝红英,胡景贺,项锟.词性标注对信息检索系统性能的影响[J].中文信息学报,2005,19(2):58-65. 被引量：8
2刘涛,吴功宜,陈正.一种高效的用于文本聚类的无监督特征选择算法[J].计算机研究与发展,2005,42(3):381-386. 被引量：37
3谭松波,王月粉.中文文本分类语料库-TanCorpv1.0[EB/OL].(2007-08-29)[2008-01-20].http://www.searehforum:org.cn/tansongbo/corpus.htm. 被引量：11
4Deerwester S C, Dumais S T, Landauer T K, et al. Indexing by latent semantic analysis. Journal of the American Society for Information Science, 1990. 被引量：1
5Hofmann T. Probabilistic latent semantic indexing//Proceedings of the 22nd Annual International SIGIR Conference. New York: ACM Press, 1999:50-57. 被引量：1
6Blei D, Ng A, Jordan M. Latent Dirichlet allocation. Journal of Machine Learning Research, 2003, 3: 993-1022. 被引量：1
7Griffiths T L, Steyvers M. Finding scientific topics//Proceedings of the National Academy of Sciences, 2004, 101: 5228 5235. 被引量：1
8Steyvers M, Gritfiths T. Probabilistic topic models. Latent Semantic Analysis= A Road to Meaning. Laurence Erlbaum, 2006. 被引量：1
9Teh Y W, Jordan M I, Beal M J, Blei D M. Hierarchical dirichlet processes. Technical Report 653. UC Berkeley Statistics, 2004. 被引量：1
10Dempster A P, Laird N M, Rubin D B. Maximum likelihood from incomplete data via the EM algorithm. Journal of the Royal Statistical Society, 1977, B39(1): 1-38. 被引量：1

共引文献273

1刘娜,肖智博,路莹,唐晓君,肖鹏.自适应主题融合的多文档自动摘要算法[J].中南大学学报（自然科学版）,2013,44(S2):205-209.
2汤雁冰.氧化铜铁矿石中伴生金银的回收[J].有色矿山,2000,29(3):28-31. 被引量：2
3阳小兰,钱程.基于主题提取和记忆模型的新闻推荐系统设计[J].计算机与数字工程,2012,40(6):47-50. 被引量：1
4周亦鹏,杜军平.基于时空情境模型的主题跟踪[J].华南理工大学学报（自然科学版）,2012,40(8):82-87. 被引量：1
5陈叶旺,王华珍,李海波,钟必能,陈锻生.基于百度百科与文本分类的网络文本语义主题抽取方法[J].小型微型计算机系统,2012,33(12):2605-2610. 被引量：9
6乐小虬,洪娜.面向社会文本流数据探测爆发主题方法浅析[J].现代图书情报技术,2012(10):21-27.
7朱然,李德华.新闻聚合系统中的数据挖掘技术初探[J].电脑知识与技术,2013(1):148-151. 被引量：2
8许冶冰,刘超.基于主题的文档与代码间关联关系的提取研究[J].计算机工程与应用,2013,49(5):70-76. 被引量：3
9方锴.专家检索研究综述[J].科协论坛（下半月）,2013(2):102-104. 被引量：1
10李春英,汤庸,陈国华,汤志康.面向学术社区的专家推荐模型[J].智能系统学报,2012,7(4):365-369. 被引量：11

同被引文献38

1谢红.基于词频比的改进Jaccard系数文本相似度计算[J].内江科技,2021,42(8):27-28. 被引量：9
2于洪,李转运.基于遗忘曲线的协同过滤推荐算法[J].南京大学学报（自然科学版）,2010,46(5):520-527. 被引量：73
3方延风.科技项目查重中特征词TF-IDF值计算方法的改进[J].情报探索,2012(1):1-3. 被引量：15
4孙艳,周学广,付伟.基于主题情感混合模型的无监督文本情感分析[J].北京大学学报（自然科学版）,2013,49(1):102-108. 被引量：54
5靳健,季平.用于在线产品评论质量分析的Co-training算法[J].上海大学学报（自然科学版）,2014,20(3):289-295. 被引量：6
6朱付保,霍晓齐,徐显景.基于粗糙集的ID3决策树算法改进[J].郑州轻工业学院学报（自然科学版）,2015,30(1):50-54. 被引量：9
7王秀红,袁艳,赵志程,李洁玉,刘海军,杨国立.专利文献的结构树模型及其在相似度计算中的应用[J].情报理论与实践,2015,38(3):107-111. 被引量：8
8刘为怀,才华,何东杰.一种基于中文分词和数据聚合的餐饮行为特征挖掘方法[J].软件产业与工程,2015,0(4):47-51. 被引量：10
9欧阳继红,刘燕辉,李熙铭,周晓堂.基于LDA的多粒度主题情感混合模型[J].电子学报,2015,43(9):1875-1880. 被引量：23
10杨洋.决策树ID3算法及其改进[J].软件导刊,2016,15(8):46-48. 被引量：7

引证文献4

1周婷玮.基于共现网络与情感分析的多平台消费者评论主题比较研究[J].知识管理论坛,2023(2):79-91. 被引量：2
2周梁,方兴龙.基于商品评论主题模型的隐含狄利克雷分布研究[J].安徽工程大学学报,2019,34(1):78-84.
3圣文顺,孙艳文.一种改进的ID3决策算法及其应用[J].计算机与数字工程,2019,47(12):2943-2945. 被引量：5
4苏亚维,艾中良.基于知识画像的文档相似度分析模型[J].信息技术,2020,44(2):116-120. 被引量：2

二级引证文献9

1李春霞,许键,彭艳兵.基于语义关联融合的案件识别[J].数字技术与应用,2024,42(3):155-160.
2梁晓慧,吴刚.军工产品生产子物流系统协同控制与任务分配技术研究[J].现代制造技术与装备,2020,56(10):219-224. 被引量：2
3吴志军,张入丹,岳猛.一种联合检测命名数据网络中攻击的方法[J].计算机研究与发展,2021,58(3):569-582. 被引量：2
4张祥,陈军,余士龙,吴晨阳,许向运.基于ID3算法的飞行时间分析[J].气象水文海洋仪器,2021,38(2):13-15.
5陈阳,李一,姬正一,张胜光,雷博.基于振动时域特征的船用滚动轴承故障诊断方法[J].机床与液压,2021,49(14):193-200. 被引量：9
6伍一维,左韬,张劲波,胡新宇.基于KNN-PROSAC和改进ORB的多机器人SLAM地图融合算法[J].高技术通讯,2021,31(7):766-772. 被引量：3
7崔衍,胡亚谦,段智峰,贾高峰.面向类案检索的事理图谱构建方法研究[J].中国电子科学研究院学报,2023,18(3):228-236.
8邵婷,杨佩婷,姜红波.抖音电商平台助农产品在线评论主题挖掘及扩展分析[J].厦门理工学院学报,2023,31(4):55-64.
9林轶,曹清芳.基于LDA模型及情感分析的电影主题公园评论文本研究[J].科技和产业,2023,23(22):93-98. 被引量：3

1张亚杰,王应明,陈圣群.考虑心理因素的多时点匹配决策方法[J].统计与决策,2018,0(5):39-43. 被引量：1
2徐泓洋,杨国为.中文文本特征选择方法研究综述[J].工业控制计算机,2017,30(11):80-81. 被引量：6
3张亚男,冯建文.基于混合聚类的微博热点话题发现方法[J].杭州电子科技大学学报（自然科学版）,2018,38(1):59-64. 被引量：4
4韦宁燕,韦洪浪,吴明林,王星.面向人脸表情识别的多约束稀疏分类方法[J].电子世界,2018,0(7):80-82. 被引量：2
5柴晓丽.文本向量空间的建立[J].白城师范学院学报,2018,32(2):19-21.
6俞勇.弄懂才能做实:金融科技在金融行业中的应用回望[J].当代金融家,2018,0(4):83-87. 被引量：7
7宋莉娜,冯旭鹏,刘利军,黄青松.基于SOM聚类的微博话题发现[J].计算机应用研究,2018,35(3):671-674. 被引量：10
8况书梅,伍玉,韩毅.科研论文零被引的内容因素影响分析[J].评价与管理,2017,15(3):36-39. 被引量：1
9李歆.用特殊关系解答距离问题[J].高中生（高考）,2018,0(4):54-55.
10朱孔来.自主创新有关理论及测度方法探讨[J].重庆理工大学学报（社会科学）,2007,23(12):31-37.

贵州大学学报（自然科学版）

2018年第1期

浏览历史

内容加载中请稍等...

一种基于特征加权的文本相似度计算算法被引量：4

参考文献4

二级参考文献97

共引文献273

同被引文献38

引证文献4

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

一种基于特征加权的文本相似度计算算法 被引量：4

参考文献4

二级参考文献97

共引文献273

同被引文献38

引证文献4

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

一种基于特征加权的文本相似度计算算法被引量：4