一种结合关键词与共现词对的向量空间模型被引量：4

Vector space model based on keywords and co-occurrence word pairs

下载PDF

导出

摘要提出了一种结合关键词特征和共现词对特征的向量空间模型。首先,通过分词和去除停用词提取文本中的候选关键词,利用文本频率筛选关键词特征。然后,基于获得的关键词特征两两构造候选共现词对,定义支持度和置信度筛选共现词对特征。最后,结合关键词特征和共现词对特征构建向量空间模型。文本分类实验结果表明,提出的模型具有更强的文本分类能力。 A new vector space model is proposed, which uses both keyword and co-occurrence term as the representation features of documents. Firstly, the keyword candidates are extracted from docu- ments by segmenting texts and removing stop words,and the keyword features are filtered by document frequency. Secondly, based on the obtained keyword features, the co-occurrence word pairs are construc- ted,and support degree and confidence degree are defined to filter the features of co-occurrence word pairs. Finally, the keyword features and the features of co-occurrence word pairs are combined to construct the vector space model. The text-classification experiments show that the proposed model has better ability of text classification.

作者唐守忠齐建东

机构地区北京林业大学信息学院

出处《计算机工程与科学》 CSCD 北大核心 2014年第5期971-976,共6页 Computer Engineering & Science

基金十二五科技支撑课题(2011BAH10B04)

关键词向量空间模型共现词对语义相关性文本分类 vector space model co-occurrence word semantical relationship text classification

分类号 TP391.3 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1谢红薇,颜小林,余雪丽.基于本体的Web页面聚类研究[J].计算机科学,2008,35(9):153-155. 被引量：10
2史庆伟,赵政,朝柯.一种基于后缀树的中文网页层次聚类方法[J].辽宁工程技术大学学报（自然科学版）,2006,25(6):890-892. 被引量：11
3赵军,金千里,徐波.面向文本检索的语义计算[J].计算机学报,2005,28(12):2068-2078. 被引量：28
4朱会峰,左万利,赫枫龄,彭涛,纪文彦.一种基于本体的文本聚类方法[J].吉林大学学报（理学版）,2010,48(2):277-283. 被引量：12
5常鹏,冯楠.基于词共现的文档表示模型[J].中文信息学报,2012,26(1):51-57. 被引量：8
6杜红斌,夏克文,刘南平,吴涛.一种改进的基于广义后缀树的文本聚类算法[J].信息与控制,2009,38(3):331-336. 被引量：7
7刘华.基于关键短语的文本分类研究[J].中文信息学报,2007,21(4):34-41. 被引量：14
8曹恬,周丽,张国煊.一种基于词共现的文本相似度计算[J].计算机工程与科学,2007,29(3):52-53. 被引量：14
9吴光远,何丕廉,曹桂宏,聂颂.基于向量空间模型的词共现研究及其在文本分类中的应用[J].计算机应用,2003,23(z1):138-140. 被引量：23

二级参考文献100

1罗远胜,王明文,曾雪强.基于核方法的潜在语义文本分类模型[J].清华大学学报（自然科学版）,2005,45(S1):1853-1856. 被引量：4
2晋耀红.基于语境框架的文本相似度计算[J].计算机工程与应用,2004,40(16):36-39. 被引量：26
3周新栋,王挺.基于N元语言模型的文本分类方法[J].计算机应用,2005,25(1):11-13. 被引量：11
4郭伟,唐晓君,刘万军.一种基于划分的聚类算法分析与改进[J].辽宁工程技术大学学报（自然科学版）,2004,23(6):826-828. 被引量：4
5王映,常毅,谭建龙,白硕.基于N元汉字串模型的文本表示和实时分类的研究与实现[J].计算机工程与应用,2005,41(5):88-91. 被引量：5
6代六玲,黄河燕,陈肇雄.一种文本分类的在线SVM学习算法[J].中文信息学报,2005,19(5):11-15. 被引量：13
7刘华.一种快速获取领域新词语的新方法[J].中文信息学报,2006,20(5):17-23. 被引量：14
8刘华.基于文本分类中特征提取的领域词语聚类[J].语言文字应用,2007(1):139-144. 被引量：22
9HAN Jia-wei,KAMBER M.数据挖掘:概念与技术[M].北京:机械工业出版社,2007. 被引量：10
10Baeza-Yates R,Ribeiro-Neto B.Modern Information Retrieval[M].Boston,USA:Addison-Wesley Longman Publishing Company Inc.,1999. 被引量：1

共引文献110

1常娟.针对短文本数据的自动分类方法比较研究[J].消费导刊,2008,0(4):177-178.
2邹志文,柯青.基于向量空间模型的主动推送系统设计与优化[J].现代图书情报技术,2005(7):42-45. 被引量：6
3包金龙.基于向量空间模型的信息检索系统的设计[J].情报杂志,2005,24(7):44-45. 被引量：16
4张婷慧,耿焕同,蔡庆生.一种改进的VSM及其在文本自动分类中的应用[J].微电子学与计算机,2005,22(12):24-27. 被引量：3
5邹志文.向量空间模型在主动信息服务系统中的应用[J].情报杂志,2005,24(12):79-80.
6王曰芬,宋爽,苗露.共现分析在知识服务中的应用研究[J].现代图书情报技术,2006(4):29-34. 被引量：59
7徐武,李琳,陶红亮,杨印根.Web Information Retrieval的分析与展望[J].景德镇高专学报,2006,21(4):15-17. 被引量：1
8谢桂芳,李仁发.具有概念联想功能的语义关系库的自动构建[J].计算机工程与应用,2007,43(7):177-178. 被引量：2
9王灿辉,张敏,马少平.自然语言处理在信息检索中的应用综述[J].中文信息学报,2007,21(2):35-45. 被引量：50
10王卫玲,刘培玉,刘克非.改进的Web链接主题提取算法[J].计算机工程与设计,2007,28(2):294-296. 被引量：1

同被引文献64

1吴光远,何丕廉,曹桂宏,聂颂.基于向量空间模型的词共现研究及其在文本分类中的应用[J].计算机应用,2003,23(z1):138-140. 被引量：23
2胡昊,王君伟,常橙,何震瀛,汪卫.XML数据上支持查询扩展的关键词检索系统[J].计算机研究与发展,2013,50(S1):421-425. 被引量：1
3宋枫溪,高林.文本分类器性能评估指标[J].计算机工程,2004,30(13):107-109. 被引量：33
4吴健,吴朝晖,李莹,邓水光.基于本体论和词汇语义相似度的Web服务发现[J].计算机学报,2005,28(4):595-602. 被引量：218
5许真玉,王文佳,杨晓玉.企业竞争情报研究与图书馆情报服务[J].现代情报,2006,26(11):185-186. 被引量：11
6黄名选,严小卫,张师超.查询扩展技术进展与展望[J].计算机应用与软件,2007,24(11):1-4. 被引量：53
7方俊,郭雷,王晓东.基于语义的关键词提取算法[J].计算机科学,2008,35(6):148-151. 被引量：39
8江敏,肖诗斌,王弘蔚,施水才.一种改进的基于《知网》的词语语义相似度计算[J].中文信息学报,2008,22(5):84-89. 被引量：109
9黄名选,严小卫,张师超.基于矩阵加权关联规则挖掘的伪相关反馈查询扩展[J].软件学报,2009,20(7):1854-1865. 被引量：70
10邵秀丽,乜聚科,田振雷,侯乐彩.用户个性化推荐系统的设计与实现[J].计算机工程与设计,2009,30(20):4681-4685. 被引量：13

引证文献4

1于福超,卢廷钧,王裴岩,张桂平.一种面向情报服务的交互式主题扩展方法[J].沈阳航空航天大学学报,2016,33(2):59-64.
2和志强,王丽鹏,张鹏云.基于词共现的关键词提取算法研究与改进[J].电子技术与软件工程,2018(1):144-146. 被引量：1
3吴龙峰,于瓅,王峰.向量空间模型的文本分类研究进展与应用[J].宿州学院学报,2019,34(12):69-72. 被引量：6
4孙冰,沈瑞.基于在线评论的产品需求偏好判别与客户细分——以智能手机为例[J].中国管理科学,2023,31(3):217-227. 被引量：6

二级引证文献13

1蓝海英,何昊林,李玉翠,李千颖,李伊苧.基于文本聚类的煤矿安全事故类型分析[J].长江技术经济,2021(S01):199-202. 被引量：1
2郭泽,焦倩倩.一种面向自动化标检的文本分类方法[J].现代防御技术,2020,48(5):97-104.
3苏启琛,苏洋.一种基于内容的生鲜产品推荐算法[J].电脑知识与技术,2020,16(28):189-191. 被引量：2
4杨柳,吴彦蓉.基于微信小程序的智能客服回复技术的研究与实现[J].太原师范学院学报（自然科学版）,2021,20(1):65-68. 被引量：2
5徐来,陈树越,林勤.线上诊疗智能回复系统的研究[J].中国新通信,2021,23(15):62-63. 被引量：1
6李贺,谷莹,刘嘉宇.数据驱动下基于语义相似性的产品需求识别研究[J].情报理论与实践,2022,45(5):99-106. 被引量：9
7辛欣,马珑鑫,田旭冬,曲延瑞,刘伟.基于评论大数据聚类的中国邮轮游客用户画像构建[J].装饰,2022(2):40-45. 被引量：4
8王卓.基于消费者偏好细分的手机制造商决策模型[J].经济与管理评论,2022,38(5):124-138. 被引量：1
9张海川,李胜东,石俊涛,吴建伟,王元.话题检测与跟踪任务中的话题跟踪研究[J].信息与电脑,2022,34(11):151-153.
10施文,渠玉杰,蒋国银.基于随机Kriging的汽车品牌质量序贯主题比较研究[J].中国管理科学,2023,31(11):114-127.

1许爱琴,王梦洁,刘永坚,王卫华.一种新的生成候选关键词集的方法[J].武汉理工大学学报（信息与管理工程版）,2013,35(6):816-819.
2娄玉娟,徐慧.中文文本关键词抽取方法的研究[J].企业技术开发（下半月）,2011(4):106-107. 被引量：1
3蒋辉,阳小华.基于文档与搜索结果上下文的查询扩展方法[J].计算机应用,2009,29(3):852-853. 被引量：6
4王耀明.一种改进的语音关键词特征提取方法[J].上海电机学院学报,2008,11(4):291-293.
5张红鹰.基于模糊处理的中文文本关键词提取算法[J].现代图书情报技术,2009(5):39-43. 被引量：6
6张红鹰.中文文本关键词提取算法[J].计算机系统应用,2009,18(8):73-76. 被引量：7
7张素智,刘婧姣.基于语义的KNN短文本分类算法研究[J].郑州轻工业学院学报（自然科学版）,2012,27(6):1-4. 被引量：4
8时永宾,余青松.基于共现词卡方值的关键词提取算法[J].计算机工程,2016,42(6):191-195. 被引量：4
9闫瑞,曹先彬,李凯.面向短文本的动态组合分类算法[J].电子学报,2009,37(5):1019-1024. 被引量：32
10高雪霞,贾海龙.基于语句类似度优化计算的改进自动摘要算法研究[J].计算机应用与软件,2013,30(9):160-162. 被引量：3

计算机工程与科学

2014年第5期

浏览历史

内容加载中请稍等...

一种结合关键词与共现词对的向量空间模型被引量：4

参考文献9

二级参考文献100

共引文献110

同被引文献64

引证文献4

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

一种结合关键词与共现词对的向量空间模型 被引量：4

参考文献9

二级参考文献100

共引文献110

同被引文献64

引证文献4

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

一种结合关键词与共现词对的向量空间模型被引量：4