文档检索中文本片段化机制的研究被引量：4

Research on Text Snippet Mechanism in Document Retrieval

下载PDF

导出

摘要文档检索是自然语言处理的研究热点,相对于短文本文档具有信息丰富且冗长的特征。在长文本检索中,查询语句与长文本中的句子往往不是全部相关,可能会出现某些高相似片段的强干扰,因此查询语句与文档之间的相关性评分不能简单采用基于词语或字符串之间的相似度计算。提出了一种文本片段化机制(TSM)进行文档检索,首先将每个候选文档划分成片段,再计算查询语句与文档片段之间的相关度,所使用的相关度匹配方案考虑了语义和词频等因素,筛选出关键的文本片段并得出相关片段比率,综合这些片段信息计算查询与文档之间的相关性得分,从而获取Top-K文档集。针对Glasgow信息检索专用数据集的实验结果表明,利用文本片段化机制进行文本匹配可以提高信息检索的性能。 Document retrieval is a research hotspot of natural language processing.Compared with short text document which has the characteristics of information diversity and length,in long text retrieval,a query statement is often not related to all sentences in a long text,and strong interference of some highly similar segments will occur.Therefore,the correlation score between a query statement and a document can not be simply calculated based on the similarity between words or strings.Text snippet mechanism(TSM)is proposed for document retrieval.TSM first divides each candidate document into snippets,and then calculates the correlation between query statements and document snippets.The correlation matching scheme used takes into account the semantic and word frequency factors.TSM selects key text snippets and obtains the relevant snippet ratio,and then calculates the correlation score between query and target document based on these information,so as to obtain the Top-K document set.Experimental results show that TSM can improve the performance of information retrieval on IR test collection of Glasgow.

作者李宇刘波 LI Yu;LIU Bo(College of Information Science and Technology,Jinan University,Guangzhou 510632,China)

机构地区暨南大学信息科学技术学院计算机系

出处《计算机科学与探索》 CSCD 北大核心 2020年第4期578-589,共12页 Journal of Frontiers of Computer Science and Technology

基金广州市科技计划基金No.201604010037。

关键词文本片段化机制文档检索相关性评分相关片段比例片段整合计算 text snippet mechanism document retrieval correlation calculation relevant snippet ratio snippet integration score

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1肖元君,吴国文.基于Gensim的摘要自动生成算法研究与实现[J].计算机应用与软件,2019,36(12):131-136. 被引量：15
2郑霖,徐德华.基于改进TFIDF算法的文本分类研究[J].计算机与现代化,2014(9):6-9. 被引量：27

二级参考文献21

1张玉芳,彭时名,吕佳.基于文本分类TFIDF方法的改进与应用[J].计算机工程,2006,32(19):76-78. 被引量：121
2宋惟然.中文文本分类中的特征选择和权重计算方法研究[D].北京:北京工业大学,2013. 被引量：2
3Salton G, McGill M J. Introduction to Modem Information Retrieval[M]. McGraw-Hill, 1983. 被引量：1
4Luhn H P. Auto-encoding of Documents for Information Re- trieval Systems [ M ]// Modem Trends in Documentation. New York: Pergamon Press, 1959:68-95. 被引量：1
5Salton G, Wong A, Yang C S. A vector space model for automate indexing[ J ]. Communications of ACM, 1975,18 ( 11 ) :613-620. 被引量：1
6Lewis D D. Naive Bayes at forty: The independence assump- tion in information retrieval [ C ]// Proceedings of the lOth European Conference on Machine Learning. 1998:4-15. 被引量：1
7Hsu C, Lin C. A comparison on methods for multi-class support vector machines[ J]. IEEE Transactions on Neural Networks, 2002,13 (2) :415-425. 被引量：1
8候敏.计算语言学与汉语自动分析[M].北京:北京广播学院出版社,1999. 被引量：1
9Salton G. On the construction of effective vocabularies for information retrieval[ C ]// Proceedings of the 1973 Meet- ing on Programming Languages and Information Retrieval. 1973 : 48-60. 被引量：1
10Cohen W, Singer Y. Context-sensitive learning methods for text categorization [ J ]. ACM Trans. Information Systems, 1996,17 (2) : 146-173. 被引量：1

共引文献40

1丁美荣,冯伟森,黄荣翔,罗嘉俊.基于预训练模型和基础词典扩展的酒店评论情感分析[J].计算机系统应用,2022,31(11):296-308. 被引量：5
2梁媛,王东波,黄水清.面向人民日报语料的新闻自动摘要生成[J].知识管理论坛,2022(4):452-464. 被引量：1
3于伟杰,杨文忠,任秋如.基于全词BERT的集成用户画像方法[J].东北师大学报（自然科学版）,2022,54(4):87-92. 被引量：3
4秦瑞,方乐,俞敏.文本分析方法在医学研究中的应用进展[J].浙江预防医学,2015,27(10):1008-1011. 被引量：2
5李念,廖闻剑,彭艳兵.动态置信度的序列选择增量学习方法[J].计算机系统应用,2016,25(2):135-140.
6马庆杰,李炳龙.基于PLSA的即时通信取证方法[J].武汉大学学报（理学版）,2016,62(2):122-126.
7战学刚,王晓.基于LDA的问答网站话题抽取算法[J].计算机应用与软件,2016,33(4):95-98. 被引量：2
8骆凡,彭艳兵.一种基于apiori算法改进的knn文本分类方法[J].电子设计工程,2016,24(7):1-3. 被引量：5
9邹云峰,何维民,赵洪莹,程雅梦,杨红.文本挖掘技术在电力工单数据分析中的应用[J].现代电子技术,2016,39(17):149-152. 被引量：15
10陈康,付华峥,陈翀,张宇艺,韦誉.基于DPI的用户兴趣实时分类[J].电信科学,2016,32(12):109-115. 被引量：4

同被引文献16

1于再富,袁满.融合BabelNet的多语言智能信息检索模型[J].吉林大学学报（信息科学版）,2020,38(1):99-106. 被引量：8
2孔维泽,刘奕群,张敏,马少平.问答社区中回答质量的评价方法研究[J].中文信息学报,2011,25(1):3-8. 被引量：33
3温超,耿国华,李展.基于K均值聚类和多示例学习的图像检索方法[J].计算机应用,2011,31(6):1546-1548. 被引量：4
4延霞,范士喜.面向问答社区的粗粒度问句分类算法[J].计算机应用与软件,2013,30(1):219-222. 被引量：3
5左家莉,王明文,吴水秀,万剑怡.结合句子级别检索的信息检索模型[J].中文信息学报,2016,30(2):107-112. 被引量：6
6陈涛.基于多示例学习和贝叶斯分类器的图像检索方法[J].深圳职业技术学院学报,2018,17(3):7-11. 被引量：6
7查正军,郑晓菊.多媒体信息检索中的查询与反馈技术[J].计算机研究与发展,2017,54(6):1267-1280. 被引量：16
8余传明,蔡林,胡莎莎,安璐.基于深度学习的查询扩展研究[J].情报学报,2019,38(10):1066-1077. 被引量：12
9曹玥,贾砚池,王峥.基于语义的科技文献检索技术研究[J].微型电脑应用,2019,35(12):16-18. 被引量：2
10黄名选,蒋曹清.基于项权值排序挖掘的跨语言查询扩展[J].电子学报,2020,48(3):568-576. 被引量：11

引证文献4

1田媛,郝文宁,靳大尉,陈刚,邹傲.基于多示例学习的长文档检索[J].无线电工程,2021,51(9):886-892. 被引量：2
2张帆,单艳.计算机多媒体中信息检索查询与反馈技术研究[J].数字通信世界,2021(11):98-100. 被引量：1
3田媛,郝文宁,陈刚,靳大尉,邹傲.用于信息检索的句子级深度关联匹配模型[J].计算机技术与发展,2022,32(6):9-14. 被引量：1
4闫悦,郭晓然,王铁君,饶强,王铠杰.问答系统研究综述[J].计算机系统应用,2023,32(8):1-18. 被引量：10

二级引证文献14

1刘彦.基于压缩域特征的多媒体数字音频检索方法[J].信息记录材料,2022,23(8):229-231.
2杜超利,肖淞月,王新健.语义信息驱动的空间位置数据检索关键技术研究[J].中国安防,2023(4):105-109.
3刘军平,唐佳伟,朱强,彭涛,胡新荣.基于最优传输的密集增强文档检索研究[J].长江信息通信,2023,36(9):142-145.
4段毛毛,连培榆,史海涛.动态视音场景下问答模型研究[J].计算机技术与发展,2024,34(3):163-169.
5石致远,张佳蕾,孔志伟,伏洪兵,徐海,王淑营,闫富乾,王立闻,凌乐.结合知识图谱与大语言模型的风电装备智能问答系统[J].东方电气评论,2024,38(3):77-84.
6李琳娜,丁楷,韩红旗,王力,李艾丹.基于知识图谱的中文科技文献问答系统构建研究[J].中国科技资源导刊,2024,56(4):51-62.
7王丽,蒋明,王伟,涂冰花,周明.电力信息通信客服机器人特定语义数据检索优化[J].电子设计工程,2024,32(20):168-171.
8陆公正,刘诚志.以大语言模型为核心的校园问答系统[J].福建电脑,2024,40(10):95-98.
9苏易礌,李卫军,刘雪洋,丁建平,刘世侠,李浩南,李贯峰.基于图神经网络的文本分类方法研究综述[J].计算机工程与应用,2024,60(19):1-17.
10任元凯,谢振平.大语言模型领域意图的精准性增强方法[J].计算机应用研究,2024,41(10):2893-2899.

1樊人利.走出写观察记录的误区[J].学前教育（幼教版）,2019,0(10):44-45.
2钱江波,胡伟,陈华辉,董一鸿.基于学习型哈希的在线近邻查找算法[J].控制与决策,2019,34(12):2567-2575. 被引量：4
3曾悦.基于路谱数据采集分析解决整车动力性问题研究[J].汽车世界,2019,0(20):56-56.
4李致远,冯琳.一种基于Lucene的高效索引建立方法[J].工业控制计算机,2020,33(1):77-78. 被引量：4
5曹素娥.云计算下海量数据挖掘的优化方法探讨[J].通讯世界,2019,26(12):127-128. 被引量：1
6谷田平.容积法自动售油系统流量示值误差的测量不确定度评定[J].工业计量,2019,0(S01):77-78.
7段红智.嵌入式平台在智能图书馆借还验收中应用研究[J].现代电子技术,2020,43(6):39-42. 被引量：1
8王琳,刘伍颖.马来语领域多词组无监督识别[J].中国科学技术大学学报,2019,49(7):517-523.
9谭卫民,龙建成,卢晓珊,郭宁.考虑用户体验的动态共乘系统设计[J].系统工程理论与实践,2020,40(1):210-218. 被引量：6
10王苗苗,孙英华.基于偏好序考虑主体心理行为的双边匹配方法[J].青岛大学学报（自然科学版）,2020,33(1):25-32.

计算机科学与探索

2020年第4期

浏览历史

内容加载中请稍等...

文档检索中文本片段化机制的研究被引量：4

参考文献2

二级参考文献21

共引文献40

同被引文献16

引证文献4

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

文档检索中文本片段化机制的研究 被引量：4

参考文献2

二级参考文献21

共引文献40

同被引文献16

引证文献4

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

文档检索中文本片段化机制的研究被引量：4