融合加权模式挖掘与规则混合扩展的跨语言检索被引量：11

Cross Language Retrieval Based on Weighted Patterns Mining and Rule Hybrid Expansion

下载PDF

导出

摘要针对信息检索中查询主题漂移和词不匹配问题,本文给出项集有效性计算方法及其剪枝策略,构建一种关联模式评价框架ACSC(Availability_Chis-Square_Confidence)和基于ACSC挖掘的规则混合扩展模型,提出一种融合加权关联模式挖掘与规则混合扩展模型的跨语言信息检索算法.该算法通过项集权值比较从跨语言初检相关文档集挖掘含有原查询词项的频繁项集,利用基于有效性的剪枝方法对项集进行剪枝得到有效频繁项集,从有效频繁项集挖掘加权关联规则,根据规则混合扩展模型实现查询扩展,扩展词与原查询词组合为新查询再次检索文档得到最终检索结果.与现有跨语言检索算法比较,实验结果表明,本文算法能有效地减少查询漂移和词不匹配问题,提高和改善跨语言信息检索性能,有效性和置信度可使本文算法分别获得最优的检索结果 R-prec和P@10值. In order to solve the problem of query topic drift and word mismatch in information retrieval,a computing method of availability and pruning strategies for itemsets are first given in this paper. And then,an evaluation framework of association patterns,ACSC( Availability_Chis-Square_Confidence),and a Rule Hybrid Expansion Model( RHEM) based on ACSC mining are constructed. Finally,an algorithm of Cross Language Information Retrieval( CLIR) is proposed based on weighted patterns mining by dint of ACSC and RHEM. This algorithm mines frequent itemsets containing the original query terms from the collection of relevance documents which come from initial retrieval results by comparing itemsets weight,and prune the itemsets using the pruning method based on the availability with the aim of obtaining Effective Frequent Itemsets( EFI). The weighted association rules are mined from the EFI,and query expansion is realized according to the RHEM. The expansion terms are combined with the original query terms to form a new query which retrieves the documents again and the final cross language retrieval results are achieved. Compared with the existing CLIR algorithms,the experimental results show that the proposed algorithm can effectively reduce the problem of query drift and word mismatch in cross language retrieval,and improve the performance of CLIR. Furthermore,the availability and confidence can make the algorithm obtain the optimal retrieval results: R-prec and P@ 10,respectively.

作者黄名选夏国恩高荣蒋曹清 HUANG Ming-xuan;XIA Guo-en;GAO Rong;JIANG Cao-qing(Guangxi(ASEAN)Financial Research Center,Guangxi University of Finance and Economics,Nanning 530003,China;Guangxi Key Laboratory of Cross-border E-commerce Intelligent Information Processing,Guangxi University of Finance and Economics,Nanning 530003,China;School of Information and Statistics,Guangxi University of Finance and Economics,Nanning 530003,China;School of Business Administration,Guangxi University of Finance and Economics,Nanning 530003,China)

机构地区广西财经学院广西(东盟)财经研究中心广西跨境电商智能信息处理重点实验室(广西财经学院) 广西财经学院信息与统计学院广西财经学院工商管理学院

出处《小型微型计算机系统》 CSCD 北大核心 2019年第9期2013-2020,共8页 Journal of Chinese Computer Systems

基金国家自然科学基金项目(61762006,71862003,61662003)资助广西应用经济学一流学科(培育)开放性课题项目(2018MA07)资助广西(东盟)财经研究中心开放性课题项目(2018DMCJYB08)资助广西自然科学基金项目(2015GXNSFAA139310)资助

关键词信息检索跨语言检索文本挖掘查询扩展自然语言处理 information retrieval cross language retrieval text mining query expansion natural language processing

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献12

1吴丹,何大庆,王惠临.一种基于相关反馈的跨语言信息检索查询翻译优化技术研究[J].情报学报,2012,31(4):398-406. 被引量：8
2闭剑婷,苏一丹.基于潜在语义分析的跨语言查询扩展方法[J].计算机工程,2009,35(10):49-50. 被引量：13
3宁健,林鸿飞.基于改进潜在语义分析的跨语言检索[J].中文信息学报,2010,24(3):105-111. 被引量：14
4吴丹,何大庆,王惠临.基于伪相关反馈的跨语言查询扩展[J].情报学报,2010,29(2):232-239. 被引量：19
5司莉,陈雨雪,曾粤亮.基于多语言本体的中英跨语言信息检索模型及实现[J].图书情报工作,2017,61(1):100-108. 被引量：18
6黄名选.基于矩阵加权关联模式的印尼中跨语言信息检索模型[J].数据分析与知识发现,2017,1(1):26-36. 被引量：6
7黄名选.完全加权模式挖掘与相关反馈融合的印尼汉跨语言查询扩展[J].小型微型计算机系统,2017,38(8):1783-1791. 被引量：12
8黄名选.基于加权关联模式挖掘的越英跨语言查询扩展[J].情报学报,2017,36(3):307-318. 被引量：12
9黄名选,蒋曹清.基于完全加权正负关联模式挖掘的越-英跨语言查询译后扩展[J].电子学报,2018,46(12):3029-3036. 被引量：11
10黄名选,蒋曹清,何冬蕾.基于矩阵加权关联规则的跨语言查询译后扩展[J].模式识别与人工智能,2018,31(10):887-898. 被引量：10

二级参考文献85

1吴丹.本体驱动的跨语言信息检索研究[J].现代图书情报技术,2006(5):22-26. 被引量：11
2吴丹,王惠临.本体在跨语言信息检索中的应用机制研究[J].图书情报工作,2006,50(9):10-13. 被引量：17
3刘远超,王晓龙,徐志明,刘秉权.基于粗集理论的中文关键词短语构成规则挖掘[J].电子学报,2007,35(2):371-374. 被引量：17
4Gao Jianleng, Nie Jianyun, Zhang Jian, et al. TREC-9 CLIR Experiments[C]//Proc. of the 9th Text Retrieval Evaluation Conference. Gaithersburg, Maryland, USA: [s. n.], 2000. 被引量：1
5Dumais S. Improving the Retrieval of Information from External Sources[J]. Behavior Research Methods Instruments & Computers, 1991, 23(2): 229-236. 被引量：1
6Salton G. The Smart Retrieval System-experiments in Automatic Document Processing[M]. New Jersey, USA: Prentice-Halt Inc., 1971. 被引量：1
7Ruthven I,Lalmas M.A survey on the use of relevance feedback for information access systems[J].The Knowledge Engineering Review,2003,18(2):95-145. 被引量：1
8Harman D.Relevance feedback revisited[C]// Proceedings of the 15th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval,1992:1-10. 被引量：1
9Xu J,Croft W B.Query expansion using local and global document analysis[C]//Proceedings of the 19th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval,1996:4-11. 被引量：1
10Orengo V M,Huyck C.Relevance feedback and cross-language information retrieval[J].Information Processing & Management,2006,42(5):1203-1217. 被引量：1

共引文献72

1于再富,袁满.融合BabelNet的多语言智能信息检索模型[J].吉林大学学报（信息科学版）,2020,38(1):99-106. 被引量：8
2王卫国,徐炜民.基于潜在语义分析的个性化查询扩展模型[J].计算机工程,2010,36(21):43-45. 被引量：13
3王水利,黄广君,霍亚格.基于语义分析的查询扩展方法[J].计算机工程,2011,37(16):77-79. 被引量：7
4柳永念,钟诚,焦小焦.基于单元识别的网页信息抽取方法[J].广西大学学报（自然科学版）,2011,36(5):787-791. 被引量：1
5仲兆满,朱平,李存华,管燕,刘宗田.一种基于局部分析面向事件的查询扩展方法[J].情报学报,2012,31(2):151-159. 被引量：10
6吴丹,何大庆,王惠临.一种基于相关反馈的跨语言信息检索查询翻译优化技术研究[J].情报学报,2012,31(4):398-406. 被引量：8
7王君泽,张祥,徐晓林.基于大规模问答对数据的查询扩展技术研究[J].情报学报,2012,31(4):407-415. 被引量：2
8叶昭晖,杨高峰,杨岳湘.一种基于潜语义分析的中文网页自动摘要方法[J].广西大学学报（自然科学版）,2012,37(2):341-345. 被引量：1
9吴丹.交互式跨语言信息检索中用户行为研究[J].中国图书馆学报,2012,38(3):78-90. 被引量：12
10梁士金.VSM信息检索中的数据稀疏问题分析与规避策略[J].图书情报工作,2013,57(1):142-146. 被引量：3

同被引文献107

1李冉.基于语义图模型的跨语言网络信息检索方法研究[J].周口师范学院学报,2020(2):100-103. 被引量：3
2黄名选,严小卫,张师超.查询扩展技术进展与展望[J].计算机应用与软件,2007,24(11):1-4. 被引量：53
3闭剑婷,苏一丹.基于潜在语义分析的跨语言查询扩展方法[J].计算机工程,2009,35(10):49-50. 被引量：13
4宁健,林鸿飞.基于改进潜在语义分析的跨语言检索[J].中文信息学报,2010,24(3):105-111. 被引量：14
5姚丽华,于广州.关系型数据库信息资源检索结果分类方法仿真[J].计算机仿真,2019,36(1):445-448. 被引量：5
6许侃,林原,林鸿飞,徐博.基于不同信息资源专利查询扩展方法的研究[J].情报学报,2016,35(6):597-604. 被引量：6
7袁勇,周涛,周傲英,段永朝,王飞跃.区块链技术:从数据智能到知识自动化[J].自动化学报,2017,43(9):1485-1490. 被引量：76
8成波,关雪峰,向隆刚,高萌,吴华意.一种面向时空对象及其关联关系动态变化表达的概念数据模型[J].地球信息科学学报,2017,19(11):1415-1421. 被引量：17
9宋雪雁,朱立香,盛盼盼,孙振嘉.基于知识治理的公共档案馆服务质量优化机制研究[J].图书情报工作,2018,62(1):40-45. 被引量：4
10赵琳,刘虎,储牧原.电子档案容灾备份工作的探索与实践[J].中国档案,2018,0(1):69-71. 被引量：2

引证文献11

1刘高军,方晓,段建勇.基于深度语义信息的查询扩展[J].计算机应用,2020,40(11):3192-3197. 被引量：5
2张胜祥,石超,姜欣,张迎.基于大数据技术的信息频繁项集挖掘研究[J].自动化与仪器仪表,2020(11):42-45. 被引量：5
3欧安清.基于关联规则挖掘的网络信息检索方法[J].信息与电脑,2021,33(13):174-176. 被引量：3
4赵宏伟.基于智能数据分析的电子档案转递查询方法[J].信息技术,2021,45(9):39-44. 被引量：3
5李光宇.基于深度神经网络的多模态信息检索[J].计算机应用与软件,2022,39(1):219-224. 被引量：5
6蒋贞慧.基于多层感知学习的工程档案大数据检索系统设计[J].自动化与仪器仪表,2022(2):69-72. 被引量：3
7李星.基于语义匹配的外语翻译机器人自动问答检索研究[J].自动化与仪器仪表,2022(2):138-141. 被引量：2
8郑庆荣,赵建立,盛明,王桂林,汤卓凡.基于知识图谱的全链路数据自动检索方法[J].自动化与仪器仪表,2022(5):170-173. 被引量：3
9陈乐,刘迎春.基于用户需求挖掘的交互式信息检索算法设计[J].计算机仿真,2022,39(5):418-422. 被引量：8
10童宁,徐珊,汤颖,秦绪佳.结合短文本语义的图查询可视分析系统[J].小型微型计算机系统,2023,44(1):146-154.

二级引证文献34

1李正龙,张巍.Apriori算法在学生成绩中的关联性研究[J].信息与电脑,2021,33(4):53-55. 被引量：4
2芮国荣,孙海金.基于数据挖掘的电子猫眼信息失真概率模拟分析[J].自动化与仪器仪表,2021(7):219-222.
3欧安清.基于关联规则挖掘的网络信息检索方法[J].信息与电脑,2021,33(13):174-176. 被引量：3
4赵超,文屹,吕黔苏,张迅,文华,王冕,范强.基于并行计算技术的试验报告诊断信息挖掘系统设计[J].电力大数据,2021,24(10):45-52.
5吕晋俐.探讨大数据下的智能数据分析技术研究[J].中国宽带,2022,18(4):41-43.
6潘巍,林榆森,施自凯,林世翔.面向电商的多模态商品检索引擎设计[J].智能计算机与应用,2022,12(7):202-205.
7陈刚.基于数据挖掘地域性强关联规则数据提取[J].吉林大学学报（信息科学版）,2022,40(4):652-656.
8刘舸舸.结合MacBERT和多尺度融合网络的档案数据分类研究[J].电子设计工程,2022,30(19):65-68. 被引量：1
9佘俊,罗勇,余少锋,廖崇阳.基于语义理解和AI的电力设备信息检索方法[J].电子设计工程,2022,30(22):89-92. 被引量：3
10郑岳,韩娟,杜丽洁,于丽梅,仝天,孙源.基于大数据分析的支撑智能催费的客户分群方法研究[J].电力大数据,2022,25(8):55-61. 被引量：3

1白涛,蒋运华,韩云涛.基于混合扩展卡尔曼滤波的超空泡航行体变深运动控制研究[J].兵工学报,2017,38(10):1980-1987. 被引量：3
2王磊,刘颜铭,陈刚,刘俊.GH4169镍基高温合金的高温低周疲劳损伤机理[J].机械工程材料,2019,43(1):45-49. 被引量：5
3美丽中国、健康中国，环中国自驾游集结赛（ACSC）-最美318线活动落下帷幕[J].汽车自驾游,2018,0(10):142-142.
4张勇,李树青,程永上.基于频次有效长度的加权关联规则挖掘算法研究[J].数据分析与知识发现,2019,3(7):85-93. 被引量：1
5桂思思,张晓娟,王鑫.查询歧义性程度自动标注指标的替代性验证研究[J].数据分析与知识发现,2019,3(2):79-89. 被引量：3
6卢海伟,夏海峰,袁晓彤.基于滤波器注意力机制与特征缩放系数的动态网络剪枝[J].小型微型计算机系统,2019,40(9):1832-1838. 被引量：8
7江宇,宋省身,杨岳湘,姜琨.基于阈值的快速启动Top-k查询处理算法[J].中文信息学报,2017,31(5):163-170.
8陈春谋.大数据环境下的档案管理系统信息检索及挖掘技术分析[J].电子测试,2019,0(14):92-94. 被引量：2
9闫晓鹏.基于本体和局部分析查询扩展法[J].信息技术与信息化,2019,0(9):187-188.
10胡文婷.话语标记语研究现状及展望[J].现代语文,2019(7):36-42.

小型微型计算机系统

2019年第9期

浏览历史

内容加载中请稍等...

融合加权模式挖掘与规则混合扩展的跨语言检索被引量：11

参考文献12

二级参考文献85

共引文献72

同被引文献107

引证文献11

二级引证文献34

相关作者

相关机构

相关主题

浏览历史

融合加权模式挖掘与规则混合扩展的跨语言检索 被引量：11

参考文献12

二级参考文献85

共引文献72

同被引文献107

引证文献11

二级引证文献34

相关作者

相关机构

相关主题

浏览历史

融合加权模式挖掘与规则混合扩展的跨语言检索被引量：11