基于改进潜在语义分析的跨语言检索被引量：14

Cross-Language Information Retrieval Based on Improved Latent Semantic Indexing

下载PDF

导出

摘要该文采用基于SVD和NMF矩阵分解相结合的改进潜在语义分析的方法为生物医学文献双语摘要进行建模,该模型将英汉双语摘要映射到同一语义空间,不需要外部词典和知识库,建立不同语言之间的对应关系,便于在双语空间中进行检索。该文充分利用医学文献双语摘要语料中的锚信息,通过不同的k值构建多个检索模型,计算每个模型的信任度,使得多个模型都对查询和文本的相似度做出贡献。在语义空间上进行项与项、文本与文本、项与文本之间的相似度计算,实现了双语摘要的跨语言检索。 Focused on the cross language information retrieval, this paper applies the improved Latent Semantic Indexing （LSI）by combining SVD and NMF to construct the semantic space for the abstracts of biomedical literatures. It maps the Chinese document and English document into the same semantic space without external dictionary and knowledge base and for the bilingual information retrieval. The proposed method also utilizes the anchor information included the abstracts of biomedical literatures and builds a series models corresponding to different K dimensions, all contributing to the similarity between query and documents with different credibility. As a result, the similarities of term to term, document to document and term to document are calculated forthe bilingual information retrieval of biomedical abstract. The experiment gets a better result.

作者宁健林鸿飞

机构地区大连理工大学计算机科学与技术学院

出处《中文信息学报》 CSCD 北大核心 2010年第3期105-111,共7页 Journal of Chinese Information Processing

基金国家自然科学基金资助项目(60673039 60973068) 国家863高科技计划资助项目(2006AA01Z151) 教育部留学人员归国科研启动基金教育部博士点基金资助(20090041110002)

关键词计算机应用中文信息处理改进潜在语义分析语义空间跨语言检索 SVD NMF computer application Chinese information processing improved latent semantic indexing semantic spacel cross language IR SVD NMF

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献16

1Kazuaki Kishida.Technical Issues of Cross-Language Information Retrieval:a Review[J],Information Processing and Management,2005,41(3):433-455. 被引量：1
2Gina-Anne Levowa,Douglas W.Oardb,Philip Resnikc.Dictionary-based techniques for cross-language information retrieval[J].Information Processing and Management,2005,41(3):523-547. 被引量：1
3Dong Zhou,Mark Truran.A Graph-Based Technique for Resolving Ambiguity in Query Translation Candidates.Symposium on Applied Computing[C]// Proceedings of the 2008 ACM symposium on Applied computing,Fortaleza,Ceara,Brazil:ACM New York,USA,2008:1566-1573. 被引量：1
4Dong Zhou,Mark Truran.A Hybrid Technique for English-Chinese Cross Language Information Retrieval[J].ACM Transactions on Asian Language Information Processing (TALIP),2008,7(2):l-35. 被引量：1
5Guihong Cao,Jianfeng Gao.Extending query translation to cross-language query expansion with markov chain models EC]]// Proceedings of the sixteenth ACM conference on Conference on information and knowledge management,2007:351-360. 被引量：1
6J.Y.Nie,M.Simard,P.Cross-Language Information Retrieval based on Parallel Texts and Automatic Mining of Parallel Texts in the Web[C]// Proceedings of SIGIR'99,Berkeley,1999:74-81. 被引量：1
7GAO JF,Nie JY.Trec-9 CLIR Experiments at MSRCN[C]// Proceeding of the Ninth Text Retrieval Conference.USA,2000:343-353. 被引量：1
8Susan T.Dumais,Furnas G W.Indexing by Latent Semantic Analysis[J].Journal of the American Society for Information Science,1990,41(6):391-407. 被引量：1
9Michael L.Littman,Susan T.Dumais,Thomas K.Landauer.Automatic cross-language retrieval using latent semantic indexing[C]// Proc.of SIGIR'96,1996:16-23. 被引量：1
10Berry,M.W.,Young,P.G.Using Latent Semantic Indexing for Multilingual Information Retrieval[J],Computers and Humanities,1995,29(6):413-429. 被引量：1

二级参考文献22

1吕学强,李清隐,黄志丹,沈嫣娜,姚天顺.基于统计的汉英句子对齐研究[J].小型微型计算机系统,2004,25(6):990-992. 被引量：15
2吕学强,吴宏林,姚天顺.无双语词典的英汉词对齐[J].计算机学报,2004,27(8):1036-1045. 被引量：11
3张艳,柏冈秀纪.基于长度的扩展方法的汉英句子对齐[J].中文信息学报,2005,19(5):31-36. 被引量：24
4李维刚,刘挺,张宇,李生.基于长度和位置信息的双语句子对齐方法[J].哈尔滨工业大学学报,2006,38(5):689-692. 被引量：25
5Dolan W. B., J. Pinkhan and S. D. Richardson. The Microsoft Research Machine Translation[C]//AMTA 2002: 237-239. 被引量：1
6Jutras J. M.. The TrandCheck System. [C]//Appled Natural Language Processing 2002: 127-134. 被引量：1
7Chen A., Gey F. C.. Translation term weighting and combining translation resources in cross-language retrieval[C]//TREC 2001. 被引量：1
8Gey F. C., A. Chen, M. K. Buckland and R. R. Larson. Translingual vocabulary mappings for multi- lingual information access[C]//SIGIR 2002: 455-456. 被引量：1
9Morre R. C.. Fast and accurate sentence alignment of bilingual corpora[C]//AMTA 2002; 135-144. 被引量：1
10Chuang T., G. N. You and J. S. Chang. Adaptive bilingual sentence alignment [C]//Lecture Notes in Artificial Intelligence 2002:21- 30. 被引量：1

共引文献3

1李文刚,周杰,杨保群.基于词典和句长及位置的双语对齐方法的改进[J].现代电子技术,2011,34(14):25-27. 被引量：2
2刘颖,王楠.最大熵模型和BP神经网络的短句对齐比较[J].计算机工程与应用,2015,51(7):112-117. 被引量：4
3严灿勋.二分图顶点配对模型下的英汉句子对齐研究[J].中文信息学报,2016,30(5):153-159. 被引量：3

同被引文献103

1刘志为,何丕廉,孙越恒,郑小慎.N层向量空间模型在Web信息检索中的应用[J].微型机与应用,2004,23(12):60-62. 被引量：5
2张素芳.国外跨语言信息检索中的翻译歧义性问题研究综述[J].图书馆学研究,2006(6):72-75. 被引量：8
3刘海峰,王元元,王倩.基于分类的VSM模式下文本检索研究[J].情报科学,2006,24(11):1700-1703. 被引量：11
4张秋余,刘洋.使用基于SVM的局部潜在语义索引进行文本分类[J].计算机应用,2007,27(6):1382-1384. 被引量：4
5张爱文,樊红莲.半离散矩阵分解改进算法在网页信息检索中的应用研究[J].黑龙江工程学院学报,2007,21(2):55-57. 被引量：3
6赵天忠,苗壮,张亚非,徐伟光,陆建江.基于WordNet重用的领域本体构建方法[J].系统仿真学报,2007,19(19):4583-4586. 被引量：11
7Salton G, Yang C S. On the specification of tel'In values in automatic indexing[J]. Journal of Documentation,1973,29(4) :351 - 372. 被引量：1
8Salton G, Wong A, Yang C S. A vector space model for automatic indexing[J]. Communications of the ACM, 1975, 18 ( 11 ) : 613 - 620. 被引量：1
9Tai Xiaoying, Sasaki M, Tanaka Y, et al. Improvement of vector space information retrieval model based on supervised lemaaing [ C ]//Proceedings of the 5th International Workshop Information Retrieval with Asian Languages. New York : ACM,2000:69 - 74. 被引量：1
10Isbell C L, Viola P. Restructuring sparse high dimensional data for effective retrieval[ C ]//Advances in Neural Information Processing Systems 11. San Mateo : Kaufmann, 1999:480 - 486. 被引量：1

引证文献14

1梁士金.VSM信息检索中的数据稀疏问题分析与规避策略[J].图书情报工作,2013,57(1):142-146. 被引量：3
2罗远胜,王明文,勒中坚,张华伟.跨语言信息检索中的双语主题相关模型[J].小型微型计算机系统,2013,34(12):2758-2763. 被引量：8
3魏露,李书琴,李伟男,李新乐.跨语言查询扩展优化[J].计算机工程与设计,2014,35(8):2785-2788. 被引量：9
4肖正,刘辉,李兵.一种基于语义距离的Web评论SVM情感分类方法[J].计算机科学,2014,41(9):248-252. 被引量：13
5刘健.潜在语义索引理论及其应用[J].卷宗,2015,5(1):111-112.
6李佳.基于词共现的跨语言检索平台研究[J].情报杂志,2015,34(8):195-198. 被引量：3
7黄名选.基于矩阵加权关联模式的印尼中跨语言信息检索模型[J].数据分析与知识发现,2017,1(1):26-36. 被引量：6
8黄名选.基于加权关联模式挖掘的越英跨语言查询扩展[J].情报学报,2017,36(3):307-318. 被引量：12
9黄名选.完全加权模式挖掘与相关反馈融合的印尼汉跨语言查询扩展[J].小型微型计算机系统,2017,38(8):1783-1791. 被引量：12
10兰慧红.跨语言查询扩展技术研究进展[J].电子技术与软件工程,2017(23):142-143.

二级引证文献63

1李扬.基于向量空间模型的信息检索技术的探讨[J].商情,2013(18):168-168.
2迟玉琢.2013年我国情报学研究进展[J].山东图书馆学刊,2014(6):8-13. 被引量：3
3司莉,贾欢.2004—2014年我国多语言信息组织与检索研究进展与启示[J].情报学报,2015,34(6):662-672. 被引量：10
4李响,吐尔根.依布拉音,卡哈尔江.阿比的热西提,买合木提.买买提.基于主动学习的SVM维吾尔语情感分析研究[J].新疆大学学报（自然科学版）,2015,32(4):447-452. 被引量：6
5谭光兴,刘臻晖.基于SVM的局部潜在语义分析算法研究[J].计算机工程与科学,2016,38(1):177-182. 被引量：3
6宋恩梅,何帆.基于多网站的商品评论倾向性研究:以手机为例[J].图书馆学研究,2016(2):85-92. 被引量：8
7司莉,何依.2000年以来我国多语言语料库研究进展[J].现代情报,2016,36(6):165-170. 被引量：2
8邢玉娟,郭显,谭萍,李明.Mixed-Fisher特征云模型聚类在文本情感分类中的应用[J].计算机科学与探索,2016,10(9):1320-1331.
9王焱.自适应本体的垃圾邮件过滤实验设计[J].实验室研究与探索,2016,35(7):139-142.
10邢玉娟,谭萍,曹晓丽.基于多约简Fisher-VSM和SVM的文本情感分类[J].计算机应用与软件,2016,33(9):301-305. 被引量：1

1罗小聪.基于专用双语词典的查询扩展[J].现代计算机,2009,15(10):4-6.
2苏依拉,窦保媛,吉亚图.基于本体的蒙古语灾害信息检索模型[J].北京工业大学学报,2016,42(7):1017-1023. 被引量：4
3余如,兰慧红.面向数字图书馆的汉英跨语言信息检索模型[J].广西教育学院学报,2016(3):184-186. 被引量：2
4凌颖.跨语言跨专业网络寻求解决方案[J].电子世界,2011(12):53-54.
5李亚超,江涛,于洪志,加羊吉.基于词典的藏汉跨语言检索系统研究[J].西北民族大学学报（自然科学版）,2011,32(4):40-43. 被引量：1
6凌颖.跨语言搜索网上信息[J].科技信息,2011(3). 被引量：1
7郝瑞娥.跨语言计算机网络中的语言通讯障碍及解决办法[J].电子技术与软件工程,2014(8):174-174.
8陈文君,於文雪.汉英跨语言检索系统中关键词提取方法的研究[J].电脑知识与技术,2009,5(10):7848-7849.
9臧劲松.人工智能在跨语言信息检索中的应用[J].计算机时代,2016(10):29-31. 被引量：4
10俞辉.基于改进LSA的文档聚类算法[J].小型微型计算机系统,2009,30(5):963-966. 被引量：5

中文信息学报

2010年第3期

浏览历史

内容加载中请稍等...

基于改进潜在语义分析的跨语言检索被引量：14

参考文献16

二级参考文献22

共引文献3

同被引文献103

引证文献14

二级引证文献63

相关作者

相关机构

相关主题

浏览历史

基于改进潜在语义分析的跨语言检索 被引量：14

参考文献16

二级参考文献22

共引文献3

同被引文献103

引证文献14

二级引证文献63

相关作者

相关机构

相关主题

浏览历史

基于改进潜在语义分析的跨语言检索被引量：14