摘要
研究了一种全新的基于KCCA算法的全自动跨语言信息检索方法,这种算法能通过学习双语训练语料来获得文献的语义表示(向量空间)。运用KCCA来进行中英跨语言专利检索的实验,结果令人鼓舞,所获得的检索结果明显好于以往的技术方法。
We study a new machine learning algorithm for cross-language patent retrieval based on KCCA (Kemel Canonical orrelation Analysis). Our learning algorithms exploit the bilingual training documents and learn a semantic representation from them. We study Chinese-English cross-language patent retrieval using KCCA, the results are quite encouraging and are significantly better than those obtained by other state of the art methods.
出处
《情报科学》
CSSCI
北大核心
2010年第5期751-755,共5页
Information Science
基金
教育部人文社会科学研究项目(09YJC870024)
湖北省教育厅科学研究计划优秀中青年人才项目(Q20081108)
关键词
核典型相关分析
跨语言信息检索
专利检索
kernel canonical correlation analysis (KCCA), cross retrieval language information retrieval, patent