-
题名文本检索的统计语言建模方法综述
被引量:19
- 1
-
-
作者
丁国栋
白硕
王斌
-
机构
中国科学院计算技术研究所
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2006年第5期769-776,共8页
-
基金
国家"九七三"重点基础研究发展规划基金项目(2004CB318109)~~
-
文摘
统计语言建模技术(statisticallanguagemodeling,SLM)已逐渐成为当前语言信息处理的主流技术之一·近几年的研究和实验表明,SLM技术在文本检索领域有着广阔的发展前景和拓展空间·对基于SLM的文本检索方法(SLMTR)进行了综述,重点论述SLMTR的主要方法和关键技术·首先对查询似然检索模型进行形式化的描述;然后详细论述语言模型的估计和数据平滑问题;并讨论了平滑对检索性能的影响;之后简要介绍了对查询似然模型的一些主要的扩展和改进工作;最后的总结部分讨论了SLMTR所面临的一些挑战·
-
关键词
信息检索
统计语言建模
语言模型
平滑
-
Keywords
information retrieval
statistical language modeling
language model
smoothing
-
分类号
TP391.3
[自动化与计算机技术—计算机应用技术]
-
-
题名应用于信息检索的统计语言模型研究进展
被引量:4
- 2
-
-
作者
李纲
郑重
-
机构
武汉大学信息资源研究中心
-
出处
《情报理论与实践》
CSSCI
北大核心
2008年第3期471-476,共6页
-
基金
国家自然科学基金项目"文本集特征提取方法及应用研究"的研究成果之一
项目编号:70673070
-
文摘
统计语言模型作为一种自然语言处理的工具,已经被证明有能力处理大规模真实文本。而统计语言模型和IR相结合后所形成的SLM-IR模型的提出,是信息检索模型研究上的重大进展。本文介绍了统计语言模型在信息检索领域的基本模型及相关问题,重点分析了Lemur工具箱和标题语言模型的原理及模型,最后从整体上介绍了该领域的国际动态和研究进展情况。
-
关键词
信息检索
统计语言模型
查询条件概率模型
主题语言模型
-
Keywords
information retrieval
statistical language modeling
query-likelihood model
title language model
-
分类号
G354
[文化科学—情报学]
-
-
题名基于词性探测的中文姓名识别算法
被引量:2
- 3
-
-
作者
王源媛
何中市
-
机构
重庆大学计算机学院
-
出处
《计算机科学》
CSCD
北大核心
2005年第4期84-86,共3页
-
基金
国家自然科学基金(60173060)
-
文摘
本文提出了一种新的基于统计和规则相结合的中文姓名识别方法,即词性探测算法。该方法的特点是在对文本进行分词和词性标注一体化处理的基础上,通过探测候选中文姓名后的词性和比较单字的相对成词能力,能够对分词碎片中的姓名进行有效识别。
-
关键词
中文姓名
识别算法
一体化处理
识别方法
探测算法
词性标注
分词
-
Keywords
Chinese person names
Recognition
POS detecting
statistical language modeling
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
H125.2
[自动化与计算机技术—计算机科学与技术]
-