期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
搜索引擎用短语词典建设 被引量:6
1
作者 吕学强 苏祺 +1 位作者 孙斌 俞士汶 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2005年第S1期1892-1895,共4页
百度搜索引擎分词系统中的原短语库是由统计得出,含有大量噪音。委托北京大学计算语言学研究所进行了手工整理标注。为此设计了加工规范,对短语进行了严格的定义,制定了加工操作手册,并开展了手工工程,通过严格的控制保证标注的一致性... 百度搜索引擎分词系统中的原短语库是由统计得出,含有大量噪音。委托北京大学计算语言学研究所进行了手工整理标注。为此设计了加工规范,对短语进行了严格的定义,制定了加工操作手册,并开展了手工工程,通过严格的控制保证标注的一致性。共整理短语119 984条,噪音短语比例约占7%。当前该短语词典已应用于百度搜索引擎中,对提高检索效果和减少索引空间都起到一定作用。 展开更多
关键词 搜索引擎 语言资源 语词 中文分词 标注
原文传递
搜索引擎日志短语标注规范
2
作者 舒燕 吕学强 《中文信息学报》 CSCD 北大核心 2013年第2期47-51,共5页
语料标注是语料库构建的一项重要的基础性工作。基于搜狗日志,该文借助XML文档的结构化特点,将语料标注转换成节点属性的改写,根据语料的特点,制定了一套服务于搜索引擎用短语词典构建的短语语料标注加工规范及执行原则,并对标注集及加... 语料标注是语料库构建的一项重要的基础性工作。基于搜狗日志,该文借助XML文档的结构化特点,将语料标注转换成节点属性的改写,根据语料的特点,制定了一套服务于搜索引擎用短语词典构建的短语语料标注加工规范及执行原则,并对标注集及加工规范进行了详细描述。利用此规范,已完成145 645条查询词串的标注,而且标注质量很高。 展开更多
关键词 语料标注 搜狗日志 语词 加工规范
下载PDF
搜索引擎中“N1+N2”型短语查询优化研究 被引量:5
3
作者 倪廓阔 吕学强 +1 位作者 韩艳铧 王涛 《计算机应用与软件》 CSCD 北大核心 2012年第9期117-121,共5页
"N1+N2"作为现代汉语中常见的短语形式,亦广泛存在于搜索引擎检索用语中。以日志短语词典为基础,根据搜索日志查询串的语言特点,对包含"N1+N2"型短语的查询串进行改写,其中包括空格分割、引号加注和焦点强调方法,... "N1+N2"作为现代汉语中常见的短语形式,亦广泛存在于搜索引擎检索用语中。以日志短语词典为基础,根据搜索日志查询串的语言特点,对包含"N1+N2"型短语的查询串进行改写,其中包括空格分割、引号加注和焦点强调方法,并对查询串粗略分类。实验结果显示:在引号加注的作用下MPA由0.362提高到0.441;导航类查询MRR值从0.64提升到0.719,信息事务类查询MRR值从0.25增加到0.344。从而验证了短语特征能够指导查询结果优化,进而提升搜索引擎性能。 展开更多
关键词 “N1+N2” 搜索引擎 日志语词 查询优化
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部