期刊导航
期刊开放获取
cqvip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
3
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
搜索引擎用短语词典建设
被引量:
6
1
作者
吕学强
苏祺
+1 位作者
孙斌
俞士汶
《清华大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2005年第S1期1892-1895,共4页
百度搜索引擎分词系统中的原短语库是由统计得出,含有大量噪音。委托北京大学计算语言学研究所进行了手工整理标注。为此设计了加工规范,对短语进行了严格的定义,制定了加工操作手册,并开展了手工工程,通过严格的控制保证标注的一致性...
百度搜索引擎分词系统中的原短语库是由统计得出,含有大量噪音。委托北京大学计算语言学研究所进行了手工整理标注。为此设计了加工规范,对短语进行了严格的定义,制定了加工操作手册,并开展了手工工程,通过严格的控制保证标注的一致性。共整理短语119 984条,噪音短语比例约占7%。当前该短语词典已应用于百度搜索引擎中,对提高检索效果和减少索引空间都起到一定作用。
展开更多
关键词
搜索引擎
语言资源
短
语词
典
中文分词
标注
原文传递
搜索引擎日志短语标注规范
2
作者
舒燕
吕学强
《中文信息学报》
CSCD
北大核心
2013年第2期47-51,共5页
语料标注是语料库构建的一项重要的基础性工作。基于搜狗日志,该文借助XML文档的结构化特点,将语料标注转换成节点属性的改写,根据语料的特点,制定了一套服务于搜索引擎用短语词典构建的短语语料标注加工规范及执行原则,并对标注集及加...
语料标注是语料库构建的一项重要的基础性工作。基于搜狗日志,该文借助XML文档的结构化特点,将语料标注转换成节点属性的改写,根据语料的特点,制定了一套服务于搜索引擎用短语词典构建的短语语料标注加工规范及执行原则,并对标注集及加工规范进行了详细描述。利用此规范,已完成145 645条查询词串的标注,而且标注质量很高。
展开更多
关键词
语料标注
搜狗日志
短
语词
典
加工规范
下载PDF
职称材料
搜索引擎中“N1+N2”型短语查询优化研究
被引量:
5
3
作者
倪廓阔
吕学强
+1 位作者
韩艳铧
王涛
《计算机应用与软件》
CSCD
北大核心
2012年第9期117-121,共5页
"N1+N2"作为现代汉语中常见的短语形式,亦广泛存在于搜索引擎检索用语中。以日志短语词典为基础,根据搜索日志查询串的语言特点,对包含"N1+N2"型短语的查询串进行改写,其中包括空格分割、引号加注和焦点强调方法,...
"N1+N2"作为现代汉语中常见的短语形式,亦广泛存在于搜索引擎检索用语中。以日志短语词典为基础,根据搜索日志查询串的语言特点,对包含"N1+N2"型短语的查询串进行改写,其中包括空格分割、引号加注和焦点强调方法,并对查询串粗略分类。实验结果显示:在引号加注的作用下MPA由0.362提高到0.441;导航类查询MRR值从0.64提升到0.719,信息事务类查询MRR值从0.25增加到0.344。从而验证了短语特征能够指导查询结果优化,进而提升搜索引擎性能。
展开更多
关键词
“N1+N2”
短
语
搜索引擎
日志
短
语词
典
查询优化
下载PDF
职称材料
题名
搜索引擎用短语词典建设
被引量:
6
1
作者
吕学强
苏祺
孙斌
俞士汶
机构
北京大学计算语言学研究所
出处
《清华大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2005年第S1期1892-1895,共4页
基金
国家"八六三"高技术项目(2002AA117010-8)
国家自然科学基金资助项目(60203022)
文摘
百度搜索引擎分词系统中的原短语库是由统计得出,含有大量噪音。委托北京大学计算语言学研究所进行了手工整理标注。为此设计了加工规范,对短语进行了严格的定义,制定了加工操作手册,并开展了手工工程,通过严格的控制保证标注的一致性。共整理短语119 984条,噪音短语比例约占7%。当前该短语词典已应用于百度搜索引擎中,对提高检索效果和减少索引空间都起到一定作用。
关键词
搜索引擎
语言资源
短
语词
典
中文分词
标注
Keywords
search engine
language resource
phrase dictionary
Chinese segmentation
tag
分类号
TP391.3 [自动化与计算机技术—计算机应用技术]
原文传递
题名
搜索引擎日志短语标注规范
2
作者
舒燕
吕学强
机构
北京信息科技大学中文信息处理中心
出处
《中文信息学报》
CSCD
北大核心
2013年第2期47-51,共5页
基金
国家社会科学基金资助项目(09CYY021)
文摘
语料标注是语料库构建的一项重要的基础性工作。基于搜狗日志,该文借助XML文档的结构化特点,将语料标注转换成节点属性的改写,根据语料的特点,制定了一套服务于搜索引擎用短语词典构建的短语语料标注加工规范及执行原则,并对标注集及加工规范进行了详细描述。利用此规范,已完成145 645条查询词串的标注,而且标注质量很高。
关键词
语料标注
搜狗日志
短
语词
典
加工规范
Keywords
corpus annotation
Sogou logs
phrases dictionary
annotation specification
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
搜索引擎中“N1+N2”型短语查询优化研究
被引量:
5
3
作者
倪廓阔
吕学强
韩艳铧
王涛
机构
北京信息科技大学中文信息处理研究中心
出处
《计算机应用与软件》
CSCD
北大核心
2012年第9期117-121,共5页
基金
国家社会科学基金项目(09CYY021)
文摘
"N1+N2"作为现代汉语中常见的短语形式,亦广泛存在于搜索引擎检索用语中。以日志短语词典为基础,根据搜索日志查询串的语言特点,对包含"N1+N2"型短语的查询串进行改写,其中包括空格分割、引号加注和焦点强调方法,并对查询串粗略分类。实验结果显示:在引号加注的作用下MPA由0.362提高到0.441;导航类查询MRR值从0.64提升到0.719,信息事务类查询MRR值从0.25增加到0.344。从而验证了短语特征能够指导查询结果优化,进而提升搜索引擎性能。
关键词
“N1+N2”
短
语
搜索引擎
日志
短
语词
典
查询优化
Keywords
"N1+N2" phrases, Search engine, Phrase dictionary of query logs ,Query optimisation
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
搜索引擎用短语词典建设
吕学强
苏祺
孙斌
俞士汶
《清华大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2005
6
原文传递
2
搜索引擎日志短语标注规范
舒燕
吕学强
《中文信息学报》
CSCD
北大核心
2013
0
下载PDF
职称材料
3
搜索引擎中“N1+N2”型短语查询优化研究
倪廓阔
吕学强
韩艳铧
王涛
《计算机应用与软件》
CSCD
北大核心
2012
5
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部