期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
Nutch中庖丁解牛中文分词的实现与评测 被引量:10
1
作者 殿 魏海平 陈岩 《计算机与现代化》 2010年第6期187-190,共4页
中文分词是搜索引擎面临的主要挑战之一。本文通过分析Nutch文档的评分机制,针对Nutch中文分词模块的分词不符合汉语习惯的情况,提出采用以词典分词法为基础的庖丁解牛分词模块对Nutch要采集的数据进行切分,描述在Nutch上实现庖丁解牛... 中文分词是搜索引擎面临的主要挑战之一。本文通过分析Nutch文档的评分机制,针对Nutch中文分词模块的分词不符合汉语习惯的情况,提出采用以词典分词法为基础的庖丁解牛分词模块对Nutch要采集的数据进行切分,描述在Nutch上实现庖丁解牛分词模块的方法,并对该分词模块进行测试。实验表明,庖丁解牛分词模块的分词结果更符合汉语习惯,并且在词项对文档的覆盖方面更加均衡,另外索引文件所占的存储空间节省20%~65%。 展开更多
关键词 中文分词 评分机制 庖丁解牛
下载PDF
基于元搜索的专业搜索引擎的设计 被引量:2
2
作者 陈岩 魏海平 殿 《辽宁石油化工大学学报》 CAS 2010年第2期42-45,共4页
专业搜索引擎是一种为用户提供比通用搜索引擎更多、更精准的专业信息的搜索引擎。根据搜索引擎的工作原理,提出了一种基于元搜索的专业搜索引擎的设计框架;详细介绍了信息采集、中文分词、结果处理的实现技术;将神经网络与遗传算法相结... 专业搜索引擎是一种为用户提供比通用搜索引擎更多、更精准的专业信息的搜索引擎。根据搜索引擎的工作原理,提出了一种基于元搜索的专业搜索引擎的设计框架;详细介绍了信息采集、中文分词、结果处理的实现技术;将神经网络与遗传算法相结合,对元搜索结果进行过滤及排序,进一步提高了专业搜索引擎的查询效率。 展开更多
关键词 专业搜索引擎 元搜索引擎 遗传算法 神经网络
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部