-
题名Nutch中庖丁解牛中文分词的实现与评测
被引量:10
- 1
-
-
作者
孙殿哲
魏海平
陈岩
-
机构
辽宁石油化工大学研究生学院
辽宁石油化工大学计算机与通讯工程学院
-
出处
《计算机与现代化》
2010年第6期187-190,共4页
-
文摘
中文分词是搜索引擎面临的主要挑战之一。本文通过分析Nutch文档的评分机制,针对Nutch中文分词模块的分词不符合汉语习惯的情况,提出采用以词典分词法为基础的庖丁解牛分词模块对Nutch要采集的数据进行切分,描述在Nutch上实现庖丁解牛分词模块的方法,并对该分词模块进行测试。实验表明,庖丁解牛分词模块的分词结果更符合汉语习惯,并且在词项对文档的覆盖方面更加均衡,另外索引文件所占的存储空间节省20%~65%。
-
关键词
中文分词
评分机制
庖丁解牛
-
Keywords
Chinese word segmentation
scoring mechanism
Paodingjieniu
-
分类号
TP311.1
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于元搜索的专业搜索引擎的设计
被引量:2
- 2
-
-
作者
陈岩
魏海平
孙殿哲
-
机构
辽宁石油化工大学计算机与通信工程学院
-
出处
《辽宁石油化工大学学报》
CAS
2010年第2期42-45,共4页
-
文摘
专业搜索引擎是一种为用户提供比通用搜索引擎更多、更精准的专业信息的搜索引擎。根据搜索引擎的工作原理,提出了一种基于元搜索的专业搜索引擎的设计框架;详细介绍了信息采集、中文分词、结果处理的实现技术;将神经网络与遗传算法相结合,对元搜索结果进行过滤及排序,进一步提高了专业搜索引擎的查询效率。
-
关键词
专业搜索引擎
元搜索引擎
遗传算法
神经网络
-
Keywords
Professional search engine
Meta search engine
Genetic algorithm
Neural networks
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-