本文对于企业中常见多域文档库[1](知识库)在检索使用方面的问题进行了分析,发掘出目前多域文档库的不足与弊端,梳理出日常工作中对于搜索引擎的需求,提出了基于开源软件构建企业级搜索引擎实现跨域问题检索解决多业务域检索问题的实现...本文对于企业中常见多域文档库[1](知识库)在检索使用方面的问题进行了分析,发掘出目前多域文档库的不足与弊端,梳理出日常工作中对于搜索引擎的需求,提出了基于开源软件构建企业级搜索引擎实现跨域问题检索解决多业务域检索问题的实现方案,并在传统的搜索引擎功能上,引入自然语言处理(Natural Language Processing,NLP)技术,建立Word2vec词向量模型,加强查询关键词在索引,查询时候泛化能力,实现更加智能的检索和结果排序,整体项目使用基于Spring Boot框架的MAVEN项目构建,引入Solr提供检索功能,引入Deeplearning4j使用实现词向量化,相关词词库生成,文本相似度计算,分词器采用Han LP分词器1.8.2版本,并基于垂直领域的语料进行重新训练,提高分词的准确性,爬虫引擎使用开源的Crawler4轻量级引擎,实现跨域文本的高效、并行的爬取,项目落地实施后,实现了最初的设计目的,解决了企业的检索问题,实现了准确、智能的检索功能。展开更多
文摘本文对于企业中常见多域文档库[1](知识库)在检索使用方面的问题进行了分析,发掘出目前多域文档库的不足与弊端,梳理出日常工作中对于搜索引擎的需求,提出了基于开源软件构建企业级搜索引擎实现跨域问题检索解决多业务域检索问题的实现方案,并在传统的搜索引擎功能上,引入自然语言处理(Natural Language Processing,NLP)技术,建立Word2vec词向量模型,加强查询关键词在索引,查询时候泛化能力,实现更加智能的检索和结果排序,整体项目使用基于Spring Boot框架的MAVEN项目构建,引入Solr提供检索功能,引入Deeplearning4j使用实现词向量化,相关词词库生成,文本相似度计算,分词器采用Han LP分词器1.8.2版本,并基于垂直领域的语料进行重新训练,提高分词的准确性,爬虫引擎使用开源的Crawler4轻量级引擎,实现跨域文本的高效、并行的爬取,项目落地实施后,实现了最初的设计目的,解决了企业的检索问题,实现了准确、智能的检索功能。