期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
全文检索模型综述 被引量:12
1
作者 申展 江宝林 +2 位作者 陈祎 唐磊 胡运发 《计算机科学》 CSCD 北大核心 2004年第5期61-64,共4页
全文检索的应用导致了信息检索领域的一场革命,是文档数据库研究的核心。全文检索的首要问题是全文检索模型的选择。本文介绍了目前国内外主要的全文拴索模型,总结了全文检索模型的评价标准,按照此标准对各种模型进行了分析比较,并对全... 全文检索的应用导致了信息检索领域的一场革命,是文档数据库研究的核心。全文检索的首要问题是全文检索模型的选择。本文介绍了目前国内外主要的全文拴索模型,总结了全文检索模型的评价标准,按照此标准对各种模型进行了分析比较,并对全文检索模型构建中一些关键问题进行了分析。 展开更多
关键词 信息检索 文档数据库 全文检索模型 倒排表 pat- 互关联后继 位图 署名文件
下载PDF
具有概念联想功能的特定领域分词词典的自动构建 被引量:3
2
作者 张彦 邵志清 《计算机工程》 CAS CSCD 北大核心 2004年第20期148-150,共3页
提出了一种基于PAT树型结构的高频字串提取的改进算法,并以此用来获得特定领域网页中的未登录词集合,利用基于语义距离的概念相似度计算公式来获得任一概念的相关概念,从而给出了用于特定领域搜索引擎的语义词典完整的自动构建方法。将... 提出了一种基于PAT树型结构的高频字串提取的改进算法,并以此用来获得特定领域网页中的未登录词集合,利用基于语义距离的概念相似度计算公式来获得任一概念的相关概念,从而给出了用于特定领域搜索引擎的语义词典完整的自动构建方法。将生成的语义词典用于搜索引擎FlyingSender中。实验结果证明新的词典比原有的手工构建的词典分词效果要理想得多,而且提供了概念联想的功能。 展开更多
关键词 语义词典 未登录词 pat 语义距离
下载PDF
基于HowNet和PAT树的网购评语情感分析 被引量:4
3
作者 李永忠 胡思琪 《图书情报研究》 2016年第3期66-70,65,共6页
在对相关研究情况进行总结与分析的基础上,通过对How Net情感词典进行扩展并利用基于PAT树和统计相结合的分词方法,对从淘宝网站中获取的评论内容进行分析,结果表明,基于How Net和PAT树的情感分析方法对分析网购评论的情感倾向性行之有... 在对相关研究情况进行总结与分析的基础上,通过对How Net情感词典进行扩展并利用基于PAT树和统计相结合的分词方法,对从淘宝网站中获取的评论内容进行分析,结果表明,基于How Net和PAT树的情感分析方法对分析网购评论的情感倾向性行之有效,并以淘宝一女装商家为例进行实证研究,最后指出进一步探索情感倾向性分析的几个方向。 展开更多
关键词 HowNet情感词典 pat 网购评语 情感分析
下载PDF
基于序列数据挖掘的中文网页特征选择方法 被引量:2
4
作者 谷峰 刘晨曦 吴扬扬 《山东大学学报(理学版)》 CAS CSCD 北大核心 2006年第3期97-100,共4页
提出了一种基于序列数据挖掘的中文网页候选特征的选择方法,并用于中文网页分类模型.该方法运用改进的PAT树结构挖掘频繁出现在同一类中文网页中的字符串,通过净频率计算,挖掘出中文网页中频繁出现的有意义的词、短语、英文单词等,并结... 提出了一种基于序列数据挖掘的中文网页候选特征的选择方法,并用于中文网页分类模型.该方法运用改进的PAT树结构挖掘频繁出现在同一类中文网页中的字符串,通过净频率计算,挖掘出中文网页中频繁出现的有意义的词、短语、英文单词等,并结合CHI算法得到文本特征.实验表明,该算法不仅能挖掘出传统方法所选择出的绝大部分特征,还能挖掘出一些有意义的、切词系统词库中没有的、能反映分类特点的人名,地名,新词、常用语、外文单词等. 展开更多
关键词 序列数据挖掘 pat 净频率 频繁字串 中文网页分类
下载PDF
基于双字哈希的PAT树词典机制的研究
5
作者 赵丽 郭宏文 《黑龙江生态工程职业学院学报》 2011年第1期37-39,共3页
分词词典是汉语自动切分系统的重要组成部分,词典机制的优劣影响到分词的精度及切分速度。针对汉语中双字词占较大比例的特点及哈希算法的查询高效性,设计了基于双字哈希的PAT树词典机制,并从理论上分析了其性能。通过实验在分词的准确... 分词词典是汉语自动切分系统的重要组成部分,词典机制的优劣影响到分词的精度及切分速度。针对汉语中双字词占较大比例的特点及哈希算法的查询高效性,设计了基于双字哈希的PAT树词典机制,并从理论上分析了其性能。通过实验在分词的准确率上与逐字二分法进行了比较,同时,与双字哈希机制及改进的PAT树机制在时间效率上也进行了比较。结果证明,基于双字哈希的PAT树词典机制在分词的准确率及分词的时间效率上均有提高,能够满足大规模文本的分词切分工作要求。 展开更多
关键词 分词词典 哈希函数 pat
下载PDF
基于Agent的Web页面结构化信息抽取
6
作者 岳国伟 梁永全 《计算机研究与发展》 EI CSCD 北大核心 2007年第z2期344-349,共6页
结合当前Web站点的数据特点,以信息项在页面中的出现位置为信息抽取的路径,利用PAT树技术,提出了一个多Agent协作的自动信息抽取模型.该模型能够自动分析样本页面数据特征,归纳学习整个站点的数据模式,生成抽取规则,指导以后的抽取动作... 结合当前Web站点的数据特点,以信息项在页面中的出现位置为信息抽取的路径,利用PAT树技术,提出了一个多Agent协作的自动信息抽取模型.该模型能够自动分析样本页面数据特征,归纳学习整个站点的数据模式,生成抽取规则,指导以后的抽取动作.实验结果表明,该模型对Web页面的结构化信息抽取具有较高的效率. 展开更多
关键词 智能体 pat 信息抽取 WEB
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部