期刊文献+
共找到658篇文章
< 1 2 33 >
每页显示 20 50 100
聚焦爬虫技术研究综述 被引量:156
1
作者 周立柱 林玲 《计算机应用》 CSCD 北大核心 2005年第9期1965-1969,共5页
因特网的迅速发展对万维网信息的查找与发现提出了巨大的挑战。对于大多用户提出的与主题或领域相关的查询需求,传统的通用搜索引擎往往不能提供令人满意的结果网页。为了克服通用搜索引擎的以上不足,提出了面向主题的聚焦爬虫的研究。... 因特网的迅速发展对万维网信息的查找与发现提出了巨大的挑战。对于大多用户提出的与主题或领域相关的查询需求,传统的通用搜索引擎往往不能提供令人满意的结果网页。为了克服通用搜索引擎的以上不足,提出了面向主题的聚焦爬虫的研究。至今,聚焦爬虫已成为有关万维网的研究热点之一。文中对这一热点研究进行综述,给出聚焦爬虫(Focused Crawler)的基本概念,概述其工作原理;并根据研究的发展现状,对聚焦爬虫的关键技术(抓取目标描述,网页分析算法和网页搜索策略等)作系统介绍和深入分析。在此基础上,提出聚焦爬虫今后的一些研究方向,包括面向数据分析和挖掘的爬虫技术研究,主题的描述与定义,相关资源的发现,W eb数据清洗,以及搜索空间的扩展等。 展开更多
关键词 聚焦爬虫 信息检索 链接分析 文本检索 数据抽取 协作抓取 本体描述 元搜索
下载PDF
基于向量空间模型的文本过滤系统 被引量:92
2
作者 黄萱菁 夏迎炬 吴立德 《软件学报》 EI CSCD 北大核心 2003年第3期435-442,共8页
文本过滤是指从大量的文本数据流中寻找满足特定用户需求的文本的过程.首先从任务、测试主题、语料库和评测指标等方面介绍了文本检索领域最权威的国际评测会议——文本检索会议(TREC)及其中的文本过滤项目,然后详细地描述了基于向量空... 文本过滤是指从大量的文本数据流中寻找满足特定用户需求的文本的过程.首先从任务、测试主题、语料库和评测指标等方面介绍了文本检索领域最权威的国际评测会议——文本检索会议(TREC)及其中的文本过滤项目,然后详细地描述了基于向量空间模型的文本过滤系统.该系统由训练和自适应过滤两个阶段组成.在训练阶段,通过特征抽取和伪反馈建立初始的过滤模板,并设置初始阈值;在过滤阶段,则根据用户的反馈信息自适应地调整模板和阈值.该系统参加了2000年举行的第9次文本检索会议的评测,取得了很好的成绩,在来自多个国家的15个系统中名列前茅,其中自适应过滤和批过滤的平均准确率分别为26.5%和31.7%. 展开更多
关键词 向量空间模型 文本过滤系统 机器学习 文本分类
下载PDF
基于区分类别能力的高性能特征选择方法 被引量:83
3
作者 徐燕 李锦涛 +1 位作者 王斌 孙春明 《软件学报》 EI CSCD 北大核心 2008年第1期82-89,共8页
特征选择在文本分类中起着重要作用.文档频率(document frequency,简称DF)、信息增益(informationgain,简称IG)和互信息(mutualin formation,简称MI)等特征选择方法在文本分类中广泛应用.已有的实验结果表明,IG是最有效的特征选择算法之... 特征选择在文本分类中起着重要作用.文档频率(document frequency,简称DF)、信息增益(informationgain,简称IG)和互信息(mutualin formation,简称MI)等特征选择方法在文本分类中广泛应用.已有的实验结果表明,IG是最有效的特征选择算法之一,DF稍差,而MI效果相对较差.在文本分类中,现有的特征选择函数性能的评估均是通过实验验证的方法,即完全是基于经验的方法.特征选择是选择部分最有区分类别能力的特征,为此,给出了两个特征选择函数需满足的基本约束条件,并提出了一种构造高性能特征选择的通用方法.依此方法构造了一个新的特征选择函数KG(knowledge gain).分析发现,IG和KG完全满足该构造方法,在Reuters-21578,OHSUMED和News Group这3个语料集上的实验表明,IG和KG性能最好,在两个语料集上,KG甚至超过了IG.验证了提出的构造高性能特征选择函数方法的有效性,同时也在理论上给出了一个评价高性能特征选择算法的标准. 展开更多
关键词 特征选择 文本分类 信息检索
下载PDF
基于文本聚类与LDA相融合的微博主题检索模型研究 被引量:44
4
作者 唐晓波 房小可 《情报理论与实践》 CSSCI 北大核心 2013年第8期85-90,共6页
伴随着微博的日趋流行,对微博信息的检索逐渐成为人们获取第一消息的手段。其中文本聚类和主题发现是信息检索领域的有效方法,采用适当的方法是影响微博短文本信息检索质量的关键因素。文章针对文本聚类和LDA主题模型的互补特征,综合考... 伴随着微博的日趋流行,对微博信息的检索逐渐成为人们获取第一消息的手段。其中文本聚类和主题发现是信息检索领域的有效方法,采用适当的方法是影响微博短文本信息检索质量的关键因素。文章针对文本聚类和LDA主题模型的互补特征,综合考虑了微博特殊文体和短文本聚类效率问题,提出了基于频繁词集的文本聚类和基于类簇的LDA主题挖掘相融合的微博检索方法,给出了针对微博文体的一种新的主题检索模型。实验表明,该方法不仅能有效地划分微博文本,并且能清晰地挖掘类簇中潜在主题。 展开更多
关键词 文本聚类 主题检索 微博
原文传递
基于概念空间的文本检索系统 被引量:18
5
作者 郑毅 吴斌 史忠植 《计算机工程与应用》 CSCD 北大核心 2002年第12期67-69,190,共4页
当前信息检索存在着信息过载和词汇不匹配的问题。文章提出了一种新的检索方式缓解这两个问题。这种检索方法在文本聚类的基础上,基于概念空间并与传统的关键词检索相结合能够帮助用户快速、准确地定位所需要查找的信息。文章将对这种... 当前信息检索存在着信息过载和词汇不匹配的问题。文章提出了一种新的检索方式缓解这两个问题。这种检索方法在文本聚类的基础上,基于概念空间并与传统的关键词检索相结合能够帮助用户快速、准确地定位所需要查找的信息。文章将对这种检索方式进行介绍,并且着重介绍利用共现分析以及Hopfield网络生成概念空间。 展开更多
关键词 概念空间 文本检索系统 文本分析 HOPFIELD网络 INTERNET
下载PDF
面向文本检索的语义计算 被引量:28
6
作者 赵军 金千里 徐波 《计算机学报》 EI CSCD 北大核心 2005年第12期2068-2078,共11页
随着信息社会尤其是互联网的发展,人们对文本检索的要求越来越高.作为对传统关键词匹配技术的改进,智能检索研究已经成为热点,并将是支撑下一代互联网的核心技术之一.将语义计算技术应用于文本检索,是智能检索的重要方向.文中在文本检... 随着信息社会尤其是互联网的发展,人们对文本检索的要求越来越高.作为对传统关键词匹配技术的改进,智能检索研究已经成为热点,并将是支撑下一代互联网的核心技术之一.将语义计算技术应用于文本检索,是智能检索的重要方向.文中在文本检索的两个关键技术(“标引”和“相似度计算”)中引入语义计算技术,用浅层语义来指导检索过程,提高检索准确率.针对“标引”技术,提出了语义树模型;针对“相似度计算”,基于语义张量的概念,结合自然语言处理的一些技术,提出三个可计算的窗口模型来近似语义张量的核心思想.以上工作在一定程度上实现了语义计算的功能.利用TREC数据集进行的评测表明,采用了语义计算技术后,文本检索的准确率可以提高10%左右. 展开更多
关键词 文本检索 自然语言处理 语义计算 语义树 语义张量 TREC评测
下载PDF
文本分类中特征选择的约束研究 被引量:26
7
作者 徐燕 李锦涛 +2 位作者 王斌 孙春明 张森 《计算机研究与发展》 EI CSCD 北大核心 2008年第4期596-602,共7页
特征选择在文本分类中起重要的作用.文档频率(DF)、信息增益(IG)和互信息(MI)等特征选择方法在文本分类中广泛应用.已有的实验结果表明,IG是最有效的特征选择算法之一,DF稍差而MI效果相对较差.在文本分类中,现有的特征选择函数性能的评... 特征选择在文本分类中起重要的作用.文档频率(DF)、信息增益(IG)和互信息(MI)等特征选择方法在文本分类中广泛应用.已有的实验结果表明,IG是最有效的特征选择算法之一,DF稍差而MI效果相对较差.在文本分类中,现有的特征选择函数性能的评估均是通过实验验证的方法,即完全是基于经验的方法,为此提出了一种定性地评估特征选择函数性能的方法,并且定义了一组与分类信息相关的基本的约束条件.分析和实验表明,IG完全满足该约束条件,DF不能完全满足,MI和该约束相冲突,即一个特征选择算法的性能在实验中的表现与它是否满足这些约束条件是紧密相关的. 展开更多
关键词 特征选择 文本分类 信息检索 信息增益 互信息
下载PDF
基于向量空间模型的文档分类系统 被引量:24
8
作者 黄萱菁 吴立德 《模式识别与人工智能》 EI CSCD 北大核心 1998年第2期147-153,共7页
本文介绍了一个建立在向量空间模型上的文档分类系统.该系统着重解决向量维数压缩和中文专有词汇获取等问题.在特征项的选取上,我们并不采用文档中出现的全部词汇,而是利用语料库统计信息生成的关键词汇.实验结果表明,较之以采用全体词... 本文介绍了一个建立在向量空间模型上的文档分类系统.该系统着重解决向量维数压缩和中文专有词汇获取等问题.在特征项的选取上,我们并不采用文档中出现的全部词汇,而是利用语料库统计信息生成的关键词汇.实验结果表明,较之以采用全体词汇作为特征项进行分类的方法,本方法能有效地进行向量维数压缩,同时也提高了分类准确率. 展开更多
关键词 向量空间模型 文档分类系统 中文信息处理
原文传递
基于改进的Jaccard系数文档相似度计算方法 被引量:31
9
作者 俞婷婷 徐彭娜 +1 位作者 江育娥 林劼 《计算机系统应用》 2017年第12期137-142,共6页
文本相似度主要应用于学术论文查重检测、搜索引擎去重等领域,而传统的文本相似度计算方法中的特征项提取与分词环节过于冗杂,而且元素的随机挑选也会产生权重的不确定性.为了解决传统方法的不足,提出一种基于改进的Jaccard系数确定文... 文本相似度主要应用于学术论文查重检测、搜索引擎去重等领域,而传统的文本相似度计算方法中的特征项提取与分词环节过于冗杂,而且元素的随机挑选也会产生权重的不确定性.为了解决传统方法的不足,提出一种基于改进的Jaccard系数确定文档相似度的方法,该算法综合考虑了各元素、样本在文档中的权重及其对多个文档相似度的贡献程度.实验结果表明,基于改进的Jaccard系数的文档相似度算法具有实效性并且能够得到较高的准确率,适用于各种长度的中英文文档,有效地解决现有技术中存在的文档间相似度计算不精的问题. 展开更多
关键词 文本相似度 Jaccard系数 文本分析 文本查重 文本检索
下载PDF
基于向量空间模型的文本检索系统 被引量:18
10
作者 王晓黎 王文杰 《微电子学与计算机》 CSCD 北大核心 2006年第6期188-190,共3页
文章介绍了向量空间模型的基本原理,分析了文本检索系统常用的性能评估标准。基于向量空间模型、自动术语提取、相关性排序等技术实现了一个高效的文本检索系统,阐述了系统的架构。实际运行状况表明,该系统能够满足中小企业的网站站内... 文章介绍了向量空间模型的基本原理,分析了文本检索系统常用的性能评估标准。基于向量空间模型、自动术语提取、相关性排序等技术实现了一个高效的文本检索系统,阐述了系统的架构。实际运行状况表明,该系统能够满足中小企业的网站站内搜索的需求,提高网站的访问效率。 展开更多
关键词 向量空间模型 VSM 文本检索 信息获取
下载PDF
基于本体的文本信息检索研究 被引量:21
11
作者 杨建林 《情报理论与实践》 CSSCI 北大核心 2006年第5期598-601,共4页
本文对如何构建基于本体的文本信息检索系统进行了探讨,并认为,利用反映概念之间关系的领域本体指导主题标引,利用反映实体之间关系的领域本体指导实体关系标引,并以本体的形式表示文档替代物和查询表达式,可以进一步提高文本信息检索... 本文对如何构建基于本体的文本信息检索系统进行了探讨,并认为,利用反映概念之间关系的领域本体指导主题标引,利用反映实体之间关系的领域本体指导实体关系标引,并以本体的形式表示文档替代物和查询表达式,可以进一步提高文本信息检索系统的性能。 展开更多
关键词 本体 信息检索 文本检索 标引
下载PDF
一种基于k最近邻的快速文本分类方法 被引量:15
12
作者 张庆国 张宏伟 张君玉 《中国科学院研究生院学报》 CAS CSCD 2005年第5期554-559,共6页
k最近邻方法是一种简单而有效的文本分类方法,但是传统的k最近邻分类方法在训练集数据量很大情况下,全局的最优搜索几乎是不可能的.因此,加速k个最近邻的搜索是k最近邻方法实用的关键.提出了一种基于k最近邻的快速文本分类方法,它能够... k最近邻方法是一种简单而有效的文本分类方法,但是传统的k最近邻分类方法在训练集数据量很大情况下,全局的最优搜索几乎是不可能的.因此,加速k个最近邻的搜索是k最近邻方法实用的关键.提出了一种基于k最近邻的快速文本分类方法,它能够保证在海量数据集中进行快速有效的分类.实验结果表明,这一方法较传统方法性能有显著提升. 展开更多
关键词 文本分类 k最近邻 多维索引 相似检索
下载PDF
基于内容的医学图像检索 被引量:10
13
作者 郭彦铮 岳建华 《医疗设备信息》 2006年第1期34-36,45,共4页
首先介绍了文本检索的在医学使用中存在的弊端,引出了基于内容的医学图像检索概念,分析了医学图像的特征,讨论了特征提取方法。接着,提出了基于内容的医学图像检索在实际应用中所面临的问题,分析了基于内容的医学图像检索国内外的研究... 首先介绍了文本检索的在医学使用中存在的弊端,引出了基于内容的医学图像检索概念,分析了医学图像的特征,讨论了特征提取方法。接着,提出了基于内容的医学图像检索在实际应用中所面临的问题,分析了基于内容的医学图像检索国内外的研究现状。最后,对未来的发展方向做了展望。 展开更多
关键词 文本检索 基于内容的图像检索 特征提取
下载PDF
视频中的文字探测 被引量:13
14
作者 王辰 老松杨 胡晓峰 《小型微型计算机系统》 CSCD 北大核心 2002年第4期478-481,共4页
视频中出现的文字往往包含大量的信息 ,是视频分析的重要语义线索 ,探测并识别出来的文字可以为基于内容的视频检索提供索引 .本文简要介绍了目前现有的一些文字探测的方法 ,结合视频中出现的文字的特点 ,提出了一种较为高效的视频文字... 视频中出现的文字往往包含大量的信息 ,是视频分析的重要语义线索 ,探测并识别出来的文字可以为基于内容的视频检索提供索引 .本文简要介绍了目前现有的一些文字探测的方法 ,结合视频中出现的文字的特点 ,提出了一种较为高效的视频文字探测方法 ,该方法在一般图像质量的条件下对中、英文文字都有较好的探测效果 . 展开更多
关键词 文字探测 视频分析 边缘检测 图像处理 视频检索
下载PDF
文本信息检索技术 被引量:4
15
作者 李广原 陈丹 《广西科学院学报》 2001年第2期57-60,共4页
论述 3种常用的文本信息检索技术 ,即布尔检索、向量空间检索和概率检索 ,对它们的优缺点进行评价 。
关键词 信息检索 文本信息 检索技术
下载PDF
基于Lucene的中文文本分词 被引量:11
16
作者 王继明 杨国林 《内蒙古工业大学学报(自然科学版)》 2007年第3期185-188,共4页
中文文本分词技术是文本挖掘领域的一个重要分支,在中国仍然处于发展阶段.Apache Jakarta的开源工程Lucene是一个十分优秀的基于Java语言的文本检索工具包,在国外已经得到广泛的应用.但是Lucene对中文分词功能的支持不太理想,给Lucene... 中文文本分词技术是文本挖掘领域的一个重要分支,在中国仍然处于发展阶段.Apache Jakarta的开源工程Lucene是一个十分优秀的基于Java语言的文本检索工具包,在国外已经得到广泛的应用.但是Lucene对中文分词功能的支持不太理想,给Lucene加入好的中文分词功能对Lucene在国内的发展和应用将会起到很大的推动作用. 展开更多
关键词 中文文本分词 文本检索 LUCENE
下载PDF
海量数据下的文本信息检索算法仿真分析 被引量:16
17
作者 王莉军 《计算机仿真》 CSCD 北大核心 2016年第4期429-432,共4页
在海量数据下对文本信息进行准确检索,能够帮助人们获取新知识,提高工作效率。传统的检索方法不能对海量数据下文本信息特征的变化造成的影响做出反应,从而降低了文本信息检索的准确性。提出一种基于特征聚类的文本信息检索方法。对文... 在海量数据下对文本信息进行准确检索,能够帮助人们获取新知识,提高工作效率。传统的检索方法不能对海量数据下文本信息特征的变化造成的影响做出反应,从而降低了文本信息检索的准确性。提出一种基于特征聚类的文本信息检索方法。对文本信息进行降维处理,保留主要的文本信息特征,消除冗余数据带来的影响;在文本信息检索的过程中,按照特征相似度对文本信息的特征进行聚类,确定文本信息检索的目标函数,并利用约束条件进行约束,在检索的过程中自适应调整文本信息特征的聚类中心和特征的权值,最终实现了文本信息的准确检索。仿真结果表明,改进算法能够提高海量数据下文本信息检索的准确率和效率。 展开更多
关键词 海量数据 文本信息 检索
下载PDF
基于Lucene的语义检索系统 被引量:12
18
作者 郑廷 郑诚 《计算机工程》 CAS CSCD 北大核心 2008年第16期92-94,共3页
在一种基于LUCENE的传统文本检索引擎之上,采用C/S架构模式的语义检索实验系统。用户可以根据需要,从客户端向服务器提交相应的查询信息配置,服务器根据此配置,通过本体导航与同义词查询2种查询扩展优化技术,对提交的查询关键词组进行... 在一种基于LUCENE的传统文本检索引擎之上,采用C/S架构模式的语义检索实验系统。用户可以根据需要,从客户端向服务器提交相应的查询信息配置,服务器根据此配置,通过本体导航与同义词查询2种查询扩展优化技术,对提交的查询关键词组进行查询、扩展等优化处理后,将经优化处理过的查询关键词组导入传统的文本检索引擎中,对文档资源进行匹配,将查询结果根据用户要求的排列,并依次返回给用户。通过用户与服务器的信息交互与对查询语句的查询扩展,该系统提高了查准率与查全率。 展开更多
关键词 文本检索 本体 同义词 查询扩展 C/S架构 语义
下载PDF
一种基于源网页质量的锚文本相似度计算方法——LAAT 被引量:11
19
作者 陆一鸣 胡健 马范援 《情报学报》 CSSCI 北大核心 2005年第5期548-554,共7页
锚文本作为对目标网页的描述,往往分布在不同的源网页上,质量也参差不齐.本文利用了超链接分析算法的成果,提出一种基于源网页质量的锚文本相似度计算方法--LAAT(Link Aid Anchor Text).实验表明,利用源网页质量能够有效地综合各源网页... 锚文本作为对目标网页的描述,往往分布在不同的源网页上,质量也参差不齐.本文利用了超链接分析算法的成果,提出一种基于源网页质量的锚文本相似度计算方法--LAAT(Link Aid Anchor Text).实验表明,利用源网页质量能够有效地综合各源网页上的锚文本组成,从而能够提高检索性能. 展开更多
关键词 锚文本 目标网页 LAAT 信息检索 超链接分析 内容相关性 源网页 计算方法
下载PDF
基于语义计算的查询扩展优化研究 被引量:10
20
作者 桑艳艳 刘培刚 李勇 《情报学报》 CSSCI 北大核心 2007年第5期704-710,共7页
查询扩展技术是指在原有查询的基础上加入与用户输入的检索用词相关联的新词,组成新的更长、更准确的查询,用于弥补用户查询信息不足的缺陷.为了提高文本检索的效率,纳入网络检索环境下的用户个人偏好,在查询扩展技术中引入语义计算是... 查询扩展技术是指在原有查询的基础上加入与用户输入的检索用词相关联的新词,组成新的更长、更准确的查询,用于弥补用户查询信息不足的缺陷.为了提高文本检索的效率,纳入网络检索环境下的用户个人偏好,在查询扩展技术中引入语义计算是一个重要研究方向.文章从语义计算的角度提出了基于语义关联树的查询扩展算法,通过动态生成语义关联树,有效降低词相似度矩阵计算工作量.通过控制语义关联树的层次结构及复杂度,灵活高效的生成不同语义空间模型.实验证明,该算法能有效提高文本检索的准确率. 展开更多
关键词 语义计算 查询扩展 语义关联树 文本检索
下载PDF
上一页 1 2 33 下一页 到第
使用帮助 返回顶部