期刊文献+
共找到46篇文章
< 1 2 3 >
每页显示 20 50 100
PCCS部分聚类分类:一种快速的Web文档聚类方法 被引量:23
1
作者 王爱华 张铭 +1 位作者 杨冬青 唐世渭 《计算机研究与发展》 EI CSCD 北大核心 2001年第4期415-421,共7页
PCCS是为了帮助 Web用户从搜索引擎所返回的大量文档片断中筛选出自己所需要的文档 ,而使用的一种对 Web文档进行快速聚类的部分聚类方法 :首先对一部分文档进行聚类 ,然后根据聚类结果形成分类模型对其余的文档进行分类 .采用交互式的... PCCS是为了帮助 Web用户从搜索引擎所返回的大量文档片断中筛选出自己所需要的文档 ,而使用的一种对 Web文档进行快速聚类的部分聚类方法 :首先对一部分文档进行聚类 ,然后根据聚类结果形成分类模型对其余的文档进行分类 .采用交互式的一次改进一个聚类摘选的聚类方法快速地创建一个聚类摘选集 ,将其余的文档使用 Nal¨ve- Bayes分类器进行划分 .为了提高聚类与分类的效率 ,提出了一种混合特征选取方法以减少文档表示的维数 :重新计算文档中各特征的熵 ,从中选取具有最大熵值的前若干个特征 ;或者基于持久分类模型中的特征集来进行特征选取 .实验证明 ,部分聚类方法能够快速、准确地根据文档主题内容组织 Web文档 ,使用户在更高的主题层次上来查看搜索引擎返回的结果 。 展开更多
关键词 聚类 分类 特征选取 文档相似性 PCCS WEB文档 信息检索
下载PDF
基于语义分析的作者身份识别方法研究 被引量:25
2
作者 武晓春 黄萱菁 吴立德 《中文信息学报》 CSCD 北大核心 2006年第6期61-68,共8页
作者身份识别是一项应用广泛的研究,身份识别的关键问题是从作品中提取出代表语体风格的识别特征,并根据这些风格特征,评估作品与作品之间的风格相似度。传统的身份识别方法,主要考察作者遣词造句、段落组织等各种代表文体风格的特征,... 作者身份识别是一项应用广泛的研究,身份识别的关键问题是从作品中提取出代表语体风格的识别特征,并根据这些风格特征,评估作品与作品之间的风格相似度。传统的身份识别方法,主要考察作者遣词造句、段落组织等各种代表文体风格的特征,其中基于标点符号和最常见功能词频数的分析方法受到较为普遍的认同。本文依据文体学理论,利用HowNet知识库,提出一种新的基于词汇语义分析的相似度评估方法,有效利用了功能词以外的其他词汇,达到了较好的身份识别性能。 展开更多
关键词 计算机应用 中文信息处理 身份识别 语义分析 文档相似度
下载PDF
一种基于词共现的文档聚类算法 被引量:15
3
作者 常鹏 冯楠 马辉 《计算机工程》 CAS CSCD 2012年第2期213-214,220,共3页
为解决文本主题表达存在的信息缺失问题,提出一种基于词共现的文档聚类算法。利用文档集上的频繁共现词建立文档主题向量表示模型,将其应用于层次聚类算法中,并通过聚类熵寻找最优的层次划分,从而准确反映文档之间的主题相关关系。实验... 为解决文本主题表达存在的信息缺失问题,提出一种基于词共现的文档聚类算法。利用文档集上的频繁共现词建立文档主题向量表示模型,将其应用于层次聚类算法中,并通过聚类熵寻找最优的层次划分,从而准确反映文档之间的主题相关关系。实验结果表明,该算法所获得的结果优于其他基于短语的文档层次聚类算法。 展开更多
关键词 文档聚类 文档模型 词共现 文档相似度 聚类增益
下载PDF
基于领域本体的智能检索模型 被引量:11
4
作者 贾雪峰 王建新 +1 位作者 齐建东 朱礼军 《计算机工程》 CAS CSCD 北大核心 2010年第23期171-173,176,共4页
在传统检索模型的基础上,结合本体概念,提出一种基于领域本体的检索模型。该模型利用本体中语义概念关系及语义扩展机制对查询关键词进行概念映射及扩展,通过计算文档相似度返回检索结果,提高检索的查准率和查全率。
关键词 信息检索 本体 概念树 智能检索 文档相似度
下载PDF
基于概念网络的短文本分类方法 被引量:9
5
作者 林小俊 张猛 +2 位作者 暴筱 李军 吴玺宏 《计算机工程》 CAS CSCD 北大核心 2010年第21期4-6,共3页
针对档案领域的短文本分类,设计一种基于概念网络的自动分类方法。通过分析领域内短文本的语言特点构建领域本体,利用自然语言处理技术将短文本转化为资源描述框架表示的结构化概念网络,在此基础上定义概念网络间的语义相似度,从而实现... 针对档案领域的短文本分类,设计一种基于概念网络的自动分类方法。通过分析领域内短文本的语言特点构建领域本体,利用自然语言处理技术将短文本转化为资源描述框架表示的结构化概念网络,在此基础上定义概念网络间的语义相似度,从而实现档案的自动分类。实验结果表明,相比传统基于特征选择的短文本分类方法,该方法的分类错误率下降了24.2%,可有效改善系统性能。 展开更多
关键词 短文本分类 概念网络 文档相似度 领域本体
下载PDF
概念与文档的语义相似度计算 被引量:7
6
作者 宋玲 郭家义 +2 位作者 张冬梅 汤晓兵 高楠 《计算机工程与应用》 CSCD 北大核心 2008年第35期163-167,共5页
将本体作为背景知识引入到概念之间相似度和文档之间相似度的计算中。通过图模型表示本体中概念以及概念之间的语义关系,用来将一个概念和一个文档扩展为一个语义模糊集,并计算模糊集合之间的相似度。文档相似度的计算是在概念相似度计... 将本体作为背景知识引入到概念之间相似度和文档之间相似度的计算中。通过图模型表示本体中概念以及概念之间的语义关系,用来将一个概念和一个文档扩展为一个语义模糊集,并计算模糊集合之间的相似度。文档相似度的计算是在概念相似度计算的基础之上。在概念相似度的计算过程中引入了语义相似度矩阵以及基于共信息理论的模糊相似度方法。 展开更多
关键词 概念相似度 文档相似度 本体 文档聚类
下载PDF
基于文本和公式的科技文档相似度计算 被引量:8
7
作者 徐建民 许彩云 《数据分析与知识发现》 CSSCI CSCD 北大核心 2018年第10期103-109,共7页
【目的】针对仅利用文本信息计算科技文档相似度存在的不足,提出一种结合文本和公式信息计算科技文档相似度的方法。【方法】将单个公式的特征元素映射为位置向量,计算得到单个公式的相似度;计算文档间的公式覆盖度和相似度;结合文本和... 【目的】针对仅利用文本信息计算科技文档相似度存在的不足,提出一种结合文本和公式信息计算科技文档相似度的方法。【方法】将单个公式的特征元素映射为位置向量,计算得到单个公式的相似度;计算文档间的公式覆盖度和相似度;结合文本和公式信息计算得到科技文档相似度。【结果】比较本文方法和传统向量空间方法的分类性能,结果显示本文方法在宏平均F值上最大可提高6.7%。【局限】没有包含文档公式信息的公开测试集,自行构建的数据集规模较小。【结论】结合公式信息计算文档相似度,不仅能有效提高文档相似度计算的准确性,而且可以实现跨语言文档的相似度计算。 展开更多
关键词 公式相似度 文档相似度 覆盖度 科技文档
原文传递
基于词共现的文档表示模型 被引量:8
8
作者 常鹏 冯楠 《中文信息学报》 CSCD 北大核心 2012年第1期51-57,共7页
文档表示模型是文本自动处理的基础,是将非结构化的文本数据转化为结构化数据的有效手段。然而,目前通用的空间向量模型(Vector Space Model,VSM)是以单个的词汇为基础的文档表示模型,因其忽略了词间的关联关系,导致文本挖掘的准确率难... 文档表示模型是文本自动处理的基础,是将非结构化的文本数据转化为结构化数据的有效手段。然而,目前通用的空间向量模型(Vector Space Model,VSM)是以单个的词汇为基础的文档表示模型,因其忽略了词间的关联关系,导致文本挖掘的准确率难以得到很大的提升。该文以词共现分析为基础,讨论了文档主题与词的二阶关系之间的潜在联系,进而定义了词共现度及与文档主题相关度的量化计算方法,利用关联规则算法抽取出文档集上的词共现组合,提出了基于词共现组合的文档向量主题表示模型(Co-occurrence Term based Vector SpaceModel,CTVSM),定义了基于CTVSM的文档相似度。实验表明,CTVSM能够准确反映文档之间的相关关系,比经典的文档向量空间模型(Vector Space Model,VSM)具有更强的主题区分能力。 展开更多
关键词 文档建模 词共现 文档相似度 文本挖掘
下载PDF
基于文档标引图模型的文本相似度策略 被引量:4
9
作者 高茂庭 王正欧 《计算机工程》 CAS CSCD 北大核心 2008年第7期19-22,共4页
文档标引图是一种基于短语的图结构文本特征表示模型,能更加全面、准确地表达文本特征信息,实现渐增的文本聚类和信息处理。该文基于文档标引图特征模型,提出文档相似度计算加法策略和乘法策略,采用变换函数对文档相似度值进行调整,增... 文档标引图是一种基于短语的图结构文本特征表示模型,能更加全面、准确地表达文本特征信息,实现渐增的文本聚类和信息处理。该文基于文档标引图特征模型,提出文档相似度计算加法策略和乘法策略,采用变换函数对文档相似度值进行调整,增强文档之间的可区分性,改进文本聚类和分类等处理的性能,实例证明了策略的有效性。 展开更多
关键词 文本聚类 文档标引图 文本相似度 文本特征模型
下载PDF
跨语言相似文档检索 被引量:4
10
作者 王洪俊 施水才 +1 位作者 俞士汶 肖诗斌 《中文信息学报》 CSCD 北大核心 2007年第1期30-37,共8页
检索一篇文档在其他语言中的译文对于双语平行语料库的建立是一件很有意义的工作。本文提出一种改进的跨语言相似文档检索算法,该算法使用双语词典或统计翻译模型作为双语知识库,查找两篇文档的共同翻译词对,把翻译词对的权重作为一种... 检索一篇文档在其他语言中的译文对于双语平行语料库的建立是一件很有意义的工作。本文提出一种改进的跨语言相似文档检索算法,该算法使用双语词典或统计翻译模型作为双语知识库,查找两篇文档的共同翻译词对,把翻译词对的权重作为一种特征来进行相似度计算,用Dice方法的改进算法计算双语文档的相似度。在实验中,统计检索文档的译文排在检索结果前N位的总次数来评价算法的性能,并使用了两个噪音数据集来评价算法的有效性。实验表明,在噪音数据干扰比较大的情况下,译文排在检索结果前5位的译文结果接近90%。实验证明,翻译词对的权重对于相似度计算有很大帮助,本算法可以有效地发现一种语言书写的文档在另一种语言中的译稿。 展开更多
关键词 计算机应用 中文信息处理 跨语言相似文档检索 文档相似度 双语文档对齐
下载PDF
基于文档关系改进的向量空间模型 被引量:5
11
作者 何丹丹 吴树芳 徐建民 《河北大学学报(自然科学版)》 CAS 北大核心 2020年第3期322-327,共6页
由于用户查询信息不足而导致传统向量空间模型检索结果不够准确,针对此问题,提出了一种基于文档关系改进的向量空间模型.改进模型将初始检索结果中排名靠前的高相关文档组成基准集,通过计算初始检索结果集中每篇文档与基准集的相似度,... 由于用户查询信息不足而导致传统向量空间模型检索结果不够准确,针对此问题,提出了一种基于文档关系改进的向量空间模型.改进模型将初始检索结果中排名靠前的高相关文档组成基准集,通过计算初始检索结果集中每篇文档与基准集的相似度,来修正原模型中文档与查询的相似度,实现对检索结果的重排序,从而实现对向量空间模型的改进.实验结果表明:与传统向量空间模型相比,改进模型使得相关文档排名更合理,在保证召回率的条件下提高了准确率. 展开更多
关键词 文档关系 向量空间模型 文档相似度 信息检索
下载PDF
基于文档发散度的作文跑题检测 被引量:5
12
作者 陈志鹏 陈文亮 《中文信息学报》 CSCD 北大核心 2017年第1期23-30,共8页
作文跑题检测是作文自动评分系统的重要模块。传统的作文跑题检测一般计算文章内容相关性作为得分,并将其与某一固定阈值进行对比,从而判断文章是否跑题。但是实际上文章得分高低与题目有直接关系,发散性题目和非发散性题目的文章得分... 作文跑题检测是作文自动评分系统的重要模块。传统的作文跑题检测一般计算文章内容相关性作为得分,并将其与某一固定阈值进行对比,从而判断文章是否跑题。但是实际上文章得分高低与题目有直接关系,发散性题目和非发散性题目的文章得分有明显差异,所以很难用一个固定阈值来判断所有文章。该文提出一种作文跑题检测方法,基于文档发散度的作文跑题检测方法。该方法的创新之处在于研究文章集合发散度的概念,建立发散度与跑题阈值的关系模型,对于不同的题目动态选取不同的跑题阈值。该文构建了一套跑题检测系统,并在一个真实的数据集中进行测试。实验结果表明基于文档发散度的作文跑题检测系统能有效识别跑题作文。 展开更多
关键词 跑题检测 文档发散度 文本相似度
下载PDF
基于混合语言模型的文档相似性计算模型 被引量:2
13
作者 李晓光 于戈 王大玲 《中文信息学报》 CSCD 北大核心 2006年第4期41-48,共8页
为了克服现有文档相似性模型对文档特性拟合的不完全性和缺乏理论根据的弱点,本文在统计语言模型的基础上,提出了一种基于混合语言模型(M ixture Language Model,MLM)文档相似性计算模型。MLM利用统计语言模型描述文档特征,将相关影响... 为了克服现有文档相似性模型对文档特性拟合的不完全性和缺乏理论根据的弱点,本文在统计语言模型的基础上,提出了一种基于混合语言模型(M ixture Language Model,MLM)文档相似性计算模型。MLM利用统计语言模型描述文档特征,将相关影响因素作为模型的潜在子模型,文档语言模型由各子模型混合构成,从而准确和全面地反映文档特征。由于MLM根据具体应用确定相关影响因素,并以此构建相应文档描述模型,因此具有很强的灵活性和扩展性。在MLM的基础上,本文给出了一个基于文档主题内容相似性的实例,在TREC9数据集上的实验表明MLM优于向量空间模型(VSM)。 展开更多
关键词 人工智能 自然语言处理 文档相似性 统计语言模型 混合模型 EM算法
下载PDF
基于主题的文档检索模型 被引量:4
14
作者 贾西平 彭宏 +2 位作者 郑启伦 石时需 江焯林 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2008年第9期37-42,共6页
现有文档检索模型大多缺乏语义学习能力,难以从主题层次上学习文档相似性.为此,文中提出了一种基于主题的文档检索模型TDRM.TDRM为所有文档建立公共主题空间,把每篇文档表示为公共主题空间中的一个向量,用向量夹角余弦定义文档相似度,... 现有文档检索模型大多缺乏语义学习能力,难以从主题层次上学习文档相似性.为此,文中提出了一种基于主题的文档检索模型TDRM.TDRM为所有文档建立公共主题空间,把每篇文档表示为公共主题空间中的一个向量,用向量夹角余弦定义文档相似度,并利用Latent Dirichlet Allocation学习每篇文档的主题分布.实验结果表明,与基于TextTiling和二分图最佳匹配的文档相似模型相比,TDRM在相似文档检索方面有更高的平均查准率和平均查全率,且平均查准率和平均查全率的调和平均数约高出参考模型44%. 展开更多
关键词 主题 文档相似性 文档检索 信息检索 数据挖掘
下载PDF
基于Q/A与文档库的智能课程答疑系统 被引量:3
15
作者 叶忠杰 陈庆章 《计算机工程与设计》 CSCD 北大核心 2008年第10期2692-2694,共3页
评价智能答疑系统优劣的重要指标是准确率和召回率。系统结合Q/A库和文档库搜索技术的优势实现,利用成熟的Q/A技术回答常见问题,保证了系统的准确率和高效率。利用智能文档搜索技术解答非常见问题,提高了系统的召回率,又因为事先对文档... 评价智能答疑系统优劣的重要指标是准确率和召回率。系统结合Q/A库和文档库搜索技术的优势实现,利用成熟的Q/A技术回答常见问题,保证了系统的准确率和高效率。利用智能文档搜索技术解答非常见问题,提高了系统的召回率,又因为事先对文档作了预处理,使搜索效率明显提高。同时系统基于课程开发,关键词的词汇量少而精确,使得语义理解的处理得以简化。 展开更多
关键词 智能答疑 召回率 向量空间模型 文档预处理 文档相似度
下载PDF
基于文档关系的扩展信念网络检索模型 被引量:3
16
作者 徐建民 何丹丹 吴树芳 《情报学报》 CSSCI CSCD 北大核心 2019年第11期1160-1165,共6页
合理利用文档关系可以提高模型的检索性能。针对基本信念网络检索模型未考虑文档关系的不足,通过在基本模型上增加一层文档节点,提出一种具有两层文档节点的扩展信念网络检索模型,给出了模型的拓扑结构和概率推导。在拓扑结构中,术语与... 合理利用文档关系可以提高模型的检索性能。针对基本信念网络检索模型未考虑文档关系的不足,通过在基本模型上增加一层文档节点,提出一种具有两层文档节点的扩展信念网络检索模型,给出了模型的拓扑结构和概率推导。在拓扑结构中,术语与查询的关系、术语与文档的关系和两层文档之间的关系都用弧来表示,其中文档关系依据文档相似度确定。在概率推导中,利用文档相似度及文档节点的父文档个数对原模型的概率推导做出修正,使得检索概率更为准确。实验采用折损累积增益值和查准率-查全率曲线来评价扩展模型的性能,结果表明,扩展模型使得相关文档排名更合理,并且在保证查全率的条件下提高了查准率。 展开更多
关键词 信念网络 文档关系 检索模型 文档相似度
下载PDF
基于语义指纹的海量文本快速相似检测算法研究 被引量:3
17
作者 姜雪 万正景 +1 位作者 梁燕 陶以政 《电脑知识与技术》 2016年第12X期175-177,共3页
相似检测算法在海量文本信息处理中具有广泛的应用,尤其是Simhash算法因其指纹局部敏感特性、检测效率高在文本查重、网页检测等大规模数据处理中都十分常见。针对传统Simhash算法无法支持近义词、多义词等自然语言处理上的语义问题,通... 相似检测算法在海量文本信息处理中具有广泛的应用,尤其是Simhash算法因其指纹局部敏感特性、检测效率高在文本查重、网页检测等大规模数据处理中都十分常见。针对传统Simhash算法无法支持近义词、多义词等自然语言处理上的语义问题,通过对现有同义词扩展方案的研究,提出基于语义指纹的相似检测算法。在Simhash算法基础上,融入同义词扩展编码信息,生成文本语义指纹进行匹配检测,以提高文本相似度检测性能。另外,根据文本语义指纹建立多层分段索引,实现在海量文本信息中快速匹配出相似文档。通过与传统的Simhash算法进行实验对比,体现出该方法在准确率、效率等方面的优势。 展开更多
关键词 文本相似 语义指纹 Simhash 同义词扩展 互信息
下载PDF
一种基于EMD的文档语义相似性度量 被引量:3
18
作者 王晓东 郭雷 +1 位作者 方俊 董淑福 《电子与信息学报》 EI CSCD 北大核心 2008年第9期2156-2161,共6页
针对基于EMD(Earth Mover's Distance)的文档语义相似性算法不满足度量公理因而难以在信息检索与数据挖掘中推广应用的问题,该文提出了一种新的基于EMD的文档语义相似性度量——..Mdss_EMD(Metric for document semantic similarity... 针对基于EMD(Earth Mover's Distance)的文档语义相似性算法不满足度量公理因而难以在信息检索与数据挖掘中推广应用的问题,该文提出了一种新的基于EMD的文档语义相似性度量——..Mdss_EMD(Metric for document semantic similarity based EMD)。首先在分析EMD及现有改进方法缺陷的基础上,给出了文档宽度、虚拟项的概念;随后通过增加虚拟项来对齐文档矢量的总权值,使所有度量公理得到满足;最后,为提高该度量的适应能力及处理速度,还实现了虚拟项相似距离的弹性设计并对EMD算法进行了简化。该方法把EMD扩展到度量空间中来,很大程度上提高了EMD的索引能力与精度,初步实验表明,Mdss_EMD的整体性能优于原EMD及现有其它类似方法。 展开更多
关键词 信息检索 EMD(Earth Mover’s Distance) 度量 文档相似性 匹配 语义距离
下载PDF
应用随机特征码检测雷同译文 被引量:2
19
作者 秦颖 文秋芳 梁茂成 《外语电化教学》 CSSCI 2009年第6期14-17,共4页
试卷自动评分研究中有个十分重要却常被忽略的环节——对于雷同内容的自动检测。翻译考试的雷同译文与一般的重复文档有着不同的特点。通过对比各种文档相似算法,最终选择了特征码的方法用于检测汉译英雷同译文,并结合翻译考试的特点... 试卷自动评分研究中有个十分重要却常被忽略的环节——对于雷同内容的自动检测。翻译考试的雷同译文与一般的重复文档有着不同的特点。通过对比各种文档相似算法,最终选择了特征码的方法用于检测汉译英雷同译文,并结合翻译考试的特点,提出了随机特征码的方法,解决了特征码选取位置难以确定的问题,同时降低了特征码对于编辑差异的敏感度,提高了雷同内容检测的查准率和查全率。该算法的复杂度为线性,适用于大规模翻译试卷的快速检查。 展开更多
关键词 自动评分 雷同内容检测 文本相似度 特征码
原文传递
融合主题模型及双语词向量的汉缅双语可比文档获取方法 被引量:2
20
作者 李训宇 毛存礼 +3 位作者 余正涛 高盛祥 王振晗 张亚飞 《中文信息学报》 CSCD 北大核心 2021年第1期88-95,共8页
缅甸语属于资源稀缺型语言,汉缅双语可比文档是获取平行句对的重要数据资源。该文提出了一种融合主题模型及双语词向量的汉缅双语可比文档获取方法,将跨语言文档相似度计算转化为跨语言主题相似度计算问题。首先,使用单语LDA主题模型分... 缅甸语属于资源稀缺型语言,汉缅双语可比文档是获取平行句对的重要数据资源。该文提出了一种融合主题模型及双语词向量的汉缅双语可比文档获取方法,将跨语言文档相似度计算转化为跨语言主题相似度计算问题。首先,使用单语LDA主题模型分别抽取汉语、缅甸语的主题,得到对应的主题分布表示;其次,将抽取到的汉缅主题词进行表征得到单语的主题词向量,利用汉缅双语词典将汉语、缅甸语单语主题词向量映射到共享的语义空间,得到汉缅双语主题词向量,最后通过计算汉语、缅甸语主题相似度获取汉缅双语可比文档。实验结果表明,该文提出的方法得到的F1值比基于双语词向量方法提升了5.6%。 展开更多
关键词 主题模型 双语词向量 文档相似度 汉语—缅甸语 双语可比文档
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部