期刊文献+
共找到22篇文章
< 1 2 >
每页显示 20 50 100
一种改进的朴素贝叶斯文本分类方法 被引量:11
1
作者 陈叶旺 余金山 《华侨大学学报(自然科学版)》 CAS 北大核心 2011年第4期401-404,共4页
针对网络中所存在的大量以网页等非结构化形式存在的文本资源,提出一种改进的朴素贝叶斯分类方法.首先,通过卡方检验方法求文档特征并对文档降维,提高特征词区分性信息;然后,以文本特征来代替原始词条进行朴素贝叶斯对类.实验表明,该方... 针对网络中所存在的大量以网页等非结构化形式存在的文本资源,提出一种改进的朴素贝叶斯分类方法.首先,通过卡方检验方法求文档特征并对文档降维,提高特征词区分性信息;然后,以文本特征来代替原始词条进行朴素贝叶斯对类.实验表明,该方法不仅理论上易于建立和更新,而且分类的精确率也得到提高. 展开更多
关键词 文本分类 朴素贝叶斯方法 文档特征 卡方检验
下载PDF
文本聚类在Web挖掘系统中的应用 被引量:2
2
作者 马辉民 胡凌 郭潇 《统计与决策》 CSSCI 北大核心 2004年第6期133-134,共2页
关键词 文本聚类 Web挖掘系统 用户接口 查询模式 SOM神经网络模型 文档特征
下载PDF
基于本体的林业领域文档特征权重模型 被引量:3
3
作者 张乃静 鞠洪波 纪平 《计算机工程与应用》 CSCD 2013年第18期20-23,共4页
传统文档特征权重模型仅考虑关键词本身,文档内其他相关词汇并没有参与计算,信息检索时无法返回全面和准确的结果。为解决该问题提出了一种基于本体的林业领域文档特征权重模型。该模型计算TF-IDF特征权重;结合林业领域本体,分别获取关... 传统文档特征权重模型仅考虑关键词本身,文档内其他相关词汇并没有参与计算,信息检索时无法返回全面和准确的结果。为解决该问题提出了一种基于本体的林业领域文档特征权重模型。该模型计算TF-IDF特征权重;结合林业领域本体,分别获取关键词和林业领域内其他词汇的语义距离、语义重合度和概念的层次差,并计算语义相关度;结合TF-IDF和语义相似度的结果计算特征权重。实验证明该模型可以提高文本检索的查准率和查全率,使检索结果更加满足用户的需求。 展开更多
关键词 本体 林业领域 文档特征 权重模型 语义相似度
下载PDF
基于文档文字特征的碎纸机碎片拼接算法 被引量:2
4
作者 赵旷逸 舒荧 段欣 《计算机应用》 CSCD 北大核心 2014年第A02期271-273,309,共4页
针对经碎纸机粉碎的文档碎片,提出拼接复原的模型并研制了相应的算法。首先研究文档碎片边界像素特征,据此提出碎片横向拼接的两种算法;然后,研究行高、字体间间距以及字体大小等文本特征,据此提出针对经横向拼接形成的水平残条的纵向... 针对经碎纸机粉碎的文档碎片,提出拼接复原的模型并研制了相应的算法。首先研究文档碎片边界像素特征,据此提出碎片横向拼接的两种算法;然后,研究行高、字体间间距以及字体大小等文本特征,据此提出针对经横向拼接形成的水平残条的纵向拼接算法。最后根据算法编写Matlab程序,并进行实验,结果表明该算法效果良好。 展开更多
关键词 碎纸机碎片 纸片拼接算法 像素点 文档特征
下载PDF
基于多粒度特征和混合算法的文档推荐系统 被引量:1
5
作者 邬登峰 白琳 +2 位作者 王涛 李慧 许舒人 《计算机系统应用》 2018年第3期9-17,共9页
文库系统对信息的传播利用有着重要的作用,但在文库系统中出现信息过载问题后,数据的利用率会大大降低.针对该问题提出了一种基于多粒度特征和混合算法的文档推荐系统,系统在短语和词语两个粒度上对用户兴趣及文档特征进行建模,综合基... 文库系统对信息的传播利用有着重要的作用,但在文库系统中出现信息过载问题后,数据的利用率会大大降低.针对该问题提出了一种基于多粒度特征和混合算法的文档推荐系统,系统在短语和词语两个粒度上对用户兴趣及文档特征进行建模,综合基于内容推荐算法及协同过滤算法,为用户生成兴趣列表.系统测试数据表明,系统在准确率、召回率、覆盖率、新颖度等指标上均有较为优异的表现,其为用户推荐的文档较符合用户实际偏好,有助于提升文库系统的数据利用率,改善用户体验. 展开更多
关键词 用户兴趣模型 文档特征 基于内容推荐 协同过滤 推荐系统
下载PDF
基于Word2vec的文档分类方法 被引量:10
6
作者 陈杰 陈彩 梁毅 《计算机系统应用》 2017年第11期159-164,共6页
文档的特征提取和文档的向量表示是文档分类中的关键,本文针对这两个关键点提出一种基于word2vec的文档分类方法.该方法根据DF采集特征词袋,以尽可能的保留文档集中的重要特征词,并且利用word2vec的潜在语义分析特性,将语义相关的特征... 文档的特征提取和文档的向量表示是文档分类中的关键,本文针对这两个关键点提出一种基于word2vec的文档分类方法.该方法根据DF采集特征词袋,以尽可能的保留文档集中的重要特征词,并且利用word2vec的潜在语义分析特性,将语义相关的特征词用一个主题词乘以合适的系数来代替,有效地浓缩了特征词袋,降低了文档向量的维度;该方法还结合了TF-IDF算法,对特征词进行加权,给每个特征词赋予更合适的权重.本文与另外两种文档分类方法进行了对比实验,实验结果表明,本文提出的基于word2vec的文档分类方法在分类效果上较其他两种方法均有所提高. 展开更多
关键词 文档向量 文档特征提取 文档分类 TF-IDF word2vec
下载PDF
浅议馆藏光盘资料的著录 被引量:12
7
作者 周晨 《河北科技图苑》 2000年第3期48-50,共3页
详细介绍了国家图书馆馆藏各种类型的光盘资料 ,并从实际工作出发 ,探讨了对光盘进行著录的问题。
关键词 国家图书馆 光盘资料 电子出版物 著录 著录信息源 计算机文档特征 光盘类型
下载PDF
基于BP神经网络的文档特征表示研究 被引量:4
8
作者 田萱 孟祥光 +1 位作者 刘希玉 孟强 《情报学报》 CSSCI 北大核心 2003年第1期22-26,共5页
本文根据BP神经网络的函数逼近功能,针对文档特征项在文档中的权重,提出了一种基于BP神经网络的网络计算模型.实验表明,在面向相似主题的文档集中,这种方法比当今最常用的向量空间模型计算的文档特征项的权重更精确.
关键词 BP神经网络 文档特征 权重 向量空间模型 信息检索
下载PDF
WEB文本分类技术在企业竞争情报分析中的应用 被引量:8
9
作者 薛燕波 《情报科学》 CSSCI 北大核心 2004年第3期378-380,384,共4页
笔者在实际竞争情报工作过程中发现了现有竞争情报工作中存在的问题——竞争情报的搜集和分析主要依靠人工来完成 ,效率低下 ;针对这一问题 ,本文提出了把 web文本分类技术应用到企业竞争情报搜集和分析中去 。
关键词 WEB文本 分类技术 企业竞争 竞争情报分析 情报搜集 文档特征提取 情报源
下载PDF
基于质心向量的增量式主题爬行 被引量:4
10
作者 王辉 左万利 +3 位作者 王晖昱 宁爱军 孙志伟 满春雷 《计算机研究与发展》 EI CSCD 北大核心 2009年第2期217-224,共8页
研究如何在一个网页内部进行有选择的爬行.使用TFIDF-2模型以及Max,Ave,Sum三个启发式规则分别计算文档特征权重和质心特征权重,在此基础上构建与根集文档相对应的质心向量,利用它作为前端分类器指导主题爬行.使用前后端分类器分别给Fro... 研究如何在一个网页内部进行有选择的爬行.使用TFIDF-2模型以及Max,Ave,Sum三个启发式规则分别计算文档特征权重和质心特征权重,在此基础上构建与根集文档相对应的质心向量,利用它作为前端分类器指导主题爬行.使用前后端分类器分别给Frontier中的各个锚文本打分,将它们的打分求和,从中选择打分最高的链接,下载其对应的网页.实验结果表明,在质心向量的指导下,爬行程序借助于锚文本便可以准确地预测链接所指向网页的相关性;另外,双分类器框架还使得爬行策略具有增量爬行的能力. 展开更多
关键词 文档特征权重 质心特征权重 主题爬行 锚文本 质心向量
下载PDF
用BP神经网络实现中文文本分类 被引量:2
11
作者 火善栋 《计算机时代》 2015年第11期58-61,共4页
文本分类是文本挖掘的一个重要内容,在很多领域都有广泛的应用。为了实现中文文本分类问题,先采用分词技术和TF-IDF算法得到每一篇中文文档的特征向量,然后采用PB神经网络构造一个中文文本分类器。实验证明,采用BP神经网络进行中文文本... 文本分类是文本挖掘的一个重要内容,在很多领域都有广泛的应用。为了实现中文文本分类问题,先采用分词技术和TF-IDF算法得到每一篇中文文档的特征向量,然后采用PB神经网络构造一个中文文本分类器。实验证明,采用BP神经网络进行中文文本分类时,虽然存在学习周期长,收敛速度慢等问题,但其分类速度和分类的正确率还是很高的。因此,采用BP神经网络进行中文分类是一个比较好的方法。 展开更多
关键词 中文文本分类 BP神经网络 中文分词 文档特征向量
下载PDF
本体知识理论在海相油气地质专业的应用研究 被引量:2
12
作者 宋付英 唐先明 李媛媛 《现代工业经济和信息化》 2015年第19期31-34,共4页
以海相中文文本为处理对象,首次将本体知识理论引入海相油气地质专业,介绍了本体知识获取过程中对文本信息的处理方法,还介绍了对文档特征进行提取的TF-IDF算法的改进和修正过程,为有效地生成文档特征向量空间,构建海相油气地质专业知识... 以海相中文文本为处理对象,首次将本体知识理论引入海相油气地质专业,介绍了本体知识获取过程中对文本信息的处理方法,还介绍了对文档特征进行提取的TF-IDF算法的改进和修正过程,为有效地生成文档特征向量空间,构建海相油气地质专业知识库,最终形成本体知识库提供具体方法。同时基于本体知识管理技术,根据海相油气地质领域知识获取与共享,利用三元组表示法构造海相油气概念本体知识,建立了海相油气地质专业知识库及相应的管理系统,有效促进了海相油气地质专业知识的推广与应用。 展开更多
关键词 海相 油气地质 本体知识 文档特征提取 TF-IDF算法
下载PDF
重复模式识别算法及在Web信息抽取和聚类分析中的应用 被引量:1
13
作者 木妮娜.玉素甫 古丽娜.玉素甫 《计算机科学》 CSCD 北大核心 2017年第B11期39-45,共7页
序列中的重复模式识别算法及应用研究是数据挖掘领域的重要问题,是提取序列中有用信息的主要手段之一。近年来,针对各种重复模式定义、有效的识别算法设计以及重复模式识别算法在有关领域中的应用有了很多研究成果。文中对序列中重复模... 序列中的重复模式识别算法及应用研究是数据挖掘领域的重要问题,是提取序列中有用信息的主要手段之一。近年来,针对各种重复模式定义、有效的识别算法设计以及重复模式识别算法在有关领域中的应用有了很多研究成果。文中对序列中重复模式的类型与特点作了描述,讨论了识别算法中常用的数据结构,以分类的方式重点回顾并总结了近年来重复模式在一些相关领域中的应用及相关算法的设计思路与技巧,并从加入的领域知识及约束、识别结果与算法扩充性、存在的主要问题等方面进行了讨论,其中包括在网络信息抽取、Web文档特征提取与聚类算法及相关的维文信息处理等领域中的应用。最后,讨论了关于序列重复模式识别算法在各个相关领域中的应用研究所面临的挑战,并探讨了未来的研究方向。 展开更多
关键词 重复模式 Web文档特征 网络信息抽取 聚类算法 维文信息处理
下载PDF
基于LDA的大V与草根用户微博主题模型构建 被引量:1
14
作者 张钰莎 罗莉霞 《现代计算机》 2019年第2期3-6,11,共5页
针对微博划分的草根用户与大V用户两个群体。通过LDA主题模型对用户的微博语料进行训练,分别得出两类用户微博关注的主题分布,从而分析其中的差异和交集。利用训练的主题模型结果,使用分类算法进行新输入文档的主题分布判断。
关键词 LDA模型 网络爬虫 文档特征提取 文本生成模型
下载PDF
基于决策偏好逼近的网络数据安全稳态评估分析
15
作者 刘洋 刘明利 王伟 《科技通报》 2023年第2期30-33,61,共5页
为有效评估网络数据的安全稳态,本文提出基于决策偏好逼近的网络数据安全稳态评估分析方法。根据阶梯层次形式构建网络数据安全稳态评估体系,并利用用户生成内容模式挖掘安全稳态关注点。本文采用二元语义模型呈现决策者偏好信息,根据... 为有效评估网络数据的安全稳态,本文提出基于决策偏好逼近的网络数据安全稳态评估分析方法。根据阶梯层次形式构建网络数据安全稳态评估体系,并利用用户生成内容模式挖掘安全稳态关注点。本文采用二元语义模型呈现决策者偏好信息,根据文档特征权值赋予评估指标属性权值。基于此,考虑决策者偏好信息,获取事件关键词属性权重,根据加权决策矩阵正负理想值,得到数据安全稳态评估结果。实验结果表明:该方法能够有效且全面地评估网络数据的安全稳态。 展开更多
关键词 网络数据 安全稳态评估 决策偏好 UGC挖掘 二元语义变量模型 文档特征函数
下载PDF
用AdaBooster算法实现中文文本分类问题
16
作者 火善栋 《现代计算机》 2016年第20期3-6,共4页
文本分类是文本挖掘的一个重要内容,在很多方面都有着广泛的应用。为了实现中文文本分类问题,先采用分词技术和特征词统计相关方法得到每类训练文档的特征向量中心(质心),通过比较测试文档到质心的距离来实现中文文档分类,然后采用AdaBo... 文本分类是文本挖掘的一个重要内容,在很多方面都有着广泛的应用。为了实现中文文本分类问题,先采用分词技术和特征词统计相关方法得到每类训练文档的特征向量中心(质心),通过比较测试文档到质心的距离来实现中文文档分类,然后采用AdaBooster算法通过不断调整每类训练文档的质心构建一个强分类器。实验表明:采用AdaBooster算法进行中文文本分类时,算法简单、分类速度快、正确率高、占用内存小而且可以根据训练文档的不同实时地调整迭代次数。 展开更多
关键词 中文文本分类 ADA Booster算法 中文分词 文档特征向量
下载PDF
基于MapReduce并行计算提取文档特征Textrank算法研究
17
作者 孙龙 李彦 《现代信息科技》 2018年第10期80-83,共4页
Textrank相比词袋模型有独特的优势,但需要进行多轮迭代和递归运算,常规串行化算法无法满足大数据环境下文档处理的需求。必须借助大数据的分布式处理、并行化计算技术来应对这一挑战。本文学习研究了大数据平台Hadoop的分布式处理方式... Textrank相比词袋模型有独特的优势,但需要进行多轮迭代和递归运算,常规串行化算法无法满足大数据环境下文档处理的需求。必须借助大数据的分布式处理、并行化计算技术来应对这一挑战。本文学习研究了大数据平台Hadoop的分布式处理方式,并在MapReduce框架下实现并行了Textrank并行提取文档特征的算法。同时,本文就Textrank中关键的投票算法提出了MapReduce迭代实现。经在Hadoop集群上验证,在计算节点增加的情况下,该模式可有效提升Textrank算法效率。 展开更多
关键词 MAPREDUCE Textrank 文档特征提取
下载PDF
一个基于关联规则的多层文档聚类算法 被引量:4
18
作者 宋江春 沈钧毅 宋擒豹 《计算机应用》 CSCD 北大核心 2005年第7期1570-1572,共3页
提出了一种新的基于关联规则的多层文档聚类算法,该算法利用新的文档特征抽取方法构造了文档的主题和关键字特征向量。首先在主题特征向量空间中利用频集快速算法对文档进行初始聚类,然后在基于主题关键字的新的特征向量空间中利用类间... 提出了一种新的基于关联规则的多层文档聚类算法,该算法利用新的文档特征抽取方法构造了文档的主题和关键字特征向量。首先在主题特征向量空间中利用频集快速算法对文档进行初始聚类,然后在基于主题关键字的新的特征向量空间中利用类间距和连接度对初始文档类进行求精,从而得到最终聚类。由于使用了两层聚类方法,使算法的效率和精度都大大提高;使用新的文档特征抽取方法还解决了由于文档关键字过多而导致文档特征向量的维数过高的问题。 展开更多
关键词 文档挖掘 文档聚类 关联规则 文档主题特征向量 文档关键字特征向量
下载PDF
一个基于双向近邻技术的多层文档聚类算法 被引量:3
19
作者 宋江春 沈钧毅 《情报学报》 CSSCI 北大核心 2006年第4期488-492,共5页
提出了一个新的基于双向近邻技术的多层文档聚类算法.使用新的文档特征抽取方法构造了文档的主题和关键字特征向量.首先在主题特征向量空间中,改进了传统的最近邻技术,使最近邻概念由单向变为双向.利用改进后的方法对文档进行初始聚类,... 提出了一个新的基于双向近邻技术的多层文档聚类算法.使用新的文档特征抽取方法构造了文档的主题和关键字特征向量.首先在主题特征向量空间中,改进了传统的最近邻技术,使最近邻概念由单向变为双向.利用改进后的方法对文档进行初始聚类,然后在基于主题关键字的新的特征向量空间中利用类间距和连接度对初始文档类进行求精,从而得到最终聚类.由于使用了两层聚类方法,使算法的效率和精度都大大提高.最后对算法的有效性、可伸缩性和时间复杂度进行了研究. 展开更多
关键词 文档聚类 最近邻技术 双向最近邻 文档主题特征向量 主题关键字特征向量
下载PDF
一种基于滑动窗口技术的邮件特征选择方法 被引量:3
20
作者 夏正新 《南京邮电大学学报(自然科学版)》 北大核心 2017年第6期103-110,共8页
在垃圾邮件过滤中,常用的方法是对邮件中的特征进行筛选,找出能够最有效代表邮件的相关特征,即在降低特征维度的同时,还能保持较高的召回率和精确率。文中提出了一种利用滑动窗口技术的特征选择方法用于改善垃圾邮件分类的效果。该方法... 在垃圾邮件过滤中,常用的方法是对邮件中的特征进行筛选,找出能够最有效代表邮件的相关特征,即在降低特征维度的同时,还能保持较高的召回率和精确率。文中提出了一种利用滑动窗口技术的特征选择方法用于改善垃圾邮件分类的效果。该方法分为两步,第一步通过基于相对文档-特征词频率差异的特征选择方法,生成正负相关的候选特征集合;第二步使用粒子群优化算法快速选择最好的特征子集,提高了垃圾邮件分类的效果。实验结果表明文中提出的方法要明显优于传统的方法。 展开更多
关键词 滑动窗口 文档-特征词频率差异 粒子群优化算法 特征选择 垃圾邮件
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部