期刊文献+
共找到862篇文章
< 1 2 44 >
每页显示 20 50 100
基于向量空间模型的文本自动分类系统的研究与实现 被引量:293
1
作者 庞剑锋 卜东波 白硕 《计算机应用研究》 CSCD 北大核心 2001年第9期23-26,共4页
随着网络信息的迅猛发展 ,信息处理已经成为人们获取有用信息不可缺少的工具。文本自动分类系统是信息处理的重要研究方向 ,它是指在给定的分类体系下 ,根据文本的内容自动判别文本类别的过程。对文本分类中所涉及的关键技术 ,包括向量... 随着网络信息的迅猛发展 ,信息处理已经成为人们获取有用信息不可缺少的工具。文本自动分类系统是信息处理的重要研究方向 ,它是指在给定的分类体系下 ,根据文本的内容自动判别文本类别的过程。对文本分类中所涉及的关键技术 ,包括向量空间模型、特征提取、机器学习方法等进行了研究和探讨 ,并且提出了基于向量空间模型的文本分类系统的结构 。 展开更多
关键词 中文信息处理 向量空间模型 文本自动分类系统 人工智能 计算机
下载PDF
文档中词语权重计算方法的改进 被引量:120
2
作者 鲁松 李晓黎 +1 位作者 白硕 王实 《中文信息学报》 CSCD 北大核心 2000年第6期8-13,20,共7页
文本的形式化表示一直是文本检索、自动文摘和搜索引擎等信息检索领域关注的基础性问题。向量空间模型 (VectorSpaceModel)中的tf.idf文本表示是该领域里得到广泛应用并且取得较好效果的一种文本表示方法。词语在文本集合中的分布比例... 文本的形式化表示一直是文本检索、自动文摘和搜索引擎等信息检索领域关注的基础性问题。向量空间模型 (VectorSpaceModel)中的tf.idf文本表示是该领域里得到广泛应用并且取得较好效果的一种文本表示方法。词语在文本集合中的分布比例量上的差异是决定词语表达文本内容的重要因素之一 ,但现在tf.idf方法无法把握这一因素。针对这个问题 ,本文引入信息论中信息增益的概念 ,提出一种对tf.idf的改进方法tf.idf.IG文本表示方法。该方法将词语的信息增益作为一个文本表示的一个因子 ,来衡量词语在文本集合中分布比例在量上的差异。在文本分类实验中 ,tf.idf.IG文本表示的向量空间模型的分类效果要好于tf.idf方法 ,验证了改进方法tf.idf.IG的有效性和可行性。 展开更多
关键词 文本表示 向量空间模型 词语分布比例 信息增益
下载PDF
基于向量空间模型的文本过滤系统 被引量:92
3
作者 黄萱菁 夏迎炬 吴立德 《软件学报》 EI CSCD 北大核心 2003年第3期435-442,共8页
文本过滤是指从大量的文本数据流中寻找满足特定用户需求的文本的过程.首先从任务、测试主题、语料库和评测指标等方面介绍了文本检索领域最权威的国际评测会议——文本检索会议(TREC)及其中的文本过滤项目,然后详细地描述了基于向量空... 文本过滤是指从大量的文本数据流中寻找满足特定用户需求的文本的过程.首先从任务、测试主题、语料库和评测指标等方面介绍了文本检索领域最权威的国际评测会议——文本检索会议(TREC)及其中的文本过滤项目,然后详细地描述了基于向量空间模型的文本过滤系统.该系统由训练和自适应过滤两个阶段组成.在训练阶段,通过特征抽取和伪反馈建立初始的过滤模板,并设置初始阈值;在过滤阶段,则根据用户的反馈信息自适应地调整模板和阈值.该系统参加了2000年举行的第9次文本检索会议的评测,取得了很好的成绩,在来自多个国家的15个系统中名列前茅,其中自适应过滤和批过滤的平均准确率分别为26.5%和31.7%. 展开更多
关键词 向量空间模型 文本过滤系统 机器学习 文本分类
下载PDF
一种基于向量空间模型的多层次文本分类方法 被引量:75
4
作者 刘少辉 董明楷 +2 位作者 张海俊 李蓉 史忠植 《中文信息学报》 CSCD 北大核心 2002年第3期8-14,26,共8页
本文研究和改进了经典的向量空间模型 (VSM )的词语权重计算方法 ,并在此基础上提出了一种基于向量空间模型的多层次文本分类方法。也就是把各类按照一定的层次关系组织成树状结构 ,并将一个类中的所有训练文档合并为一个类文档 ,在提... 本文研究和改进了经典的向量空间模型 (VSM )的词语权重计算方法 ,并在此基础上提出了一种基于向量空间模型的多层次文本分类方法。也就是把各类按照一定的层次关系组织成树状结构 ,并将一个类中的所有训练文档合并为一个类文档 ,在提取各类模型时只在同层同一结点下的类文档之间进行比较 ;而对文档进行自动分类时 ,首先从根结点开始找到对应的大类 ,然后递归往下直到找到对应的叶子子类。实验和实际系统表明 。 展开更多
关键词 多层次文本分类方法 向量空间模型 信息增益 特征提取 词语权重 层次关系 文档分类
下载PDF
概念推理网及其在文本分类中的应用 被引量:57
5
作者 李晓黎 刘继敏 史忠植 《计算机研究与发展》 EI CSCD 北大核心 2000年第9期1032-1038,共7页
在分析了当前文本分类中常用方法的基础上 ,提出了一种新的分类模型 .该模型是对人的分类过程的一种模拟 .在已有的英语语义词典及大量训练集的基础上 ,应用机器学习、数据挖掘等技术进行知识获取并最终形成若干个概念推理网 .对待分类... 在分析了当前文本分类中常用方法的基础上 ,提出了一种新的分类模型 .该模型是对人的分类过程的一种模拟 .在已有的英语语义词典及大量训练集的基础上 ,应用机器学习、数据挖掘等技术进行知识获取并最终形成若干个概念推理网 .对待分类的文档可以激活相应的网络 ,同时传播推理以决定其类别的归属 ,试验表明 :该方法具有较高的分类正确率与召回率 . 展开更多
关键词 文本分类 向量空间模型 概念推理网 机器学习
下载PDF
文本分类TF-IDF算法的改进研究 被引量:107
6
作者 叶雪梅 毛雪岷 +1 位作者 夏锦春 王波 《计算机工程与应用》 CSCD 北大核心 2019年第2期104-109,161,共7页
中国互联网环境的发展,让大量蕴含丰富信息的新词得以普及。而传统的特征词权重TF-IDF(Term Frequency and Inverted Document Frequency)算法主要考虑TF和IDF两个方面的因素,未考虑到新词这一新兴词类的优势。针对特征项中的新词对分... 中国互联网环境的发展,让大量蕴含丰富信息的新词得以普及。而传统的特征词权重TF-IDF(Term Frequency and Inverted Document Frequency)算法主要考虑TF和IDF两个方面的因素,未考虑到新词这一新兴词类的优势。针对特征项中的新词对分类结果的影响,提出基于网络新词改进文本分类TF-IDF算法。在文本预处理中识别新词,并在向量空间模型表示中改变特征权重计算公式。实验结果表明把新词发现加入文本预处理,可以达到特征降维的目的,并且改进后的特征权重算法能优化文本分类的结果。 展开更多
关键词 新词 词频-逆文档频率(TF-IDF) 向量空间模型 文本分类
下载PDF
基于概念的文本结构分析方法 被引量:35
7
作者 林鸿飞 战学刚 姚天顺 《计算机研究与发展》 EI CSCD 北大核心 2000年第3期324-328,共5页
文本结构分析是文本处理领域中的重要内容,它可以有效地改进文本摘要、文本检索以及文本过滤的精度.文中简要描述了文本的物理结构和逻辑结构以及文本分析的背景,提出了文本结构分析中的层次分析方法.该方法保证了层次划分的有序性... 文本结构分析是文本处理领域中的重要内容,它可以有效地改进文本摘要、文本检索以及文本过滤的精度.文中简要描述了文本的物理结构和逻辑结构以及文本分析的背景,提出了文本结构分析中的层次分析方法.该方法保证了层次划分的有序性,可操作性强,便于解释,不依赖于具体领域.其基本思想是对于输入文本,首先识别出文本的物理结构;然后在概念映射、概念密度和概念消歧的基础上,将文本依据主题划分为若干层次;最终获得文本的逻辑结构. 展开更多
关键词 文本结构分析 概念 信息处理 文本处理 计算机
下载PDF
基于向量空间模型中义项词语的无导词义消歧 被引量:37
8
作者 鲁松 白硕 黄雄 《软件学报》 EI CSCD 北大核心 2002年第6期1082-1089,共8页
有导词义消歧机器学习方法的引入虽然使词义消歧取得了长足的进步,但由于需要大量人力进行词义标注,使其难以适用于大规模词义消歧任务.针对这一问题,提出了一种避免人工词义标注巨大工作量的无导学习方法.在仅需义项词语知识库的支持下... 有导词义消歧机器学习方法的引入虽然使词义消歧取得了长足的进步,但由于需要大量人力进行词义标注,使其难以适用于大规模词义消歧任务.针对这一问题,提出了一种避免人工词义标注巨大工作量的无导学习方法.在仅需义项词语知识库的支持下,将待消歧多义词与义项词语映射到向量空间中,基于k-NN(k=1)方法,计算二者相似度来实现词义消歧任务.在对10个典型多义词进行词义消歧的测试实验中,采用该方法取得了平均正确率为83.13%的消歧结果. 展开更多
关键词 向量空间模型 义项词语 无导词义消歧 义项词语 自然语言处理
下载PDF
个性化网上信息过滤智能体的实现 被引量:31
9
作者 傅忠谦 王新跃 +2 位作者 周佩玲 彭虎 陶小丽 《计算机应用》 CSCD 2000年第3期26-29,共4页
论述了一个Internet网上个性化信息过滤智能体的实现。它采用向量空间模型[3] 作为文档表示的基础 ,通过抽取用户浏览网页的特征 ,使用BP神经网络来学习和跟踪用户的兴趣 ,从而动态了解用户的浏览行为 ,并在用户查询时能有效地过滤出用... 论述了一个Internet网上个性化信息过滤智能体的实现。它采用向量空间模型[3] 作为文档表示的基础 ,通过抽取用户浏览网页的特征 ,使用BP神经网络来学习和跟踪用户的兴趣 ,从而动态了解用户的浏览行为 ,并在用户查询时能有效地过滤出用户感兴趣的信息。 展开更多
关键词 智能体 信息过滤 神经网络 信息查询 INTERNET网
下载PDF
基于VSM的中文文本分类系统的设计与实现 被引量:16
10
作者 张东礼 汪东升 郑纬民 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2003年第9期1288-1291,共4页
文本分类是指在给定分类体系下,根据文本的内容自动确定文本类别的过程。该文阐述了一个基于向量空间模型的中文文本分类系统的设计和实现。对文本分类系统的系统结构、预处理、特征提取、训练算法、分类算法等进行了详细介绍。引入标... 文本分类是指在给定分类体系下,根据文本的内容自动确定文本类别的过程。该文阐述了一个基于向量空间模型的中文文本分类系统的设计和实现。对文本分类系统的系统结构、预处理、特征提取、训练算法、分类算法等进行了详细介绍。引入标题权重系数改进词语权重,并提出了一种新的分类算法。实验测试结果表明查全率和准确率均达到90%左右,而且标题权重的引入和新分类算法的实施有效地改善了分类性能。 展开更多
关键词 文字信息处理 中文文本分类系统 系统设计 VSM 向量空间模型 机器学习 特征提取
原文传递
基于向量空间模型的有导词义消歧 被引量:37
11
作者 鲁松 白硕 +1 位作者 黄雄 张健 《计算机研究与发展》 EI CSCD 北大核心 2001年第6期662-667,共6页
词义消歧一直是自然语言理解中的一个关键问题 ,该问题解决的好坏直接关系到自然语言处理中诸多应用问题的效果优劣 .由于自然语言知识表示的困难 ,在手工规则的词义消歧难以达到理想效果的情况下 ,各种有导机器学习方法被应用于词义消... 词义消歧一直是自然语言理解中的一个关键问题 ,该问题解决的好坏直接关系到自然语言处理中诸多应用问题的效果优劣 .由于自然语言知识表示的困难 ,在手工规则的词义消歧难以达到理想效果的情况下 ,各种有导机器学习方法被应用于词义消歧任务中 .借鉴前人的成果引入信息检索领域中向量空间模型文档词语权重计算技术来解决多义词义项的知识表示问题 ,并提出了上下文位置权重的计算方法 ,给出了一种基于向量空间模型的词义消歧有导机器学习方法 .该方法将多义词的义项和上下文分别映射到向量空间中 ,通过计算多义词上下文向量与义项向量的距离 ,采用 k- NN(k=1)方法来确定上下文向量的义项分类 .在 9个汉语高频多义词的开放和封闭测试中均取得了突出的成绩 (封闭测试平均正确率为 96 .31% ,开放测试平均正确率为 92 .98% ) 。 展开更多
关键词 词义消歧 向量空间模型 义项矩阵 自然语言理解 有导机器学习
下载PDF
关于信息过滤模型的探讨 被引量:18
12
作者 张晓冬 张书杰 +1 位作者 邢俊丽 李俊玉 《计算机工程与应用》 CSCD 北大核心 2002年第5期99-100,236,共3页
信息过滤技术已是当今信息技术研究的热点。该文主要是针对信息过滤模型的研究,介绍了布尔模型、向量空间模型和潜在语义索引三种信息过滤模型。并就其概念、方法和意义进行了分析和讨论。
关键词 信息过滤模型 布尔模型 向量空间模型 潜在语义索引模型 奇异值分解 信息处理 计算机
下载PDF
基于告警信号文本挖掘的电力调度故障诊断 被引量:52
13
作者 汪崔洋 江全元 +3 位作者 唐雅洁 朱炳铨 项中明 唐剑 《电力自动化设备》 EI CSCD 北大核心 2019年第4期126-132,共7页
电力调度系统在电力系统故障过程中会收到大量告警信号,若调度员无法在短时间内做出决策,则可能使故障扩大,为此提出基于告警信号文本挖掘的电力调度故障诊断方法,该方法包括告警信号文本预处理和故障诊断2个阶段。在第一阶段,基于隐马... 电力调度系统在电力系统故障过程中会收到大量告警信号,若调度员无法在短时间内做出决策,则可能使故障扩大,为此提出基于告警信号文本挖掘的电力调度故障诊断方法,该方法包括告警信号文本预处理和故障诊断2个阶段。在第一阶段,基于隐马尔可夫模型(HMM)对告警信号文本进行分词并去除其中的停用词以构建本体词典,并采用向量空间模型(VSM)使文本向量化;在第二阶段,使用滑动时间窗读取实时告警信号,提出一种2层算法,第一层采用支持向量机(SVM)对滑窗内的告警信号进行分类,若分类结果判断为发生故障,则启动第二层k-均值聚类法提取较高可能性的故障供调度员参考。以某电力调度系统实际告警信号作为算例,验证了所提方法的可行性。 展开更多
关键词 电力调度 文本挖掘 向量空间模型 支持向量机 K-均值聚类
下载PDF
基于Web浏览内容和行为相结合的用户兴趣挖掘 被引量:36
14
作者 赵银春 付关友 朱征宇 《计算机工程》 CAS CSCD 北大核心 2005年第12期93-94,198,共3页
通过对用户浏览的Web页面进行聚类分析,并与采用线性回归分析用户浏览行为相结合,得到了采用加权关键字矢量表示的用户兴趣模型,实验证明该模型能较好地描述用户的兴趣类型及兴趣浓度,提高个性化信息服务的效率。
关键词 向量空间模型 内容聚类 回归分析
下载PDF
有效地检索HTML文档 被引量:23
15
作者 刘芳 卢正鼎 《小型微型计算机系统》 CSCD 北大核心 2000年第9期986-988,共3页
WWW上的资源大多以 HTML 格式的文档存储 ,同普通文档不同 ,HTML 文档的标签特性使得它具有一定的结构 .我们采取了一种检索方法 ,它扩展了传统的信息检索 ,利用 HTML文档结构提高了在 WWW环境下的检索效率 .本文介绍了 HTML的结构以及... WWW上的资源大多以 HTML 格式的文档存储 ,同普通文档不同 ,HTML 文档的标签特性使得它具有一定的结构 .我们采取了一种检索方法 ,它扩展了传统的信息检索 ,利用 HTML文档结构提高了在 WWW环境下的检索效率 .本文介绍了 HTML的结构以及传统的向量空间信息检索 ;提出运用聚簇方法为标签分组 ;最后详细讨论了如何利用文档结构扩展加权框架 ,使得检索词能更贴切地描述文档 ,以提高检索的准确性 . 展开更多
关键词 信息检索 向量空间模型 聚簇 HTML文档 WWW
下载PDF
自然语言处理中的文本表示研究 被引量:46
16
作者 赵京胜 宋梦雪 +1 位作者 高祥 朱巧明 《软件学报》 EI CSCD 北大核心 2022年第1期102-128,共27页
自然语言处理是人工智能的核心技术,文本表示是自然语言处理的基础性和必要性工作,影响甚至决定着自然语言处理系统的质量和性能.探讨了文本表示的基本原理、自然语言的形式化、语言模型以及文本表示的内涵和外延.宏观上分析了文本表示... 自然语言处理是人工智能的核心技术,文本表示是自然语言处理的基础性和必要性工作,影响甚至决定着自然语言处理系统的质量和性能.探讨了文本表示的基本原理、自然语言的形式化、语言模型以及文本表示的内涵和外延.宏观上分析了文本表示的技术分类,对主流技术和方法,包括基于向量空间、基于主题模型、基于图、基于神经网络、基于表示学习的文本表示,进行了分析、归纳和总结,对基于事件、基于语义和基于知识的文本表示也进行了介绍.对文本表示技术的发展趋势和方向进行了预测和进一步讨论.以神经网络为基础的深度学习以及表示学习在文本表示中将发挥重要作用,预训练加调优的策略将逐渐成为主流,文本表示需要具体问题具体分析,技术和应用融合是推动力. 展开更多
关键词 自然语言处理 文本表示 向量空间模型 主题模型 图模型 深度学习 表示学习
下载PDF
基于N层向量空间模型的信息检索算法 被引量:17
17
作者 陈治平 林亚平 童调生 《计算机研究与发展》 EI CSCD 北大核心 2002年第10期1233-1237,共5页
N层向量空间模型是在传统向量空间模型的基础上提出的一种新的信息检索算法模型 ,这种模型将一篇文档从逻辑上划分为 N个相对独立的文本段 ,然后按照文本段的内容建立文本特征向量以及文本权值向量 .在此模型的基础上 ,更为精确地定义... N层向量空间模型是在传统向量空间模型的基础上提出的一种新的信息检索算法模型 ,这种模型将一篇文档从逻辑上划分为 N个相对独立的文本段 ,然后按照文本段的内容建立文本特征向量以及文本权值向量 .在此模型的基础上 ,更为精确地定义了特征值向量和相似度的计算方法 ,使之能比较好地适应文档集合的动态扩充 .理论分析和实验结果表明 。 展开更多
关键词 N层向量空间模型 信息检索算法 搜索引擎 查准率 查全率 信息资源 WWW
下载PDF
语义分析与词频统计相结合的中文文本相似度量方法研究 被引量:42
18
作者 华秀丽 朱巧明 李培峰 《计算机应用研究》 CSCD 北大核心 2012年第3期833-836,共4页
基于统计的文本相似度量方法大多先采用TF-IDF方法将文本表示为词频向量,然后利用余弦计算文本之间的相似度。此类方法由于忽略文本中词项的语义信息,不能很好地反映文本之间的相似度。基于语义的方法虽然能够较好地弥补这一缺陷,但需... 基于统计的文本相似度量方法大多先采用TF-IDF方法将文本表示为词频向量,然后利用余弦计算文本之间的相似度。此类方法由于忽略文本中词项的语义信息,不能很好地反映文本之间的相似度。基于语义的方法虽然能够较好地弥补这一缺陷,但需要知识库来构建词语之间的语义关系。研究了以上两类文本相似度计算方法的优缺点,提出了一种新颖的文本相似度量方法,该方法首先对文本进行预处理,然后挑选TF-IDF值较高的词项作为特征项,再借助HowNet语义词典和TF-IDF方法对特征项进行语义分析和词频统计相结合的文本相似度计算,最后利用文本相似度在基准文本数据集合上进行聚类实验。实验结果表明,采用提出的方法得到的F-度量值明显优于只采用TF-IDF方法或词语语义的方法,从而证明了提出的文本相似度计算方法的有效性。 展开更多
关键词 向量空间模型 语义分析 词频 概率分布 文本相似度
下载PDF
文本分类中结合评估函数的TEF-WA权值调整技术 被引量:26
19
作者 唐焕玲 孙建涛 陆玉昌 《计算机研究与发展》 EI CSCD 北大核心 2005年第1期47-53,共7页
文本自动分类面临的难题之一是如何从高维的特征空间中选取对文本分类有效的特征,以适应文本分类算法并提高分类精度.针对这一问题,在分析比较特征选择和权值调整对文本分类精度和效率的影响后,提出了一种结合评估函数的TEF-WA权重调整... 文本自动分类面临的难题之一是如何从高维的特征空间中选取对文本分类有效的特征,以适应文本分类算法并提高分类精度.针对这一问题,在分析比较特征选择和权值调整对文本分类精度和效率的影响后,提出了一种结合评估函数的TEF-WA权重调整技术,设计了一种新的权重函数,将特征评估函数蕴含到权值函数,按照特征对文本分类的辨别能力调整其在分类器中的贡献.实验结果证明了TEF-WA权值调整技术在提高分类精度和降低算法的时间复杂度方面都是有效的. 展开更多
关键词 向量空间模型(VSM) 特征选择 权重调整 特征评估函数 文本分类
下载PDF
一种用于文本聚类的改进k-means算法 被引量:34
20
作者 索红光 王玉伟 《山东大学学报(理学版)》 CAS CSCD 北大核心 2008年第1期60-64,共5页
k-means是目前常用的文本聚类算法,针对其最终搜索的局部极值与全局最优解偏差较大的缺点,采用一种基于局部搜索优化的思想来改进算法,并推导出目标函数的变化公式。根据目标函数值的改变对聚类结果作再次划分后,继续k-means迭代,拓展... k-means是目前常用的文本聚类算法,针对其最终搜索的局部极值与全局最优解偏差较大的缺点,采用一种基于局部搜索优化的思想来改进算法,并推导出目标函数的变化公式。根据目标函数值的改变对聚类结果作再次划分后,继续k-means迭代,拓展其搜索范围。理论分析和实验结果表明修改后的算法能有效地提高聚类的质量,且计算复杂度仍与数据集文本总数呈线性变化。 展开更多
关键词 文本聚类 K-MEANS 向量空间模型 局部迭代
下载PDF
上一页 1 2 44 下一页 到第
使用帮助 返回顶部