期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
基于词同现频率的文本特征描述 被引量:8
1
作者 余刚 陈华月 +1 位作者 朱征宇 高原 《计算机工程与设计》 CSCD 北大核心 2005年第8期2180-2182,共3页
文本的特征描述是文本自动处理的基础工作之一,目前的文本特征描述一般采用加权VSM模型,该模型大都使用统计的和经验的加权算法,该算法方便了计算机对中文文本的相似度计算,但不能很好地揭示文本中词与词的关系。针对此缺点,提出了一种... 文本的特征描述是文本自动处理的基础工作之一,目前的文本特征描述一般采用加权VSM模型,该模型大都使用统计的和经验的加权算法,该算法方便了计算机对中文文本的相似度计算,但不能很好地揭示文本中词与词的关系。针对此缺点,提出了一种基于词同现频率的加权算法,使得文本的特征向量蕴涵了词与词的相关信息,最后用实验对该算法的效果进行了证明。 展开更多
关键词 向量空间模型 文本挖掘 词同现频率 权重计算 匹配
下载PDF
VSM模型在文档结构识别中的应用 被引量:10
2
作者 宋昊苏 李宁 张伟 《北京信息科技大学学报(自然科学版)》 2011年第6期66-69,75,共5页
借鉴向量空间模型(VSM),将文档的单元结构映射到特征向量,并对其进行归一化和加权处理,再计算标准文档结构分类特征向量和待查文档单元结构特征向量的相似度,实现对文档结构的识别。测试结果表明,该方法实现了文档格式的向量表示,易于计... 借鉴向量空间模型(VSM),将文档的单元结构映射到特征向量,并对其进行归一化和加权处理,再计算标准文档结构分类特征向量和待查文档单元结构特征向量的相似度,实现对文档结构的识别。测试结果表明,该方法实现了文档格式的向量表示,易于计算,具有较好的扩展性,可在此基础上实现其他特定结构文档格式的自动检查或文档理解。 展开更多
关键词 文档结构识别 向量空间模型 文档格式校验 文档理解
下载PDF
一种快速有效的Web文档聚类方法 被引量:1
3
作者 张蓉 《计算机应用研究》 CSCD 北大核心 2004年第4期174-176,共3页
以矢量空间模型VSM为Web文本的表示方法,提出了一种基于关联规则的Web文档聚类方法。实验证明:该方法能在保证文档聚类高精度的同时,依然保持高效率,其聚类性能明显优于传统Web文档聚类算法。
关键词 WEB挖掘 文档聚类 矢量空间模型vsm 关联规则
下载PDF
文本分类技术研究 被引量:3
4
作者 曹锋 张代远 《电脑知识与技术(过刊)》 2009年第11X期9023-9025,共3页
文本分类作为机器学习和信息检索之间的交叉学科,涉及到多个领域的技术。它的完善有赖于各个相关领域的技术发展和提高,该文介绍了文本分类过程中的各个关键技术和存在的问题,讨论了文本表示模型、分类算法、分类器性能评价原理和方法,... 文本分类作为机器学习和信息检索之间的交叉学科,涉及到多个领域的技术。它的完善有赖于各个相关领域的技术发展和提高,该文介绍了文本分类过程中的各个关键技术和存在的问题,讨论了文本表示模型、分类算法、分类器性能评价原理和方法,最后并对今后的发展进行了展望。 展开更多
关键词 文本分类 分类算法 vsm(vector space model) 语义网络 特征提取
下载PDF
突发公共事件网络在线评论序列的特征分析 被引量:2
5
作者 李斌 彭勤科 张晨 《计算机应用研究》 CSCD 北大核心 2008年第9期2809-2812,共4页
针对网络评论这种新型文本的特点,给出了一组描述网络评论序列特征的指标,提出了一种基于网络评论倾向性的网络评论序列特征分析方法,并结合实例对网络评论序列的特征、网络新闻与其评论序列的关系,特别是谣言对评论序列的影响进行了分析。
关键词 评论序列 特征分析 向量空间模型 倾向性特征向量
下载PDF
纯Peer-to-Peer环境下有效的本体匹配方法
6
作者 张骞 张霞 +1 位作者 赵立军 刘铮 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2010年第8期1093-1097,共5页
目前大多数的Peer-to-Peer(P2P)系统由于欠缺对语义的支持而不能很好地应用于知识共享领域.可能的方法是采用本体(ontology)来描述Peer节点共享资源的语义.针对纯P2P环境下不同节点单独维护局部本体异构的特点,提出了基于历史查询记录的... 目前大多数的Peer-to-Peer(P2P)系统由于欠缺对语义的支持而不能很好地应用于知识共享领域.可能的方法是采用本体(ontology)来描述Peer节点共享资源的语义.针对纯P2P环境下不同节点单独维护局部本体异构的特点,提出了基于历史查询记录的纯P2P环境下的本体匹配方法HOM.首先利用历史查询记录挖掘出概念之间可能存在的映射关系,然后利用向量空间模型VSM(vector space model)方法来识别概念在语言学上可能存在的联系,进而修正概念之间的映射关系,建立不同节点间本体概念的匹配.分析和仿真表明,与现有方法相比,HOM方法考虑了节点的自治特性,并提高了本体匹配的精度. 展开更多
关键词 P2P网络 本体匹配 查询记录 向量空间模型 语义
下载PDF
基于关键词的微博热点话题实时检测方法
7
作者 魏萌 杨文涛 《计算机与现代化》 2013年第10期184-187,192,共5页
微博热点话题发现不仅要对微博文本以及话题识别本身进行研究,还要处理微博用户的社会关系。由于微博文本的简短和半结构化特性,传统的热点话题检测方法并不适用。本文提出基于微博关键词的热点实时检测方法,并利用微博多元数据对该方... 微博热点话题发现不仅要对微博文本以及话题识别本身进行研究,还要处理微博用户的社会关系。由于微博文本的简短和半结构化特性,传统的热点话题检测方法并不适用。本文提出基于微博关键词的热点实时检测方法,并利用微博多元数据对该方法进行修正,实验证明该方法针对微博数据的有效性。 展开更多
关键词 微博热点发现 微博平台 向量空间模型 多元数据
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部