期刊文献+
共找到24篇文章
< 1 2 >
每页显示 20 50 100
基于VSM的中文文本分类系统的设计与实现 被引量:16
1
作者 张东礼 汪东升 郑纬民 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2003年第9期1288-1291,共4页
文本分类是指在给定分类体系下,根据文本的内容自动确定文本类别的过程。该文阐述了一个基于向量空间模型的中文文本分类系统的设计和实现。对文本分类系统的系统结构、预处理、特征提取、训练算法、分类算法等进行了详细介绍。引入标... 文本分类是指在给定分类体系下,根据文本的内容自动确定文本类别的过程。该文阐述了一个基于向量空间模型的中文文本分类系统的设计和实现。对文本分类系统的系统结构、预处理、特征提取、训练算法、分类算法等进行了详细介绍。引入标题权重系数改进词语权重,并提出了一种新的分类算法。实验测试结果表明查全率和准确率均达到90%左右,而且标题权重的引入和新分类算法的实施有效地改善了分类性能。 展开更多
关键词 文字信息处理 中文文本分类系统 系统设计 vsm 向量空间模型 机器学习 特征提取
原文传递
文本分类中结合评估函数的TEF-WA权值调整技术 被引量:26
2
作者 唐焕玲 孙建涛 陆玉昌 《计算机研究与发展》 EI CSCD 北大核心 2005年第1期47-53,共7页
文本自动分类面临的难题之一是如何从高维的特征空间中选取对文本分类有效的特征,以适应文本分类算法并提高分类精度.针对这一问题,在分析比较特征选择和权值调整对文本分类精度和效率的影响后,提出了一种结合评估函数的TEF-WA权重调整... 文本自动分类面临的难题之一是如何从高维的特征空间中选取对文本分类有效的特征,以适应文本分类算法并提高分类精度.针对这一问题,在分析比较特征选择和权值调整对文本分类精度和效率的影响后,提出了一种结合评估函数的TEF-WA权重调整技术,设计了一种新的权重函数,将特征评估函数蕴含到权值函数,按照特征对文本分类的辨别能力调整其在分类器中的贡献.实验结果证明了TEF-WA权值调整技术在提高分类精度和降低算法的时间复杂度方面都是有效的. 展开更多
关键词 向量空间模型(vsm) 特征选择 权重调整 特征评估函数 文本分类
下载PDF
基于向量空间模型的文本检索系统 被引量:18
3
作者 王晓黎 王文杰 《微电子学与计算机》 CSCD 北大核心 2006年第6期188-190,共3页
文章介绍了向量空间模型的基本原理,分析了文本检索系统常用的性能评估标准。基于向量空间模型、自动术语提取、相关性排序等技术实现了一个高效的文本检索系统,阐述了系统的架构。实际运行状况表明,该系统能够满足中小企业的网站站内... 文章介绍了向量空间模型的基本原理,分析了文本检索系统常用的性能评估标准。基于向量空间模型、自动术语提取、相关性排序等技术实现了一个高效的文本检索系统,阐述了系统的架构。实际运行状况表明,该系统能够满足中小企业的网站站内搜索的需求,提高网站的访问效率。 展开更多
关键词 向量空间模型 vsm 文本检索 信息获取
下载PDF
基于隐式反馈的自适应用户兴趣模型 被引量:17
4
作者 李峰 裴军 游之洋 《计算机工程与应用》 CSCD 北大核心 2008年第9期76-79,100,共5页
针对现有用户兴趣模型在模型建立以及更新阶段漂移策略的缺陷,设计了一种改进的基于隐式反馈的自适应用户兴趣模型。并将该模型与遗忘策略模型、滑动时间窗口模型和固定比例模型,做了精确率的对比实验,实验结果显示该模型的性能优于其... 针对现有用户兴趣模型在模型建立以及更新阶段漂移策略的缺陷,设计了一种改进的基于隐式反馈的自适应用户兴趣模型。并将该模型与遗忘策略模型、滑动时间窗口模型和固定比例模型,做了精确率的对比实验,实验结果显示该模型的性能优于其他三个模型。 展开更多
关键词 个性化推荐服务 用户兴趣模型 vsm
下载PDF
基于词同现频率的文本特征描述 被引量:8
5
作者 余刚 陈华月 +1 位作者 朱征宇 高原 《计算机工程与设计》 CSCD 北大核心 2005年第8期2180-2182,共3页
文本的特征描述是文本自动处理的基础工作之一,目前的文本特征描述一般采用加权VSM模型,该模型大都使用统计的和经验的加权算法,该算法方便了计算机对中文文本的相似度计算,但不能很好地揭示文本中词与词的关系。针对此缺点,提出了一种... 文本的特征描述是文本自动处理的基础工作之一,目前的文本特征描述一般采用加权VSM模型,该模型大都使用统计的和经验的加权算法,该算法方便了计算机对中文文本的相似度计算,但不能很好地揭示文本中词与词的关系。针对此缺点,提出了一种基于词同现频率的加权算法,使得文本的特征向量蕴涵了词与词的相关信息,最后用实验对该算法的效果进行了证明。 展开更多
关键词 向量空间模型 文本挖掘 词同现频率 权重计算 匹配
下载PDF
基于语义的聚焦爬虫算法研究 被引量:9
6
作者 孙红光 藏润强 +2 位作者 姬传德 杨凤芹 冯国忠 《东北师大学报(自然科学版)》 CAS CSCD 北大核心 2018年第2期51-57,共7页
针对现存的语义主题爬虫没有考虑主题意义的延伸、页面与主题的相似度计算模型存在的缺陷及主题词项细化过于苛刻导致返回结果较少等不足,采用LDA(Latent Dirichlet Allocation)模型,对主题词项描述文档进行降维,改进语义相似度计算模型... 针对现存的语义主题爬虫没有考虑主题意义的延伸、页面与主题的相似度计算模型存在的缺陷及主题词项细化过于苛刻导致返回结果较少等不足,采用LDA(Latent Dirichlet Allocation)模型,对主题词项描述文档进行降维,改进语义相似度计算模型.引入语义信息的相似度计算模型(SVSM),用SVSM计算文档和主题模型的相似度.从本体中获取该主题词项的上位词,构建主题上位词的主题模型,爬虫依据现有网络中的主题重新获取主题相关信息,提出语义聚焦爬虫(ESVSM),通过不同主题下多个爬虫进行实验对比,发现所提出的基于主题建模和上位词替换的ESVSM算法在收获率、相关网页数量和网页平均相关度中均优于其他算法,平均抓取精度达到85%. 展开更多
关键词 聚焦爬虫 LDA 主题模型 向量空间模型(vsm) 语义相似度
下载PDF
VSM模型在文档结构识别中的应用 被引量:10
7
作者 宋昊苏 李宁 张伟 《北京信息科技大学学报(自然科学版)》 2011年第6期66-69,75,共5页
借鉴向量空间模型(VSM),将文档的单元结构映射到特征向量,并对其进行归一化和加权处理,再计算标准文档结构分类特征向量和待查文档单元结构特征向量的相似度,实现对文档结构的识别。测试结果表明,该方法实现了文档格式的向量表示,易于计... 借鉴向量空间模型(VSM),将文档的单元结构映射到特征向量,并对其进行归一化和加权处理,再计算标准文档结构分类特征向量和待查文档单元结构特征向量的相似度,实现对文档结构的识别。测试结果表明,该方法实现了文档格式的向量表示,易于计算,具有较好的扩展性,可在此基础上实现其他特定结构文档格式的自动检查或文档理解。 展开更多
关键词 文档结构识别 向量空间模型 文档格式校验 文档理解
下载PDF
一种基于关键特征的搜索引擎结果聚类算法 被引量:4
8
作者 张辉 谢科 +1 位作者 庞斌 吴辉 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2007年第6期739-742,共4页
为了解决用户在搜索引擎结果列表中寻找所需信息困难的问题,帮助用户快速有效地定位有价值的Web文档,与向量空间模型方法不同,采用基于关键特征的聚类算法(KFC).首先从搜索引擎返回结果的关键词里选择重要的词作为关键特征,然后通过分... 为了解决用户在搜索引擎结果列表中寻找所需信息困难的问题,帮助用户快速有效地定位有价值的Web文档,与向量空间模型方法不同,采用基于关键特征的聚类算法(KFC).首先从搜索引擎返回结果的关键词里选择重要的词作为关键特征,然后通过分析特征间的关系对特征聚类,最后基于特征聚类结果实现文档的聚类.通过对实验结果的测试表明了算法的有效性. 展开更多
关键词 搜索引擎 算法 特征提取 文档聚类 向量空间模型vsm KFC算法
下载PDF
一种快速有效的Web文档聚类方法 被引量:1
9
作者 张蓉 《计算机应用研究》 CSCD 北大核心 2004年第4期174-176,共3页
以矢量空间模型VSM为Web文本的表示方法,提出了一种基于关联规则的Web文档聚类方法。实验证明:该方法能在保证文档聚类高精度的同时,依然保持高效率,其聚类性能明显优于传统Web文档聚类算法。
关键词 WEB挖掘 文档聚类 矢量空间模型vsm 关联规则
下载PDF
文本分类技术研究 被引量:3
10
作者 曹锋 张代远 《电脑知识与技术(过刊)》 2009年第11X期9023-9025,共3页
文本分类作为机器学习和信息检索之间的交叉学科,涉及到多个领域的技术。它的完善有赖于各个相关领域的技术发展和提高,该文介绍了文本分类过程中的各个关键技术和存在的问题,讨论了文本表示模型、分类算法、分类器性能评价原理和方法,... 文本分类作为机器学习和信息检索之间的交叉学科,涉及到多个领域的技术。它的完善有赖于各个相关领域的技术发展和提高,该文介绍了文本分类过程中的各个关键技术和存在的问题,讨论了文本表示模型、分类算法、分类器性能评价原理和方法,最后并对今后的发展进行了展望。 展开更多
关键词 文本分类 分类算法 vsm(vector space model) 语义网络 特征提取
下载PDF
多协议下智能家居协议的分类方法 被引量:3
11
作者 彭大芹 项磊 +2 位作者 李司坤 杨彩敏 邱雨 《重庆邮电大学学报(自然科学版)》 CSCD 北大核心 2018年第3期321-328,共8页
针对市场上智能家居协议标准繁多,加大了流量识别与分类难度这一问题,提出了一种多协议下智能家居协议的分类方法。该方法利用数理统计计算出K-Means聚类算法的K值和聚类初始中心,基于向量空间模型(vector space model,VSM)概念,使用数... 针对市场上智能家居协议标准繁多,加大了流量识别与分类难度这一问题,提出了一种多协议下智能家居协议的分类方法。该方法利用数理统计计算出K-Means聚类算法的K值和聚类初始中心,基于向量空间模型(vector space model,VSM)概念,使用数据对象间的相似度去代替K-Means聚类算法中数据对象间的距离,使用信息熵作为聚类好坏的评估。选用真实环境下捕获的实验数据进行测试验证。结果表明,该方法对多协议下智能家居协议的分类精度达到90%以上。 展开更多
关键词 智能家居协议 K-MEANS 聚类 向量模型化(vsm) 信息熵
下载PDF
一种利用向量空间模型快速检索文本情报的方法 被引量:1
12
作者 樊甫华 张万军 《计算机工程与科学》 CSCD 2004年第11期59-61,共3页
向量空间模型(VSM)是一种效果较好的信息检索模型。本文提出了利用向量空间模型实现对文本情报快速检索的方法。在阐述建立分类情报的索引词向量的基础上,讨论了利用索引词向量映射文本情报和存储文档向量矩阵的方法,并通过实例介绍了... 向量空间模型(VSM)是一种效果较好的信息检索模型。本文提出了利用向量空间模型实现对文本情报快速检索的方法。在阐述建立分类情报的索引词向量的基础上,讨论了利用索引词向量映射文本情报和存储文档向量矩阵的方法,并通过实例介绍了如何通过计算检索向量和文档向量矩阵的相关度来确定返回的检索内容。 展开更多
关键词 向量空间模型 文档 索引 快速检索 vsm 信息检索模型 文本 情报 方法 内容
下载PDF
中文网页自动分类系统研究
13
作者 廖文军 叶喜民 《新乡师范高等专科学校学报》 2007年第2期67-69,共3页
给出了一个网页自动分类系统的设计,讨论了预处理、批量训练、特征选择等模块的设计过程。本系统采用空间向量模型作为分类模型,在分类开始前对网页信息进行了预处理。
关键词 网页 文本分类 向量空间模型(vsm) 中文信息处理
下载PDF
基于减少相似主题分类错误的权重分配新策略
14
作者 唐焕玲 王敬东 陆玉昌 《计算机工程与应用》 CSCD 北大核心 2004年第13期185-188,共4页
文本分类的研究者一直在提高文本的分类精度方面做着不懈的努力,在实验中发现,相似主题的文档的分类错误率比较高,该文尝试着提出了一种二次权重分配的新的特征权值分配策略,构造了一种计算难以区分的主题类别的特征辨别能力的权值函数... 文本分类的研究者一直在提高文本的分类精度方面做着不懈的努力,在实验中发现,相似主题的文档的分类错误率比较高,该文尝试着提出了一种二次权重分配的新的特征权值分配策略,构造了一种计算难以区分的主题类别的特征辨别能力的权值函数,目的是减少相似主题类别的文档的分类错误。 展开更多
关键词 向量空间模型(vsm) 特征选择 权值调整 贝叶斯分类
下载PDF
突发公共事件网络在线评论序列的特征分析 被引量:2
15
作者 李斌 彭勤科 张晨 《计算机应用研究》 CSCD 北大核心 2008年第9期2809-2812,共4页
针对网络评论这种新型文本的特点,给出了一组描述网络评论序列特征的指标,提出了一种基于网络评论倾向性的网络评论序列特征分析方法,并结合实例对网络评论序列的特征、网络新闻与其评论序列的关系,特别是谣言对评论序列的影响进行了分析。
关键词 评论序列 特征分析 向量空间模型 倾向性特征向量
下载PDF
基于向量空间模型的浮选泡沫图像分类方法研究 被引量:1
16
作者 王雅琳 张润钦 +1 位作者 谢永芳 桂卫华 《高技术通讯》 CAS CSCD 北大核心 2013年第9期973-979,共7页
针对基于图像底层特征的泡沫图像分类识别正确率不高、存在语义鸿沟问题,提出一种基于向量空间模型(VSM)的浮选泡沫图像分类方法。该方法借鉴文本分类方法,对工业摄像机获取的大量泡沫图像通过分块、底层特征提取和聚类,构造泡沫状态词... 针对基于图像底层特征的泡沫图像分类识别正确率不高、存在语义鸿沟问题,提出一种基于向量空间模型(VSM)的浮选泡沫图像分类方法。该方法借鉴文本分类方法,对工业摄像机获取的大量泡沫图像通过分块、底层特征提取和聚类,构造泡沫状态词汇表;在此基础上,经词汇相似度和词频计算,用词袋向量描述泡沫图像;最后,采用VSM实现实时泡沫图像的有监督分类识别。用某金属浮选过程工业现场泡沫图像数据对该方法进行了实验验证,实验结果表明,该方法的工况识别平均准确率近90%,明显优于基于底层特征的分类方法,并在一定程度上解决了语义鸿沟问题,具有很好的应用价值。 展开更多
关键词 泡沫图像 分类识别 向量空间模型(vsm 泡沫状态词汇 纹理
下载PDF
演化计算在特征词条优化中的应用
17
作者 连远锋 侯锟 +1 位作者 张沛露 许建潮 《长春工业大学学报》 CAS 2004年第1期32-35,共4页
采用演化计算方法,对初步得出的文档矢量做进一步的优化处理,在保证原文含义的基础上,找出最能反映样例文档内容,又比较简洁的特征矢量,并提出新的适应值函数。
关键词 演化算法 特征矢量 vsm
下载PDF
信息检索技术综述 被引量:1
18
作者 梁鸿雁 《软件导刊》 2010年第9期35-37,共3页
在现有研究的基础上,对信息检索技术进行概述,首先对基于关键词匹配的信息检索技术进行了讨论,并指出其不足。其次针对关键词检索中存在的问题对两类语义检索进行了研究,实现了把信息检索从基于关键词层面提高到知识层面。
关键词 信息检索 vsm 本体概念 潜在语义分析 查询扩展
下载PDF
互联网信息资源的个性化搜索研究
19
作者 陈弄祺 《中国人口·资源与环境》 CSSCI CSCD 北大核心 2016年第S2期432-435,共4页
本文根据未来搜索引擎个性化发展方向,提出和检验了具有个性化特色的搜索引擎算法设计。通过向量空间模型(VSM)设计个性化互联网信息资源搜索引擎,建立了用户兴趣模型对词条的相似度进行精确化处理,得出了关键词相关性排序算法。最后,... 本文根据未来搜索引擎个性化发展方向,提出和检验了具有个性化特色的搜索引擎算法设计。通过向量空间模型(VSM)设计个性化互联网信息资源搜索引擎,建立了用户兴趣模型对词条的相似度进行精确化处理,得出了关键词相关性排序算法。最后,使用关键词数据进行了基础模型检验,说明VSM法达到较高水准,在此基础上完善了本文搜索理论。运用向量空间模型(VSM)进行个性化搜索引擎设计,搜索算法特色鲜明,搜索结果更符合用户的兴趣需求,具有一定的创新性。 展开更多
关键词 互联网 信息资源 个性化搜索 向量空间模型(vsm)
下载PDF
基于个性化服务的相关性算法的研究
20
作者 王元直 卢潇 +1 位作者 钱建立 欧阳辉 《电子设计工程》 2010年第9期1-3,共3页
在介绍个性化服务的相关知识的基础上,通过个性化服务的技术来提高用户和系统的互动性,从而提高搜索的查准率。并针对当前搜索引擎查询的信息太多,用户查询效率不高等问题,研究个性化搜索,并结合用户兴趣度完善了向量空间模型,提出一种... 在介绍个性化服务的相关知识的基础上,通过个性化服务的技术来提高用户和系统的互动性,从而提高搜索的查准率。并针对当前搜索引擎查询的信息太多,用户查询效率不高等问题,研究个性化搜索,并结合用户兴趣度完善了向量空间模型,提出一种解决搜索查询的方法,通过验证该搜索查询方法达到比较满意的结果。 展开更多
关键词 个性化服务 向量空间模型(vsm) 兴趣度 搜索引擎 查询
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部