期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
基于主题信息的项目评审专家推荐方法 被引量:6
1
作者 余峰 余正涛 +2 位作者 杨剑锋 郭剑毅 严馨 《计算机工程》 CAS CSCD 2014年第6期201-205,共5页
针对为项目自动推荐评审专家的任务特点,提出一种基于主题信息的专家推荐方法。在分析项目与专家描述文档的属性特点后,使用隐含狄利克雷分配模型获取文档内容的主题词,通过统计主题词词频的方法构建主题特征空间,并结合文档属性栏目的... 针对为项目自动推荐评审专家的任务特点,提出一种基于主题信息的专家推荐方法。在分析项目与专家描述文档的属性特点后,使用隐含狄利克雷分配模型获取文档内容的主题词,通过统计主题词词频的方法构建主题特征空间,并结合文档属性栏目的重要性因素,利用TF-IDF特征提取算法分别获得项目文档与专家文档的主题特征向量,采用改进的相似度算法计算项目与专家主题特征向量的相关度,并选择与项目相关度较高的专家作为推荐结果。实验结果表明,该方法的推荐效果优于使用TF-IDF+余弦相似度计算的推荐方法,准确率、召回率和综合评价指标F值平均提高了4.87%,5.04%和4.97%。 展开更多
关键词 专家推荐 隐含狄利克雷分配模型 主题词 向量空间模型 tfidf特征 相似度计算
下载PDF
基于机器学习的新闻文本分类研究 被引量:2
2
作者 李秀秀 陈海山 《电脑编程技巧与维护》 2021年第12期132-135,共4页
利用Python语言对5000条新闻数据进行了文本分类。通过词频和TF-IDF统计量构建特征向量,通过精准率和召回率对比前后2种特征提取算法的分类效果,通过逻辑回归、朴素贝叶斯和支持向量机进行分类结果对比,结果表明:对于目标新闻文本,在同... 利用Python语言对5000条新闻数据进行了文本分类。通过词频和TF-IDF统计量构建特征向量,通过精准率和召回率对比前后2种特征提取算法的分类效果,通过逻辑回归、朴素贝叶斯和支持向量机进行分类结果对比,结果表明:对于目标新闻文本,在同等条件下,使用TF-IDF构建词向量模型的精准率和召回率比使用词频词袋模型分别高出0.013和0.012个百分点。在使用TF-IDF特征的基础上,朴素贝叶斯、逻辑回归和支持向量机算法的准确率是依次上升的,其中支持向量机的精度最好。 展开更多
关键词 新闻文本分类 tf-idf特征 逻辑回归 朴素贝叶斯 支持向量机
下载PDF
基于改进TF-IDF特征的中文文本分类系统 被引量:12
3
作者 但唐朋 许天成 张姝涵 《计算机与数字工程》 2020年第3期556-560,共5页
随着Internet技术的发展,人们不仅可以从网络获取信息,也能够在网络上表达个人观点、分享自身体验。自Web2.0以来网络已经由原来的阅读式网络转换成为了当今的交互式网络。而伴随网络发展的是成几何速率增长的网络信息。文本信息是网络... 随着Internet技术的发展,人们不仅可以从网络获取信息,也能够在网络上表达个人观点、分享自身体验。自Web2.0以来网络已经由原来的阅读式网络转换成为了当今的交互式网络。而伴随网络发展的是成几何速率增长的网络信息。文本信息是网络信息的重要组成部分,不同文本信息可以分成新闻、娱乐、时评、财经等不同类别。进行中文文本分类不仅能为建立文本语料库提供便利还能够应用到其它数据挖掘领域。论文基于改进TF-IDF特征并结合SVM模型设计了一种自动化的中文文本分类系统。实验证明,对比传统特征提取方式,采用改进TF-IDF特征策略进行文本分类能够获得更高的准确度。 展开更多
关键词 文本分类 自然语言处理 BOW模型 机器学习 改进tf-idf特征
下载PDF
基于ICE-LDA模型的中英文跨语言话题发现研究 被引量:7
4
作者 陈兴蜀 罗梁 +2 位作者 王海舟 王文贤 高悦 《工程科学与技术》 EI CAS CSCD 北大核心 2017年第2期100-106,共7页
近年来互联网在全球化的大背景下飞速发展,针对跨语言的网络数据挖掘成为国内外舆情分析的热点问题,有效实时地检测中英文网络环境下的热点话题对舆情的掌握和舆情的发展有着至关重要的作用。网络新闻作为网络信息舆情中的重要组成部分... 近年来互联网在全球化的大背景下飞速发展,针对跨语言的网络数据挖掘成为国内外舆情分析的热点问题,有效实时地检测中英文网络环境下的热点话题对舆情的掌握和舆情的发展有着至关重要的作用。网络新闻作为网络信息舆情中的重要组成部分,由于互联网的大规模普及而成为人们方便快捷获知信息的重要来源。首先,本文选择中文与英文的网络新闻作为数据源进行采集,提出了在LDA模型上改进的ICE-LDA模型进行跨英汉语言网络环境下的共现话题发现。采用话题向量化的方式,对建模产生的话题进行JS距离检测和话题文本分布相似度度量。其次,本文分别对爬虫采集到的中英混合新闻数据分别构建可对比平行语料集和非可对比语料集进行话题建模,在建模过程中利用TF-IDF算法对文档提取特征词去噪,提高话题特征表示去除无意义噪音词。最后,分别采用两种不同的话题向量化方式进行跨语言的共现话题发现建模。实验结果表明,在本文设计的爬虫采集构建的真实数据集上,改进后的话题模型不仅能够在不需要先验话题对的情况下对可对比语料集进行跨语言共现话题进行发现,而且能够对语料不平衡的情况进行共现话题发现。 展开更多
关键词 话题发现 跨英汉文本 ICE-LDA模型 tf-idf特征提取 共现话题
下载PDF
基于机器学习下的SVM模型预测世界各国菜系
5
作者 娄钰明 《电子制作》 2019年第14期33-37,共5页
当今社会,世界菜系错综繁杂,人们对食材的品质以及菜品是否美味的要求越来越高。为此,本文以数据分析调查菜品的成分和预测菜品的菜系为目的,建立并使用以TF-IDF加权技术为基础进行的支持向量机,研究菜系成分,分类预测菜系。应用TF-IDF... 当今社会,世界菜系错综繁杂,人们对食材的品质以及菜品是否美味的要求越来越高。为此,本文以数据分析调查菜品的成分和预测菜品的菜系为目的,建立并使用以TF-IDF加权技术为基础进行的支持向量机,研究菜系成分,分类预测菜系。应用TF-IDF数据进行加权,使其预测更加符合实际。基于SVM支持向量机的图像,对模型不断训练,对超平面不断调整,最终使模型的均方误差减小,达到判断较为精确的效果。 展开更多
关键词 菜系预测 支持向量机 tf-idf特征向量分类
下载PDF
基于随机森林的世界各地菜系预测及分析
6
作者 朱恩正 《电子制作》 2019年第12期36-39,共4页
漫步街头,你今晚吃什么?当今会,世界菜系多种多样,人们对食材的品质以及菜品的美味程度要求越来越高;菜品是否合乎口味影响着大家的心情,n乃至生活质量。以预测菜品的菜系为目的,本文通过应用TF-IDF算法进行加权,使预测结果更加符合实际... 漫步街头,你今晚吃什么?当今会,世界菜系多种多样,人们对食材的品质以及菜品的美味程度要求越来越高;菜品是否合乎口味影响着大家的心情,n乃至生活质量。以预测菜品的菜系为目的,本文通过应用TF-IDF算法进行加权,使预测结果更加符合实际;基于随机森林,通过“剪枝”来防止过拟合,利用多棵决策树的决策投票决定结果,使数据的预测结果更加准确,最终投票决定最佳分类,从而得到一个较为准确的菜系预测模型。 展开更多
关键词 数据挖掘 菜系预测 随机森林 tfidf特征向量分类
下载PDF
基于权重的SVM预测模型的设计与实现
7
作者 李开阳 《电子制作》 2019年第4期31-34,共4页
当今社会,世界菜系多种多样,人们对食材的品质以及菜品味道的要求越来越高,菜品的美味与否时时刻刻影响着人们的生产和生活。问题:目前人们虽然接触到了许许多多的菜品,但是对其中的成分和分属菜系并不是真正了解。对菜系有意的各餐饮... 当今社会,世界菜系多种多样,人们对食材的品质以及菜品味道的要求越来越高,菜品的美味与否时时刻刻影响着人们的生产和生活。问题:目前人们虽然接触到了许许多多的菜品,但是对其中的成分和分属菜系并不是真正了解。对菜系有意的各餐饮企业由于找不到菜系大数据分析,在进行菜系推荐时有了一定难度。利用数据挖掘技术分析存放在数据库中大量的菜谱信息并以此预测世界各地的菜品及其分属的菜系。利用以支持向量机(SVM)为主,以Python为辅的有效方法,并基于TF-IDF加权技术进行数据分析,从多方面构建数据挖掘模型。效果:使用以TF-IDF加权技术为基础进行的支持向量机,研究菜系成分,预测菜系并构建模型;应用TF-IDF数据进行加权,使其预测更加符合实际;基于SVM支持向量机的图像,对超平面进行不断调整,使模型的均方误差减小,使数据更加准确;还利用Python中的循环语句分析菜品中出现最多的成分并使结果可视化。由此得到了一个较为准确的菜系预测模型。 展开更多
关键词 菜系预测 支持向量机 tf-idf特征向量分类 PYTHON 循环语句
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部