期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
基于特征相关的改进加权朴素贝叶斯分类算法 被引量:30
1
作者 饶丽丽 刘雄辉 张东站 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2012年第4期682-685,共4页
朴素贝叶斯分类算法的特征项间强独立性的假设在现实中是很难满足的.为了在一定程度上放松这一假设,提出了基于特征相关的改进加权朴素贝叶斯分类算法,该算法采用一种新的权重计算方法,这种权重计算方法是在传统词频-反文档频率(TF-IDF... 朴素贝叶斯分类算法的特征项间强独立性的假设在现实中是很难满足的.为了在一定程度上放松这一假设,提出了基于特征相关的改进加权朴素贝叶斯分类算法,该算法采用一种新的权重计算方法,这种权重计算方法是在传统词频-反文档频率(TF-IDF)权重计算基础上,考虑到特征项在类内和类间的分布情况,另外还结合特征项间的相关度,调整权重计算值,加大最能代表所属类的特征项的权重,将它称之为TF-IDF-FC权重计算.与基于传统TF-IDF权重的加权朴素贝叶斯分类算法和其他常用加权朴素贝叶斯分类算法比较,如基于属性加权的朴素贝叶斯分类算法,这种算法的分类效果均有一定的提高. 展开更多
关键词 朴素贝叶斯文本分类器 加权朴素贝叶斯文本分类算法 tfidf权重 特征项间的相关度
下载PDF
基于改进的TF-IDF权重的短文本分类算法 被引量:15
2
作者 杨彬 韩庆文 +4 位作者 雷敏 张亚鹏 刘向国 杨亚强 马雪峰 《重庆理工大学学报(自然科学)》 CAS 2016年第12期108-113,共6页
短文本具有特征稀疏的特点,如采用TF-IDF权重和算法来选择短文本特征,很多具有专业领域信息特征而训练集中未出现过的特征将被忽略,从而导致待分类文本集的权值分布比较集中,区分度小,最终影响短文本信息推送。因此,一种基于改进的TF-ID... 短文本具有特征稀疏的特点,如采用TF-IDF权重和算法来选择短文本特征,很多具有专业领域信息特征而训练集中未出现过的特征将被忽略,从而导致待分类文本集的权值分布比较集中,区分度小,最终影响短文本信息推送。因此,一种基于改进的TF-IDF权重的短文本分类算法被提出。该算法通过同义词对分类器的关键词库进行扩展和基于特征长度对短文本权值进行加权,使得文本集的权值方差增大。与直接对短文本进行扩展的算法相比,该算法具有更快的分类速度。 展开更多
关键词 短文本 tf-idf权重 特征扩展
下载PDF
基于N-gram统计模型的搜索引擎中文纠错 被引量:7
3
作者 陈智鹏 吕玉琴 +2 位作者 刘华生 刘刚 屠辉 《中国电子科学研究院学报》 2009年第3期323-326,共4页
搜索引擎中的关键词纠错是提高检索效率的一项重要辅助功能。提出了一种完全通过分析上下文统计信息的方法,根据中文语言的特点,在建立N-gram统计模型并分析比较的基础上,再通过计算TF/IDF的权重来获得最优的纠错结果,最后通过实验验证... 搜索引擎中的关键词纠错是提高检索效率的一项重要辅助功能。提出了一种完全通过分析上下文统计信息的方法,根据中文语言的特点,在建立N-gram统计模型并分析比较的基础上,再通过计算TF/IDF的权重来获得最优的纠错结果,最后通过实验验证了该方法实现了搜索引擎中对输入关键词的自动检查和纠错。 展开更多
关键词 搜索引擎 输入纠错 N-GRAM模型 tf/idf
下载PDF
基于文本挖掘的生鲜物流服务质量评价 被引量:1
4
作者 李锦祥 郑少峰 曾阿锋 《物流技术》 2024年第1期21-29,共9页
由在线评论得到的物流服务质量评价结果能够有针对性地提升物流服务质量,对于提升生鲜电商的竞争力极其重要。结合SERVQUAL模式、LSQ模式和生鲜电商特点构建物流服务质量评价模型,以京东生鲜物流作为研究对象,通过python编写爬虫代码爬... 由在线评论得到的物流服务质量评价结果能够有针对性地提升物流服务质量,对于提升生鲜电商的竞争力极其重要。结合SERVQUAL模式、LSQ模式和生鲜电商特点构建物流服务质量评价模型,以京东生鲜物流作为研究对象,通过python编写爬虫代码爬取京东生鲜消费者评论并进行jieba分词,获得物流高频关键词及其TF-IDF 权重,并将关键词映射到评价模型的各个指标中。然后对关键词所在的评论进行情感打分,综合TF-IDF权重、情感打分、指标权重,计算得出每个指标的物流服务质量评价得分。根据评价结果发现,京东生鲜在可靠性、时间性、移情性等方面可以继续保持并提高,提出加强物流信息的及时准确性、重视退换货费用、采取多样的配送及取货方式等建议。研究结论可为生鲜电商企业优化产品物流服务、提升企业竞争力提供参考。 展开更多
关键词 物流服务质量 生鲜电商 在线评论 tf-idf权重 情感打分
下载PDF
Web文本预处理技术探析 被引量:3
5
作者 阳小兰 钱程 赵海廷 《电脑知识与技术(过刊)》 2010年第29期8247-8249,共3页
文本预处理是Web数据挖掘的前提和关键,文中介绍了Web文本预处理的四个步骤,给出了TF-IDF权重计算和文本相似度计算的实现方法。
关键词 文本预处理 分词 tf-idf权重 文本表示
下载PDF
高可靠性移动通信网络数据库跨域安全检索研究
6
作者 阚钿玉 《微型电脑应用》 2024年第8期46-50,共5页
高可靠性移动通信网络数据库在跨域检索过程中容易被攻击者修改数据,导致数据检索精度与效率下降,因而研究高可靠性移动通信网络数据库跨域安全检索方法。通过主密钥对和用户私钥、公钥确定密文索引,结合密文获取安全查询索引,提取安全... 高可靠性移动通信网络数据库在跨域检索过程中容易被攻击者修改数据,导致数据检索精度与效率下降,因而研究高可靠性移动通信网络数据库跨域安全检索方法。通过主密钥对和用户私钥、公钥确定密文索引,结合密文获取安全查询索引,提取安全查询索引关键词。通过改进TF-IDF权值方法确定索引关键词相关度分数,结合相关度分数对检索结果进行排名和过滤,将检索结果返回给数据使用者,完成跨域安全检索。实验结果表明,这种方法的检索结果的查全率、查准率、效率均较高,检索效果好。 展开更多
关键词 移动通信网络 数据库 安全查询索引 改进tf-idf权值方法 相关度分数
下载PDF
基于TF-IDF权值分配模型的招聘信息文本挖掘 被引量:1
7
作者 贺艳冰 周化 《企业技术开发》 2017年第2期20-22,共3页
文章通过建立TF-IDF模型,以网络招聘信息为主要研究对象,根据处理后的数据统计得出热门领域和热门行业,并针对IT市场分析其人才需求供应情况对职位、学历层次等方面做出详细的分析。该分析方法简单客观,实际应用所形成的最终结论,对高... 文章通过建立TF-IDF模型,以网络招聘信息为主要研究对象,根据处理后的数据统计得出热门领域和热门行业,并针对IT市场分析其人才需求供应情况对职位、学历层次等方面做出详细的分析。该分析方法简单客观,实际应用所形成的最终结论,对高校人才培养方案的制定和大学生职业生涯规划有较强的参照作用,以此为依据改善和修订相关专业的专业课程体系,能够提高学生的就业竞争能力。 展开更多
关键词 聚类分析 文本挖掘 tf-idf权值分配模型 混合模型
下载PDF
基于朴素贝叶斯算法的信息过滤研究 被引量:2
8
作者 杜拓 方红 《信息与电脑》 2023年第9期90-92,共3页
随着信息量的快速增长,获取和筛选相关信息变得越来越重要。文章研究了基于朴素贝叶斯算法的信息过滤方法。首先,介绍了朴素贝叶斯算法的基本原理,包括贝叶斯定理、朴素贝叶斯分类器及该算法的优缺点。其次,探讨了朴素贝叶斯算法在信息... 随着信息量的快速增长,获取和筛选相关信息变得越来越重要。文章研究了基于朴素贝叶斯算法的信息过滤方法。首先,介绍了朴素贝叶斯算法的基本原理,包括贝叶斯定理、朴素贝叶斯分类器及该算法的优缺点。其次,探讨了朴素贝叶斯算法在信息过滤领域的应用,包括信息过滤的分类、文本表示方法、基于朴素贝叶斯的信息过滤模型构建。最后,通过实验评估了该方法在文本分类任务上的性能,包括不同特征表示方法的对比以及与其他分类算法的性能对比。实验结果表明,基于朴素贝叶斯算法的信息过滤具有较好的性能,可以有效分类不同主题的文本。 展开更多
关键词 朴素贝叶斯算法 信息过滤 文本分类 词袋模型 词频-逆文档频率(tf-idf)权重计算
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部