期刊文献+
共找到85篇文章
< 1 2 5 >
每页显示 20 50 100
基于改进TF-IDF和ABLCNN的中文文本分类模型 被引量:23
1
作者 景丽 何婷婷 《计算机科学》 CSCD 北大核心 2021年第S02期170-175,190,共7页
文本分类是自然语言处理领域中的重要内容,常用于信息检索、情感分析等领域。针对传统的文本分类模型文本特征提取不全面、文本语义表达弱的问题,提出一种基于改进TF-IDF算法、带有注意力机制的长短期记忆卷积网络(Attention base on Bi... 文本分类是自然语言处理领域中的重要内容,常用于信息检索、情感分析等领域。针对传统的文本分类模型文本特征提取不全面、文本语义表达弱的问题,提出一种基于改进TF-IDF算法、带有注意力机制的长短期记忆卷积网络(Attention base on Bi-LSTM and CNN,ABLCNN)相结合的文本分类模型。该模型首先利用特征项在类内、类间的分布关系和位置信息改进TF-IDF算法,突出特征项的重要性,并结合Word2vec工具训练的词向量对文本进行表示;然后使用ABLCNN提取文本特征,ABLCNN结合了注意力机制、长短期记忆网络和卷积神经网络的优点,既可以有重点地提取文本的上下文语义特征,又兼顾了局部语义特征;最后,将特征向量通过softmax函数进行文本分类。在THUCNews数据集和online_shopping_10_cats数据集上对基于改进TF-IDF和ABLCNN的文本分类模型进行实验,结果表明,所提模型在两个数据集上的准确率分别为97.38%和91.33%,高于其他文本分类模型。 展开更多
关键词 文本分类 TF-IDF 卷积神经网络 注意力机制 长短期记忆网络
下载PDF
针对评论文本的情感分析方法 被引量:11
2
作者 杨玉娟 袁欢欢 王永利 《南京理工大学学报》 EI CAS CSCD 北大核心 2019年第3期280-285,291,共7页
为了克服传统基于机器学习的情感分析算法依赖手工建立情感词典、需要进行人工干预的缺点,该文提出1种加权word2vec注意力长短记忆网络(WWAL)情感分析模型。突出评论文本中关键词的作用,在word2vec的基础上引入了术语频率-逆文档频率(TF... 为了克服传统基于机器学习的情感分析算法依赖手工建立情感词典、需要进行人工干预的缺点,该文提出1种加权word2vec注意力长短记忆网络(WWAL)情感分析模型。突出评论文本中关键词的作用,在word2vec的基础上引入了术语频率-逆文档频率(TFIDF)算法形成词向量,同时在长期短期记忆(LSTM)网络模型中加入了注意力机制。在标准数据集上的实验证明,该文WWAL模型的查准率、召回率和F1指标等实验衡量指标均优于传统机器学习方法。 展开更多
关键词 评论文本 情感分析 术语频率-逆文档频率 长期短期记忆 注意力
下载PDF
城市功能区视角下基于POI数据的公共厕所空间布局合理性研究 被引量:9
3
作者 马强 王亮绪 +1 位作者 龚鑫 李科 《地球信息科学学报》 CSCD 北大核心 2022年第1期50-62,共13页
公共厕所作为最典型的公共设施,反映出城市的文明程度和管理服务水平,是打造城市文明形象的重要窗口。当前的研究主要集中在公共厕所的可达性和覆盖范围,把公共厕所当做空间上的点无差别对待,忽略了不同功能区公共厕所空间分布所异质性... 公共厕所作为最典型的公共设施,反映出城市的文明程度和管理服务水平,是打造城市文明形象的重要窗口。当前的研究主要集中在公共厕所的可达性和覆盖范围,把公共厕所当做空间上的点无差别对待,忽略了不同功能区公共厕所空间分布所异质性的问题。如何建立全面精准的公共厕所空间评价体系,分析不同区域公共厕所的综合服务能力在当前研究中明显不足,不利于公共厕所的配置规划和基本公共服务均等化的推进。多源数据的涌现为城市公共设施的研究提供了新视角,为此本文提出一个城市功能区视角下基于POI大数据的公共厕所空间布局合理性评价方法。利用词频-逆文本频率(Term Frequency-inverse Document Frequency,TF-IDF)信息加权技术,结合兴趣点(Point of Interest,POI)频率密度识别城市功能区,融合OpenStreetMap(OSM)路网密度数据和WorldPop人口数据设立人口出行活力指数,对城市功能区内的公共厕所服务进行评价;最后计算人口和空间覆盖率以及空间不平衡指数,判别街镇间的差别与街镇内公共厕所布局的合理性。该方法以多源数据为基础,定量分析不同功能区内公共厕所配置的合理性,并探讨公共厕所空间配置的差异化因素。以国内城市化程度最高之一的上海市为例进行计算,研究发现:①不同的城市功能区内厕所的配置数量不同,商服功能区的规划数量最多,商服功能区中公共厕所配置的合格度也最高,此外,“工业-商服”、“绿地-商服”等商服相关的联合功能区的合格度也处于较高水平,这是由于大量商业服务机构均对外提供公共厕所服务,提升了该地区的公共厕所的服务能力;②公共功能区内的合格度最低,仅有10.27%,与该类型附属公共厕所设施的开放程度相关;③上海市各街镇公共厕所的合格度整体较好,平均空间覆盖率达到67.31%,平均人口覆盖率达到70.72%;街 展开更多
关键词 词频-逆文本频率模型 大数据 城市功能区 兴趣点 出行活力指数 公共厕所 空间不平衡指数 空间与人口覆盖率 上海市
原文传递
基于集成学习技术的恶意软件检测方法 被引量:2
4
作者 李芳 朱子元 +1 位作者 闫超 孟丹 《信息安全学报》 CSCD 2024年第1期137-155,共19页
近年来,低级别微结构特征已被广泛应用于恶意软件检测。但是,微结构特征数据通常包含大量的冗余信息,且目前的检测方法并没有对输入微结构数据进行有效地预处理,这就造成恶意软件检测需要依赖于复杂的深度学习模型才能获得较高的检测性... 近年来,低级别微结构特征已被广泛应用于恶意软件检测。但是,微结构特征数据通常包含大量的冗余信息,且目前的检测方法并没有对输入微结构数据进行有效地预处理,这就造成恶意软件检测需要依赖于复杂的深度学习模型才能获得较高的检测性能。然而,深度学习检测模型参数量较大,难以在计算机底层得到实际应用。为了解决上述问题,本文提出了一种新颖的动态分析方法来检测恶意软件。首先,该方法创建了一个自动微结构特征收集系统,并从收集的通用寄存器(General-Purpose Registers,GPRs)数据中随机抽取子样本作为分类特征矩阵。相比于其他微结构特征,GPRs特征具有更丰富的行为特征信息,但也包含更多的噪声信息。因此,需要对GPRs数据进行特征区间分割,以降低数据复杂度并抑制噪声。本文随后采用词频-逆文档频率(Term Frequency-Inverse Document Frequency,TF-IDF)技术从抽取的特征矩阵中选择最具区分性的信息来进行恶意软件检测。TF-IDF技术可以有效降低特征矩阵的维度,从而提高检测效率。为了降低模型复杂度,并保证检测方法的性能,本文利用集成学习模型来识别恶意软件。实验表明,该集成学习模型具有99.3%的检测准确率,3.7%的误报率,优于其他现有方法且模型复杂度低。此外,该方法还可以用于检测真实数据中的恶意行为。 展开更多
关键词 恶意软件检测 通用寄存器 集成学习 词频-逆文档频率
下载PDF
Simhash算法在文本去重中的应用 被引量:7
5
作者 张航 盛志伟 +1 位作者 张仕斌 杨敏 《计算机工程与应用》 CSCD 北大核心 2020年第11期246-251,共6页
为了提升Simhash算法的文本去重效果、准确率,解决Simhash算法无法体现分布信息的缺点,提出了基于信息熵加权的Simhash算法(简称E-Simhash)。该算法引入TF-IDF和信息熵,通过优化Simhash算法中的权重及阈值计算,增加文本分布信息,使得最... 为了提升Simhash算法的文本去重效果、准确率,解决Simhash算法无法体现分布信息的缺点,提出了基于信息熵加权的Simhash算法(简称E-Simhash)。该算法引入TF-IDF和信息熵,通过优化Simhash算法中的权重及阈值计算,增加文本分布信息,使得最终生成的指纹更能体现关键信息的比重,并对指纹信息与权重的关联性进行了分析。仿真实验表明:优化权重计算能有效地提升Simhash算法的性能,E-Simhash算法在去重率、召回率、F值等方面均优于传统Simhash算法,并且在文本去重方面取得了良好的效果。 展开更多
关键词 Simhash 信息熵 词频-逆向文件频率 权重优化 文本去重
下载PDF
一种融合改进TF-IDF与词典模型的情感分类算法 被引量:1
6
作者 王康静 钱江海 《上海电力大学学报》 CAS 2024年第1期80-86,共7页
针对传统情感文本分类算法存在情感特征词的极性偏好区分度较低和稳定性较差等问题,提出了一种改进词频-逆文本频率(TF-IDF)模型与词典模型相融合的情感文本分类算法。首先,通过情感特征词在不同情感类型语料中的频率分布和离散系数,度... 针对传统情感文本分类算法存在情感特征词的极性偏好区分度较低和稳定性较差等问题,提出了一种改进词频-逆文本频率(TF-IDF)模型与词典模型相融合的情感文本分类算法。首先,通过情感特征词在不同情感类型语料中的频率分布和离散系数,度量情感特征词极性偏好所包含的区分度和稳定性,生成情感特征词极性指标;然后,使用该指标改进TF-IDF模型的情感特征词权重;最后,基于改进的TF-IDF模型,使用带决策函数的有监督分类算法计算情感文本的极性得分,并与词典模型所得的极性得分进行调和平均,得到情感文本综合极性得分。 展开更多
关键词 词频-逆文本频率 情感极性 离散系数 词典模型
下载PDF
基于业务内容构建股票关联关系的股价预测
7
作者 杨江 孙晓梅 许韬 《计算机与现代化》 2024年第7期21-25,共5页
传统的股价预测方法大多基于单只股票的时间序列,而忽视了股票间复杂的相互影响关系。针对该问题,从构建更有效的股票组合角度出发,提出一种基于业务内容构建股票关联关系的股价预测方法。模型包含3个组件:关联关系构建组件、时序特征... 传统的股价预测方法大多基于单只股票的时间序列,而忽视了股票间复杂的相互影响关系。针对该问题,从构建更有效的股票组合角度出发,提出一种基于业务内容构建股票关联关系的股价预测方法。模型包含3个组件:关联关系构建组件、时序特征提取组件和关联关系捕捉组件。关联关系构建组件通过改进的TF-IDF提取上市公司年报中业务内容关键字的相似度来构建股票关联关系;时序特征提取组件利用LSTM提取股票交易数据的时序特征;关联关系捕捉组件利用GCN捕获股票间相互作用的高维特征,最后通过全连接层输出预测的股价。在中国A股市场的实验结果表明,该模型与用单只股票和基于行业关系的预测方法相比误差最小,拟合度最优,能更有效地预测股价,是一种能更充分捕捉股票间相互影响关系的股价预测模型。 展开更多
关键词 股票价格预测 业务内容 股票关联关系 词频-逆向文件频率 长短期记忆神经网络 图卷积神经网络
下载PDF
融合词频-逆向文件频率的受限玻尔兹曼机推荐算法 被引量:6
8
作者 王成 李千目 《南京理工大学学报》 CAS CSCD 北大核心 2021年第5期551-557,共7页
针对数据稀疏性导致推荐算法准确度不高的难题,提出一种融合词频-逆向文件频率(Term frequency-inverse document frequency,TF-IDF)的受限玻尔兹曼机(Restricted Boltzmann machine,RBM)推荐算法,利用受限玻尔兹曼机构建用户项目二维... 针对数据稀疏性导致推荐算法准确度不高的难题,提出一种融合词频-逆向文件频率(Term frequency-inverse document frequency,TF-IDF)的受限玻尔兹曼机(Restricted Boltzmann machine,RBM)推荐算法,利用受限玻尔兹曼机构建用户项目二维评分矩阵,利用余弦相似度计算方法得出初始推荐评分,最后融合词频-逆向文件频率算法生成最终推荐结果集。对MovieLens1M的电影评分数据进行实验,结果显示,该文提出的混合推荐算法的平均绝对误差(Mean absolute error,MAE)和均方根误差(Root mean square error,RMSE)分别为0.6028和0.6225,比传统受限玻尔兹曼机分别提高3.22%与6.06%,也优于对照混合推荐模型的准确率。该算法能提高用户评分预测精度,进一步提升推荐质量。 展开更多
关键词 机器学习 受限玻尔兹曼机 词频-逆向文件频率 余弦相似度 对比散度
下载PDF
一种基于词频-逆文档频率和混合损失的表情识别算法 被引量:2
9
作者 蓝峥杰 王烈 聂雄 《计算机工程》 CAS CSCD 北大核心 2023年第1期295-302,310,共9页
面部表情能自然高效地表达人类的心理活动和思想状态,影响着人们的沟通交流过程。在诸多智能化应用中,人脸表情识别是人类与机器间建立情感交互的重要基础。在细粒度人脸表情识别任务中,由于特征提取网络对表情产生区域的关键特征处理不... 面部表情能自然高效地表达人类的心理活动和思想状态,影响着人们的沟通交流过程。在诸多智能化应用中,人脸表情识别是人类与机器间建立情感交互的重要基础。在细粒度人脸表情识别任务中,由于特征提取网络对表情产生区域的关键特征处理不足,从而引发细节特征信息丢失问题。提出一种词频-逆文档频率注意力机制TF-IDF SPA,通过该机制调整表情产生关键区域的注意力分布,强化网络对该区域关键细节特征的提取能力。同时,为了应对表情识别任务中普遍存在的类间差异小、类内差异大的问题,设计一种改进型混合加权损失函数,以增强表情类内聚拢性同时增大类间距离。依据数据集中样本的数量分布情况,动态调整损失函数的分类权重值,从而强化模型对小数据量样本的学习能力。在此基础上,将结构简单的TF-IDF SPA模块与卷积层共同堆叠以构建人脸表情识别网络。实验结果表明,该网络具有较好的人脸表情识别性能,在FER2013和CK+数据集上的分类准确率分别达到73.52%和98.27%。 展开更多
关键词 表情识别 FER2013数据集 CK+数据集 词频-逆文档频率 损失函数 注意力机制
下载PDF
结合汉明距离及语义的文本相似度量方法研究 被引量:6
10
作者 胡维华 鲍乾 李柯 《杭州电子科技大学学报(自然科学版)》 2016年第3期36-41,共6页
利用VSM模型的TF-IDF算法对文本进行相似度量是文本信息处理领域的常用做法,但是该方法涉及到高维稀疏矩阵的处理,计算效率不高,不利于处理大规模文本,同时该方法忽略词项语义信息对文本的影响.另有一种基于语义的相似度算法可克服前一... 利用VSM模型的TF-IDF算法对文本进行相似度量是文本信息处理领域的常用做法,但是该方法涉及到高维稀疏矩阵的处理,计算效率不高,不利于处理大规模文本,同时该方法忽略词项语义信息对文本的影响.另有一种基于语义的相似度算法可克服前一种方法的语义缺点,但需要知识库的支持,其建立过程的繁杂使此类算法理论多过实践.为此提出一种新的文本相似度计算方法,方法综合TF-IDF算法以及HOWNET的语义信息,并利用汉明距离计算文本相似度,避开对高维稀疏矩阵的直接处理.实验结果表明,与常用方法相比较,处理速度更快、性能更好,适用于大规模文本处理. 展开更多
关键词 文本相似度 向量空间模型 词频—逆文本频率 语义 汉明距离
下载PDF
基于深度特征融合的协同推荐算法
11
作者 王成 《南京理工大学学报》 CAS CSCD 北大核心 2024年第4期460-468,共9页
深度神经网络存在数据稀疏性难题和推荐精度不高的问题,为此提出一种基于深度特征融合的协同推荐算法,通过将深度神经网络与协同过滤算法相融合来改善问题。首先利用二次多项式回归模型对用户-项目评分矩阵进行特征提取;其次利用深度神... 深度神经网络存在数据稀疏性难题和推荐精度不高的问题,为此提出一种基于深度特征融合的协同推荐算法,通过将深度神经网络与协同过滤算法相融合来改善问题。首先利用二次多项式回归模型对用户-项目评分矩阵进行特征提取;其次利用深度神经网络对所输入的潜在特征进行训练,生成用户-项目评分;最后利用词频-逆向文件频率算法所生成的推荐候选集,融合用户-项目评分并最终输出推荐结果。利用MovieLens评分数据进行实验,该文混合推荐算法的平均绝对差(MAE)和均方根误差(RMSE)分别为0.7459、0.8886,比传统深度神经网络分别提高14.143%与24.341%,也优于对照组的混合推荐模型。 展开更多
关键词 深度神经网络 二次多项式 词频-逆向文件频率 特征融合 相似度
下载PDF
一种融合字词双通道的Domain-Flux僵尸网络检测方法 被引量:1
12
作者 李晓冬 宋元凤 李育强 《计算机科学》 CSCD 北大核心 2023年第12期337-342,共6页
Domain-Flux是僵尸网络中常用的一种命令与控制信道隐蔽技术,其能有效躲避网络安全设备的检测。针对现有检测方法中对Domain-Flux域名信息提取不全面,无法有效捕获词典类域名关键分类特征的问题,提出了一种融合字词双通道的Domain-Flux... Domain-Flux是僵尸网络中常用的一种命令与控制信道隐蔽技术,其能有效躲避网络安全设备的检测。针对现有检测方法中对Domain-Flux域名信息提取不全面,无法有效捕获词典类域名关键分类特征的问题,提出了一种融合字词双通道的Domain-Flux僵尸网络检测方法。在字符向量和词根向量两个通道上分别采用卷积神经网络(CNN)和双向长短期记忆网络(BiLSTM)提取局部特征和全局特征,丰富输入域名的特征信息,提升分类性能。其中,字符向量通道针对随机字符域名提取局部空间特征,而词根向量通道基于TF-IDF算法,引入类内因子将词根重要性加权到词向量中,然后提取域名单词组合序列前后的时序特征。实验结果表明,与单一采用TextCNN或BiLSTM的模型相比,融合字词双通道的模型检测准确率分别提高7.12%和5.86%,针对词典类Domain-Flux的检测也具有更高的精确率。 展开更多
关键词 Domain-Flux 僵尸网络 TF-IDF 卷积神经网络 双向长短期记忆网络
下载PDF
基于检索器-鉴别器架构的电力地址匹配模型研究
13
作者 赵坚鹏 盛方 +3 位作者 徐川子 陈奕 罗庆 陈聪 《电力大数据》 2023年第1期35-43,共9页
为解决电力地址库与外部地址库地址的匹配问题,保证电力地址准确性,实现电力系统与外部系统间数据信息共享互通,本文提出一种基于检索器-鉴别器架构的地址匹配模型。首先介绍地址匹配模型的详细结构,包括用于缩小地址检索范围的地址检... 为解决电力地址库与外部地址库地址的匹配问题,保证电力地址准确性,实现电力系统与外部系统间数据信息共享互通,本文提出一种基于检索器-鉴别器架构的地址匹配模型。首先介绍地址匹配模型的详细结构,包括用于缩小地址检索范围的地址检索器和最终分辨地址是否匹配正确的地址鉴别器,其中地址检索器基于词频-逆文档频率算法构建,地址鉴别器基于中文预训练语言模型NEZHA构建。还提出了一种负样本训练方法提升地址鉴别器辨别效果。详细介绍了实验分析所使用的两个数据集。实验结果表明基于检索器-鉴别器架构的电力地址匹配模型能够准确从外部地址库中找出与电力地址匹配的地址,其中,地址鉴别器能够非常准确地从多个候选地址中找出准确匹配地址,其F1分数达0.99以上。 展开更多
关键词 地址匹配 电力地址 词频-逆文档频率 中文预训练语言模型 负样本
下载PDF
基于TFIDF+LDA和Mini Batch K⁃means算法的在线课程推荐方法研究
14
作者 严武军 王丽蓉 《现代计算机》 2023年第23期15-20,共6页
在线教育资源急剧增长让学习者难以抉择,研究在线课程分类推荐,能帮助学习者快速获取所需资源。首先将潜在狄利克雷分配算法融入词频-逆向文件频率算法对数据进行预处理,生成词向量矩阵;之后采用Mini Batch K-means算法训练聚类模型,并... 在线教育资源急剧增长让学习者难以抉择,研究在线课程分类推荐,能帮助学习者快速获取所需资源。首先将潜在狄利克雷分配算法融入词频-逆向文件频率算法对数据进行预处理,生成词向量矩阵;之后采用Mini Batch K-means算法训练聚类模型,并采用T分布随机邻域嵌入降维算法对训练结果进行可视化分析。实验采用从Pluralsight在线课程API获取8016条数据进行实验,实验结果表明融入潜在狄利克雷分配算法的词频-逆向文件频率算法效果更好。 展开更多
关键词 词频逆向文件频率 潜在狄利克雷分配 Mini Batch K-means 在线课程推荐
下载PDF
面向中文短文本情感分析的改进特征选择算法 被引量:4
15
作者 王荣波 沈卓奇 +1 位作者 黄孝喜 谌志群 《杭州电子科技大学学报(自然科学版)》 2019年第1期45-50,共6页
在中文短文本情感分析的特征提取中,词频逆文本频率指数算法TF-IDF存在特征词分布计算片面性的缺陷,信息增益算法IG不能很好地提取短文本特征,为此,提出了一种改进特征选择算法ITFIDF-IG。根据短文本语料特点提高更具分类效果的特征词权... 在中文短文本情感分析的特征提取中,词频逆文本频率指数算法TF-IDF存在特征词分布计算片面性的缺陷,信息增益算法IG不能很好地提取短文本特征,为此,提出了一种改进特征选择算法ITFIDF-IG。根据短文本语料特点提高更具分类效果的特征词权重,降低了无关词的干扰,并考虑特征词在分布上体现的分类效果,有效提取出更具分类贡献度的特征词,更适应中文短文本的情感分析,取得较好的分类性能。 展开更多
关键词 特征选择 情感分析 词频逆文本频率指数 信息增益 中文短文本
下载PDF
基于改进M-ORB的视觉SLAM直接-闭环检测算法 被引量:2
16
作者 李伟 任孟瀚 +2 位作者 黄威豪 杜晓玉 周毅 《智能科学与技术学报》 2021年第4期482-491,共10页
直接法SLAM不在前端提取图像特征点,使得后端无法生成视觉词袋,这导致大部分直接法SLAM无法使用带有词袋模型的闭环检测来消除系统的累积误差。针对此问题,提出一种基于改进M-ORB的视觉SLAM直接-闭环检测算法,生成闭环检测所需的词袋模... 直接法SLAM不在前端提取图像特征点,使得后端无法生成视觉词袋,这导致大部分直接法SLAM无法使用带有词袋模型的闭环检测来消除系统的累积误差。针对此问题,提出一种基于改进M-ORB的视觉SLAM直接-闭环检测算法,生成闭环检测所需的词袋模型,然后采用词频-逆文档频率算法对视觉词典树各个子节点中的视觉单词进行自适应分配权重,得到场景信息的准确表述。在TUM、KITTI两种公开数据集上进行了对比实验,实验结果表明,所提出的算法能够有效检测到闭环,并在不降低准确性的同时,提高SLAM的实时性与鲁棒性。 展开更多
关键词 视觉SLAM 闭环检测 词袋模型 词频-逆文档频率
下载PDF
基于Laplacian图谱的短文本聚类算法 被引量:2
17
作者 孟海宁 冯锴 +3 位作者 朱磊 张贝贝 童新宇 黑新宏 《电子学报》 EI CAS CSCD 北大核心 2021年第9期1716-1723,共8页
提出基于词频处理的Laplacian图谱聚类算法,以解决短文本数据维数高、特征稀疏等问题.首先采用词频-逆文本频率指数TF-IDF(Term Frequency-Inverse Document Frequency)方法,将短文本数据集映射到文本向量空间得到词频权值矩阵;其次利用... 提出基于词频处理的Laplacian图谱聚类算法,以解决短文本数据维数高、特征稀疏等问题.首先采用词频-逆文本频率指数TF-IDF(Term Frequency-Inverse Document Frequency)方法,将短文本数据集映射到文本向量空间得到词频权值矩阵;其次利用Laplacian矩阵的图谱聚类特性,对词频权值矩阵进行数据降维处理;然后依据Laplacian矩阵的特征值表示文本相似度的特点,选择前K个特征值对应的特征向量作为初始聚类中心,以减少聚类过程的迭代次数.在SSC、20 News Group及Microblog PCU数据集上进行相关实验,结果表明Laplacian图谱聚类算法比传统聚类算法,不仅具有更优的聚类结果与更快的收敛速度,而且受噪声点影响较小,有很好的鲁棒性. 展开更多
关键词 Laplacian图谱 词频-逆文本频率指数 短文本聚类 向量空间模型 数据降维 特征权值
下载PDF
基于频次效应的多模态英语教学对输出信息相似度的影响 被引量:1
18
作者 朱燕 《基础教育外语教学研究》 2019年第8期33-37,50,共6页
频次是二语习得领域备受关注的热门话题。本研究以输入假设、输出假设和信息加工理论为主要理论依据,结合创新性地提出的基于WordNet改进的TF-IDF(词频-逆向文件频率)文本相似度算法进行数据分析,通过频次效应和三种教学模态,分别探究... 频次是二语习得领域备受关注的热门话题。本研究以输入假设、输出假设和信息加工理论为主要理论依据,结合创新性地提出的基于WordNet改进的TF-IDF(词频-逆向文件频率)文本相似度算法进行数据分析,通过频次效应和三种教学模态,分别探究在三种不同输入模态下,高一学生接受输入的频次与口头输出信息相似度之间的关系,以及不同模态下的口头输出信息相似度之间存在的差异。实验结果表明,为了实现英语教学效果的最大化,阅读应该作为一种主要的教学模态。但是,基于不同的班级类型和不同的教学目的,教学模态的选择应随之而异,从而更高效率地提升学生的外语学习能力和水平。 展开更多
关键词 频次效应 教学模态 相似度 词频-逆向文件频率
下载PDF
基于种子约束LDA的产品属性提取方法
19
作者 陈可嘉 郑晶晶 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2022年第6期37-48,70,共13页
为了从评论中分类提取产品属性,使得评论能够按照不同产品属性分别进行展示,提高消费者作出购买决策的效率,文中提出了基于种子约束LDA(隐含Dirichlet分布)的产品属性提取方法。该方法首先利用词频-逆文档频度(TF-IDF)算法自动提取关键... 为了从评论中分类提取产品属性,使得评论能够按照不同产品属性分别进行展示,提高消费者作出购买决策的效率,文中提出了基于种子约束LDA(隐含Dirichlet分布)的产品属性提取方法。该方法首先利用词频-逆文档频度(TF-IDF)算法自动提取关键词,作为属性种子集;接着对文档进行初次重组和二次重组,使二次重组后的文档只对一个产品属性进行描述,以解决长文本多属性类共现问题和短文本稀疏性问题,提高文档重组率;然后应用must-link和cannot-link两种种子约束定义概率扩缩值,通过对吉布斯采样过程的约束来影响LDA的主题分配,使得训练结果更加合理;最后将种子约束LDA生成的主题映射到先验属性类别上。定性分析(属性类别、属性词)和定量分析(准确率、熵值、纯度)结果表明,文中方法的准确率和纯度均高于现有的比较方法,而熵值低于现有的比较方法,说明了文中方法具有更好的聚类效果。 展开更多
关键词 属性提取 词频-逆文档频度 LDA模型 种子约束 重组 属性类别映射
下载PDF
基于用户评论信息的服装类商品评价机制研究 被引量:1
20
作者 龙琼 《纺织导报》 CAS 北大核心 2013年第10期106-106,108,109,共3页
电子商务网站用户评论信息是生产商和销售商改进商品和服务的关键指标,也是未来购买相同产品客户的重要参考意见,具有重大的研究意义。本文针对服装类的网络商品提出了一种新的网络商品的评价机制,并对比当前购物商城评价方法与新评价... 电子商务网站用户评论信息是生产商和销售商改进商品和服务的关键指标,也是未来购买相同产品客户的重要参考意见,具有重大的研究意义。本文针对服装类的网络商品提出了一种新的网络商品的评价机制,并对比当前购物商城评价方法与新评价方法的实验结果,从而证明了新机制更能够客观评价网络商品的优劣,更符合潜在用户对商品的认知需求。 展开更多
关键词 电子商务 信息增益 绝对词频-倒排文档频率
下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部