期刊文献+
共找到15篇文章
< 1 >
每页显示 20 50 100
基于语义信息的中文短信文本相似度研究 被引量:9
1
作者 刘金岭 宋连友 范玉虹 《计算机工程》 CAS CSCD 2012年第13期58-60,70,共4页
在传统TF-IDF模型基础上分析中文短信文本中特征词的语义信息,提出一种中文短信文本相似度度量方法。对短信文本进行预处理,计算各词语的TF-IDF值,并选择TF-IDF值较高的词作为特征词,借助向量空间模型的词语向量相似度,结合词语相似度加... 在传统TF-IDF模型基础上分析中文短信文本中特征词的语义信息,提出一种中文短信文本相似度度量方法。对短信文本进行预处理,计算各词语的TF-IDF值,并选择TF-IDF值较高的词作为特征词,借助向量空间模型的词语向量相似度,结合词语相似度加权,给出2篇短信文本相似度的计算方法。实验结果表明,该方法在F-度量值上优于TF-IDF算法及词语语义相似度算法。 展开更多
关键词 短信文本 相似度 tf-idf模型 特征词 向量空间模型
下载PDF
基于POI数据的城市功能区识别及主要交通枢纽空间分析 被引量:9
2
作者 赵家瑶 李宏伟 +1 位作者 邓圣乾 姜晶莉 《测绘与空间地理信息》 2019年第12期38-42,共5页
研究利用机器学习中的TF-IDF统计方法,基于POI数据识别北京五环范围内的城市用地功能区。实验从道路网和格网两个层面开展,首先,将两结果与相同地区的遥感影像进行对比与验证,并从中提取属于交通用地范畴中的主要交通枢纽;其次,基于空... 研究利用机器学习中的TF-IDF统计方法,基于POI数据识别北京五环范围内的城市用地功能区。实验从道路网和格网两个层面开展,首先,将两结果与相同地区的遥感影像进行对比与验证,并从中提取属于交通用地范畴中的主要交通枢纽;其次,基于空间服务范围和空间连接强度两个视角对火车站和机场的地理特征进行分析,具体包括空间分布范围的特点、受区域影响的强弱、空间联系强度的差异等内容;最后,进一步对比各重要交通枢纽所在空间单元作为出租车行程起始点和终止点的共性和差异性。 展开更多
关键词 兴趣点数据 城市功能区识别 tf-idf模型 交通枢纽 空间分析
下载PDF
基于特征权重的词向量文本表示模型 被引量:6
3
作者 蒋延杰 李云红 +3 位作者 苏雪平 张蕾涛 贾凯莉 陈锦妮 《西安工程大学学报》 CAS 2022年第1期108-114,共7页
针对传统文本表示方法无法准确表达文本信息、稀疏维度高等问题,提出基于特征权重的词向量文本表示模型。通过Glove模型获得词向量,然后分别与TF-IDF、N-Gram模型相结合,分析考虑了文本的全局信息,解决了传统表示方法中稀疏维度高的问题... 针对传统文本表示方法无法准确表达文本信息、稀疏维度高等问题,提出基于特征权重的词向量文本表示模型。通过Glove模型获得词向量,然后分别与TF-IDF、N-Gram模型相结合,分析考虑了文本的全局信息,解决了传统表示方法中稀疏维度高的问题,更好地捕捉了文本的语义和语序等局部信息,提高了文本特征表达能力。最后,通过20NewsGroup和5AbstractsGroup测试,分类准确率分别为85.93%、87.02%,验证了文本表示模型的有效性。 展开更多
关键词 tf-idf模型 N-GRAM模型 Glove模型 文本表示
下载PDF
基于混合向量模型的中文评论情感分析 被引量:3
4
作者 陈曦 朱小栋 +1 位作者 高广阔 肖芳雄 《计算机工程》 CAS CSCD 北大核心 2020年第1期309-314,共6页
为解决TF-IDF模型表达情感信息不足的问题,提出一种情感Senti模型,通过该模型提取文本中的情感信息,包括句子中积极/消极的情感词、否定词、转折词以及程度副词,考虑标点符号在句子中起到的情感作用,利用情感词典和语义规则提取情感信息... 为解决TF-IDF模型表达情感信息不足的问题,提出一种情感Senti模型,通过该模型提取文本中的情感信息,包括句子中积极/消极的情感词、否定词、转折词以及程度副词,考虑标点符号在句子中起到的情感作用,利用情感词典和语义规则提取情感信息,生成相应的情感矩阵。在此基础上,与TF-IDF模型进行拼接,形成混合向量模型。实验结果表明,与只运用TF-IDF模型相比,混合向量模型精确度更高,具有较好的分类效果。 展开更多
关键词 语义规则 tf-idf模型 混合向量化 多层感知机 汉语语料库
下载PDF
基于主题时态关联的科学领域研究演化识别 被引量:3
5
作者 田依林 李星 《情报科学》 CSSCI 北大核心 2021年第5期146-155,共10页
【目的/意义】从主题时态的角度,构建主题时态关联的科学领域研究演化的识别方法,为研究人员精准把握领域发展轨迹和科研创新提供参考。【方法/过程】提出基于主题时态关联的领域研究演化识别三阶段模型。首先利用TF-IDF模型提取领域文... 【目的/意义】从主题时态的角度,构建主题时态关联的科学领域研究演化的识别方法,为研究人员精准把握领域发展轨迹和科研创新提供参考。【方法/过程】提出基于主题时态关联的领域研究演化识别三阶段模型。首先利用TF-IDF模型提取领域文献数据集的特征词;再以特征词作为关联规则算法的挖掘条件,生成并过滤主题时态;最后,依据主题时态关联关系和强度值,构建主题时序演化路径可视化图谱进行领域研究演化识别分析。【结果/结论】以在线评论有用性领域外文科技文献为实证研究对象进行主题时态关联演化分析,识别出影响因素有用性、消费者意愿及应用、研究理论技术和有用性排序等主要领域研究的发展演化过程,验证了方法模型的有效性。【创新/局限】清晰地描绘了主题在时间序列上形成、发展和关注强度的动态演化过程,使得主题演进脉络和关联更加具有可读性,但样本数据未实现全覆盖,对领域研究的整体态势分析不够全面。 展开更多
关键词 主题时态 tf-idf模型 关联规则 层次聚类 研究演化 在线评论
原文传递
文本配图系统的设计与实现 被引量:1
6
作者 张明西 乐水波 +1 位作者 李学民 董一鹏 《包装工程》 CAS 北大核心 2020年第19期252-258,共7页
目的设计并开发文本配图系统,实现面向文本数据的在线自动配图。方法基于图片和文本之间的描述关系构建“图片-标签”二分网络,然后基于“图片-标签”的二分网络,利用重启随机游走模型进行图片与标签之间的相关性计算。采用TextRank模... 目的设计并开发文本配图系统,实现面向文本数据的在线自动配图。方法基于图片和文本之间的描述关系构建“图片-标签”二分网络,然后基于“图片-标签”的二分网络,利用重启随机游走模型进行图片与标签之间的相关性计算。采用TextRank模型提取关键字,并将关键字构成的集合作为查询,将关键字视为标签。基于离线计算结果,在线整合标签与图片之间的相关性,得到文本与图片的相关性。依据相关性由大到小进行排序,并返回前k个最相关的图片。结果实验结果表明,前5个返回结果的MAP值能够达到0.839,能够准确地返回用户期望的图片。结论系统能够依据输入文本进行准确的图片匹配。 展开更多
关键词 tf-idf模型 文本配图 重启随机游走 TextRank模型
下载PDF
基于TF-IDF 模型的风机变桨电机温升故障预警方法
7
作者 徐国生 徐祖永 +3 位作者 陈智云 周俊杰 吴江波 胡杨 《自动化与仪器仪表》 2021年第3期73-76,共4页
随着风能发电规模的不断扩大,风机变桨电机温升故障频发。传统风机变桨电机温升故障预警方法由于故障预警限值计算能力较差,导致在故障预警时及时性较差且无法确定故障位置。针对上述问题,设计基于TF-IDF模型的风机变桨电机温升故障预... 随着风能发电规模的不断扩大,风机变桨电机温升故障频发。传统风机变桨电机温升故障预警方法由于故障预警限值计算能力较差,导致在故障预警时及时性较差且无法确定故障位置。针对上述问题,设计基于TF-IDF模型的风机变桨电机温升故障预警方法。使用历史数据库以及小数缩放技术,完成风机变桨电机温度趋势监测。对数据进行预处理,使用TF-IDF模型捕捉故障数据并提取特征值。采用风速-温度曲线结合区间温度划分结果设定风机变桨电机温升故障预警限值。至此,基于TF-IDF模型的风机变桨电机温升故障预警方法设计完成。构建实验环节,选定电机退化情况以及故障位置确定能力作为对比指标。通过与传统方法对比可知,此方法在电机退化情况以及故障位置确定能力实验中所得结果优于传统方法。综上可知,此方法的故障预警能力优于传统方法。 展开更多
关键词 tf-idf模型 变桨电机 风能 故障预警
原文传递
基于行业分布的企业网络信息安全威胁及对策研究
8
作者 王茜 习磊 《价值工程》 2015年第20期50-53,共4页
在互联网日益普及的今天,企业越来越重视自身的信息化建设,企业信息化的发展使得接入互联网的企业不断增长,如何保护企业信息安全成为企业发展的关键内容之一。本文采取数理统计及文本分类的方法,对来自某知名黑客论坛的300余万条数据... 在互联网日益普及的今天,企业越来越重视自身的信息化建设,企业信息化的发展使得接入互联网的企业不断增长,如何保护企业信息安全成为企业发展的关键内容之一。本文采取数理统计及文本分类的方法,对来自某知名黑客论坛的300余万条数据进行分析,通过TF-IDF模型与KNN算法分类思想,得出不同行业的网络信息安全威胁程度,并划分出较低、适中以及较高三类等级。在此基础上,根据行业特点深入剖析了不同行业产生信息安全问题的原因,并提出了相应的改进措施和建议。 展开更多
关键词 网络信息安全 tf-idf模型 KNN算法 行业分布
下载PDF
基于网络评论语言学结构的情感倾向识别模型 被引量:3
9
作者 张素智 樊得强 李宝燕 《郑州大学学报(理学版)》 CAS 北大核心 2011年第1期80-84,共5页
展示了一种新的基于网络评论语言学结构的情感倾向识别模型,固定情感词元模型(fixed sentiment terms model).该方法利用基于固定情感词元的3种特定搭配模式来构造识别算法,通过基于增量的tf-idf模型的相关用户反馈不断更新特征词元集合... 展示了一种新的基于网络评论语言学结构的情感倾向识别模型,固定情感词元模型(fixed sentiment terms model).该方法利用基于固定情感词元的3种特定搭配模式来构造识别算法,通过基于增量的tf-idf模型的相关用户反馈不断更新特征词元集合.通过与传统的情感识别方法相比较,此方法可以较为明显地提高情感分类的效率和准确率. 展开更多
关键词 语言学结构 固定情感词元 增量的tf-idf模型 情感特征选择 情感分类器
下载PDF
基于基准词的文本情感倾向性研究 被引量:2
10
作者 张彬 杨志晓 《电脑知识与技术(过刊)》 2011年第3X期1881-1883,1885,共4页
在网络连通世界的今天,网络信息以铺天盖地的方式呈现在人们的面前,在这些海量的网络信息面前,用计算机技术分析网络中大规模的文本情感倾向,在政府的舆情分析和企业的产品评价智能回馈等应用中有着非常巨大的前景。本文采用基于基准词... 在网络连通世界的今天,网络信息以铺天盖地的方式呈现在人们的面前,在这些海量的网络信息面前,用计算机技术分析网络中大规模的文本情感倾向,在政府的舆情分析和企业的产品评价智能回馈等应用中有着非常巨大的前景。本文采用基于基准词的方法先提取文本中的情感特征词,然后根据TF-IDF模型计算情感特征词在文本中的权重,最后,对所有的情感词进行加权平均,得出整个文本的情感倾向,最后的实验结果表明,使用本文的方法在判断文本情感倾向性分类中效果有明显的提高。 展开更多
关键词 情感特征词提取 基准词 tf-idf模型 情感倾向识别
下载PDF
针对恶意JavaScript识别的降维方法 被引量:1
11
作者 刘鹏睿 宋礼鹏 《计算机工程与应用》 CSCD 北大核心 2018年第21期20-24,36,共6页
针对将JavaScript代码N-gram处理后识别算法特征维度较高的问题,提出一种高效的降维方法。该方法利用TF-IDF-like模型分别计算特征在正常样本和恶意样本中的权重,基于特征权重在两类样本中的差异度进行降维。基于多个识别算法,将提出的... 针对将JavaScript代码N-gram处理后识别算法特征维度较高的问题,提出一种高效的降维方法。该方法利用TF-IDF-like模型分别计算特征在正常样本和恶意样本中的权重,基于特征权重在两类样本中的差异度进行降维。基于多个识别算法,将提出的降维方法与基于主成分分析(Principal Component Analysis,PCA)的降维方法进行比较,实验结果表明:当识别算法维度相同时,基于本文所给降维方法的识别算法在识别效果方面优于基于PCA的识别算法;当降维后识别算法的维度超过某个阈值时,随着识别算法维度的增长,本降维方法的时间开销增长速率远低于PCA方法。 展开更多
关键词 降维 tf-idf-like模型 特征差异度 JAVASCRIPT 主成分分析(PCA)
下载PDF
改进的CBOW情感信息获取研究 被引量:6
12
作者 曹军博 叶霞 +1 位作者 许飞翔 尹列东 《计算机工程与应用》 CSCD 北大核心 2020年第9期142-147,共6页
大数据时代,文本的情感倾向对于文本潜在价值挖掘具有重要意义,然而人工方法很难有效挖掘网络上评论文本的潜在价值,随着计算机技术的快速发展,这一问题得到了有效解决。在文本情感分析中,获取词语的情感信息对于情感分析至关重要,词向... 大数据时代,文本的情感倾向对于文本潜在价值挖掘具有重要意义,然而人工方法很难有效挖掘网络上评论文本的潜在价值,随着计算机技术的快速发展,这一问题得到了有效解决。在文本情感分析中,获取词语的情感信息对于情感分析至关重要,词向量方法一般仅对词语的语法语义进行建模,但是忽略了词语的情感信息,无法更好地进行情感分析。通过TF-IDF算法模型获得赋权矩阵,构建停用词表,同时根据赋权矩阵生成Huffman树作为改进的CBOW算法的输入,引入情感词典生成情感标签辅助词向量生成,使词向量具有情感信息。实验结果表明,提出的方法对评论文本中获得的词向量能够较好地表达情感信息,情感分类结果优于传统模型。因此,该模型在评论文本情感分析中可以有效提升文本情感分类效果。 展开更多
关键词 词向量 CBOW模型 tf-idf模型 情感分析
下载PDF
个性化信息检索中用户兴趣建模与更新研究 被引量:6
13
作者 史宝明 贺元香 张永 《计算机应用与软件》 CSCD 北大核心 2014年第3期7-10,共4页
个性化信息检索系统的实时性关键在于如何动态更新用户兴趣模型。针对原有方法的不足,改进用户兴趣模型的描述与更新方式。首先根据网页文档的特征改进TF-IDF(Term Frequency-Inverse Document Frequency)算法,以此作为用户兴趣特征词... 个性化信息检索系统的实时性关键在于如何动态更新用户兴趣模型。针对原有方法的不足,改进用户兴趣模型的描述与更新方式。首先根据网页文档的特征改进TF-IDF(Term Frequency-Inverse Document Frequency)算法,以此作为用户兴趣特征词的权重,同时通过引入领域本体,将用户兴趣特征项进行语义扩展,并根据用户浏览行为,改进其用户兴趣主题计算方式,并在此基础上提出用户兴趣模型的更新与遗忘机制。实验对比结果表明,该方法能够捕捉用户兴趣的变化,进一步提高个性化信息检索的准确度与用户满意度。 展开更多
关键词 个性化信息检索 本体 tfidf用户兴趣模型
下载PDF
基于TF-IDF权值分配模型的招聘信息文本挖掘 被引量:1
14
作者 贺艳冰 周化 《企业技术开发》 2017年第2期20-22,共3页
文章通过建立TF-IDF模型,以网络招聘信息为主要研究对象,根据处理后的数据统计得出热门领域和热门行业,并针对IT市场分析其人才需求供应情况对职位、学历层次等方面做出详细的分析。该分析方法简单客观,实际应用所形成的最终结论,对高... 文章通过建立TF-IDF模型,以网络招聘信息为主要研究对象,根据处理后的数据统计得出热门领域和热门行业,并针对IT市场分析其人才需求供应情况对职位、学历层次等方面做出详细的分析。该分析方法简单客观,实际应用所形成的最终结论,对高校人才培养方案的制定和大学生职业生涯规划有较强的参照作用,以此为依据改善和修订相关专业的专业课程体系,能够提高学生的就业竞争能力。 展开更多
关键词 聚类分析 文本挖掘 tf-idf权值分配模型 混合模型
下载PDF
基于计数型布隆过滤器的可排序密文检索方法 被引量:2
15
作者 李勇 相中启 《计算机应用》 CSCD 北大核心 2018年第9期2554-2559,共6页
云计算环境下密文检索困难,已有的可搜索加密方案存在时间效率低、文件检索索引不支持更新、检索结果不能实现按精确度排序等问题。首先基于计数型布隆过滤器构建文件检索索引,将文件集中的关键词哈希映射到计数型布隆过滤器索引向量,... 云计算环境下密文检索困难,已有的可搜索加密方案存在时间效率低、文件检索索引不支持更新、检索结果不能实现按精确度排序等问题。首先基于计数型布隆过滤器构建文件检索索引,将文件集中的关键词哈希映射到计数型布隆过滤器索引向量,实现了按关键词进行密文检索,同时,支持密文检索索引的动态更新。其次,由于计数型布隆过滤器本身不具备语义功能,不能实现按相关度对检索结果排序,引入关键词频率矩阵和词频逆文本频率(TF-IDF)模型计算关键词的相关度分值,以实现按相关度分值对检索结果排序。最后,理论和实验性能分析证明了该方法的安全性、可更新能力、可排序能力和高效性。 展开更多
关键词 云计算 计数型布隆过滤器 词频逆文本频率模型 相关度分值 排序密文检索
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部