期刊文献+
共找到787篇文章
< 1 2 40 >
每页显示 20 50 100
基于Word2Vec的一种文档向量表示 被引量:142
1
作者 唐明 朱磊 邹显春 《计算机科学》 CSCD 北大核心 2016年第6期214-217,269,共5页
在文本分类中,如何运用word2vec词向量高效地表达一篇文档一直是一个难点。目前,将word2vec模型与聚类算法结合形成的doc2vec模型能有效地表达文档信息。但是,这种方法很少考虑单个词对整篇文档的影响力。为了解决这个问题,利用TF-IDF... 在文本分类中,如何运用word2vec词向量高效地表达一篇文档一直是一个难点。目前,将word2vec模型与聚类算法结合形成的doc2vec模型能有效地表达文档信息。但是,这种方法很少考虑单个词对整篇文档的影响力。为了解决这个问题,利用TF-IDF算法计算每篇文档中词的权重,并结合word2vec词向量生成文档向量,最后将其应用于中文文档分类。在搜狗中文语料库上的实验验证了新方法的有效性。 展开更多
关键词 tf-idf word2vec doc2vec 文本分类
下载PDF
基于TF-IDF和余弦相似度的文本分类方法 被引量:91
2
作者 武永亮 赵书良 +2 位作者 李长镜 魏娜娣 王子晏 《中文信息学报》 CSCD 北大核心 2017年第5期138-145,共8页
文本分类是文本处理的基本任务。大数据处理时代的到来致使文本分类问题面临着新的挑战。研究者已经针对不同情况提出多种文本分类算法,如KNN、朴素贝叶斯、支持向量机及一系列改进算法。这些算法的性能取决于固定数据集,不具有自学习... 文本分类是文本处理的基本任务。大数据处理时代的到来致使文本分类问题面临着新的挑战。研究者已经针对不同情况提出多种文本分类算法,如KNN、朴素贝叶斯、支持向量机及一系列改进算法。这些算法的性能取决于固定数据集,不具有自学习功能。该文提出一种新的文本分类方法,包括三个步骤:基于TF-IDF方法提取类别关键词;通过类别关键词和待分类文本关键词的相似性进行文本分类;在分类过程中更新类别关键词改进分类器性能。仿真实验结果表明,本文提出方法的准确度较目前常用方法有较大提高,在实验数据集上分类准确度达到90%,当文本数据量较大时,分类准确度可达到95%。算法初次使用时,需要一定的训练样本和训练时间,但分类时间可下降到其他算法的十分之一。该方法具有自学习模块,在分类过程中,可以根据分类经验自动更新类别关键词,保证分类器准确率,具有很强的现实应用性。 展开更多
关键词 文本分类 大数据 tf-idf 余弦相似度 类别关键词
下载PDF
基于词频差异的特征选取及改进的TF-IDF公式 被引量:55
3
作者 罗欣 夏德麟 晏蒲柳 《计算机应用》 CSCD 北大核心 2005年第9期2031-2033,共3页
文档向量化的质量对于文本分类的速度和准确度有着很大的影响。对文档向量化中常用的TF-IDF公式,互信息量公式以及信息增益公式进行了分析。提出一种基于词频差异的特征选取方法和改进的TF-IDF公式,以提高特征选取质量和文本分类的速度... 文档向量化的质量对于文本分类的速度和准确度有着很大的影响。对文档向量化中常用的TF-IDF公式,互信息量公式以及信息增益公式进行了分析。提出一种基于词频差异的特征选取方法和改进的TF-IDF公式,以提高特征选取质量和文本分类的速度及准确度。 展开更多
关键词 特征选取 向量空间模型 文本分类 tf-idf 信息增益 互信息量
下载PDF
基于改进TF-IDF算法的情报关键词提取方法 被引量:63
4
作者 张瑾 《情报杂志》 CSSCI 北大核心 2014年第4期153-155,共3页
传统的TF-IDF完全基于词频,忽略了词语的其它特征项对关键词的影响。本文提出基于TF-IDF、词位置和词跨度的关键词自动提取的方法。该方法通过在传统的TF-IDF关键词权重计算方法中,加入位置权值及词跨度权值,避免单纯采用TF-IDF算法产... 传统的TF-IDF完全基于词频,忽略了词语的其它特征项对关键词的影响。本文提出基于TF-IDF、词位置和词跨度的关键词自动提取的方法。该方法通过在传统的TF-IDF关键词权重计算方法中,加入位置权值及词跨度权值,避免单纯采用TF-IDF算法产生的偏差。实验结果表明,该方法在情报关键词提取中有广泛的应用价值,其准确率、召回率及F1值与传统方法相比有明显提升。 展开更多
关键词 提取 位置权值 词跨度值
下载PDF
改进TF-IDF算法的文本特征项权值计算方法 被引量:54
5
作者 路永和 李焰锋 《图书情报工作》 CSSCI 北大核心 2013年第3期90-95,共6页
首先,从特征项重要性和类别区分能力的角度出发,通过分析传统的权重函数TF-IDF(termfrequency-inverse document frequency)及其相关改进算法,研究文本分类中向量化时的特征权重计算,构建权重修正函数TW。其次,通过对特征词的卡方分布... 首先,从特征项重要性和类别区分能力的角度出发,通过分析传统的权重函数TF-IDF(termfrequency-inverse document frequency)及其相关改进算法,研究文本分类中向量化时的特征权重计算,构建权重修正函数TW。其次,通过对特征词的卡方分布和TW作对比实验,验证TW能提高类别中专有词汇的权值,降低常见但对分类不重要的特征的权值。最后,将TW与TF-IDF结合作为新的特征权重算法,通过在中文分类语料库上的实际分类实验,与其他权重算法比较,验证此种算法的有效性。 展开更多
关键词 文本分类 tf-idf 特征权重 类别区分
原文传递
基于改进TF-IDF特征提取的文本分类模型研究 被引量:49
6
作者 周源 刘怀兰 +1 位作者 杜朋朋 廖岭 《情报科学》 CSSCI 北大核心 2017年第5期111-118,共8页
【目的/意义】特征提取会很大程度地影响分类效果,而传统TF-IDF特征提取方法缺乏对特征词上下文环境和对特征词在类之间分布状况的考虑。【方法/过程】本文提出一种改进TF-IDF特征提取的方法:(1)基于文本网络和改进Page Rank算法计算节... 【目的/意义】特征提取会很大程度地影响分类效果,而传统TF-IDF特征提取方法缺乏对特征词上下文环境和对特征词在类之间分布状况的考虑。【方法/过程】本文提出一种改进TF-IDF特征提取的方法:(1)基于文本网络和改进Page Rank算法计算节点重要程度值,解决传统TF-IDF忽略文本结构信息的问题;(2)增加特征值IDF值的方差来衡量特征词w在不同类别文本集中程度的分布情况,解决传统TF-IDF忽略特征词在类之间分布状况的不足。【结果/结论】基于该改进方法构建了文本分类模型,对3D打印数据进行分类实验。对比算法改进前后的分类效果,验证了该方法能够有效提高文本特征词提取的准确度。 展开更多
关键词 特征提取 tfidf 文本分类 文本网络 PAGERANK
原文传递
根据用户隐式反馈建立和更新用户兴趣模型 被引量:29
7
作者 孙铁利 杨凤芹 《东北师大学报(自然科学版)》 CAS CSCD 北大核心 2003年第3期99-104,共6页
 提出一种通过获取用户的隐式反馈信息建立和更新用户兴趣模型的方法.这种方法不需要用户显式地提供兴趣信息,只要通过观察用户在浏览Web页面时所采取的动作来获取隐式的反馈信息,并利用这些信息建立与更新用户兴趣模型,从而减轻用户...  提出一种通过获取用户的隐式反馈信息建立和更新用户兴趣模型的方法.这种方法不需要用户显式地提供兴趣信息,只要通过观察用户在浏览Web页面时所采取的动作来获取隐式的反馈信息,并利用这些信息建立与更新用户兴趣模型,从而减轻用户的负担. 展开更多
关键词 用户兴趣模型 隐式反馈 文档空间 tfidf
下载PDF
基于动态主题—情感演化模型的网络舆情信息分析 被引量:39
8
作者 朱晓霞 宋嘉欣 孟建芳 《情报科学》 CSSCI 北大核心 2019年第7期72-78,共7页
【目的/意义】目前,静态情感倾向判断成为分析舆情信息的一种重要手段,但这种方法局限于最终的情感分类结果,不能追溯到整个情感演变过程以及各阶段的影响因素,因此无法提出更为细致和有针对性的措施。【方法/过程】鉴于此,本文提出一... 【目的/意义】目前,静态情感倾向判断成为分析舆情信息的一种重要手段,但这种方法局限于最终的情感分类结果,不能追溯到整个情感演变过程以及各阶段的影响因素,因此无法提出更为细致和有针对性的措施。【方法/过程】鉴于此,本文提出一种基于动态主题-情感演化模型的舆情信息分析方法,通过对评论文本进行语义角色标注,建立情感单元词表;然后将改进的TF-IDF和K-Means聚类方法相结合提取主题词,形成主题-情感匹配词表,比起传统的TF-IDF方法,其准确率和F值都有明显提升;最后引入时间节点,利用点互信息(Pointwise Mutual Information,PMI)和情感词典的方法,进行动态情感演化分析。【结果/结论】实验研究证明,该方法得出的情感演化趋势与实际情况相吻合,为进一步制定治理网络舆情危机的措施,提供了有效依据。 展开更多
关键词 语义角色标注 tf-idf K-MEANS聚类 点互信息 动态情感演化分析
原文传递
基于Word2Vec的中文短文本分类问题研究 被引量:38
9
作者 汪静 罗浪 王德强 《计算机系统应用》 2018年第5期209-215,共7页
针对短文本中固有的特征稀疏以及传统分类模型存在的"词汇鸿沟"等问题,我们利用Word2Vec模型可以有效缓解短文本中数据特征稀疏的问题,并且引入传统文本分类模型中不具有的语义关系.但进一步发现单纯利用Word2Vec模型忽略了... 针对短文本中固有的特征稀疏以及传统分类模型存在的"词汇鸿沟"等问题,我们利用Word2Vec模型可以有效缓解短文本中数据特征稀疏的问题,并且引入传统文本分类模型中不具有的语义关系.但进一步发现单纯利用Word2Vec模型忽略了不同词性的词语对短文本的影响力,因此引入词性改进特征权重计算方法,将词性对文本分类的贡献度嵌入到传统的TF-IDF算法中计算短文本中词的权重,并结合Word2Vec词向量生成短文本向量,最后利用SVM实现短文本分类.在复旦大学中文文本分类语料库上的实验结果验证了该方法的有效性. 展开更多
关键词 Word2Vec tf-idf 文本表示 短文本分类
下载PDF
基于共词分析的文本主题词聚类与主题发现 被引量:34
10
作者 王小华 徐宁 谌志群 《情报科学》 CSSCI 北大核心 2011年第11期1621-1624,共4页
文本主题检测可以很好的挖掘海量信息中的关键因子,本文主要通过基于共词分析方法对文本主题词进行聚类从而发现当前的主题,首先通过停用词过滤和TF-IDF关键词提取技术提取出主题词串,然后构建共词矩阵,最后通过Bisecting K-means算法... 文本主题检测可以很好的挖掘海量信息中的关键因子,本文主要通过基于共词分析方法对文本主题词进行聚类从而发现当前的主题,首先通过停用词过滤和TF-IDF关键词提取技术提取出主题词串,然后构建共词矩阵,最后通过Bisecting K-means算法对主题词串进行聚类分析,从而发现主题。实验结果表明,该方法对热点主题提取有一定的效果。 展开更多
关键词 共词分析 tf-idf 共词矩阵 Bisecting K-MEANS 主题
原文传递
TF-IDF与规则相结合的中文关键词自动抽取研究 被引量:35
11
作者 牛萍 黄德根 《小型微型计算机系统》 CSCD 北大核心 2016年第4期711-715,共5页
关键词的抽取广泛应用于自然语言处理过程中.对于中文关键词抽取,分词结果及候选词的选取严重影响后期的抽取结果.针对候选词的选取,提出一种连续单字未登录词识别和多词短语识别的方法来进行候选词选择,可以较好的识别出频率大于1的未... 关键词的抽取广泛应用于自然语言处理过程中.对于中文关键词抽取,分词结果及候选词的选取严重影响后期的抽取结果.针对候选词的选取,提出一种连续单字未登录词识别和多词短语识别的方法来进行候选词选择,可以较好的识别出频率大于1的未登录词,且不依赖于语料库规模和领域.并且,在传统的TF-IDF基础上,结合位置特征和长度特征的情况下,考虑兼类词的不同词性问题,提出改进的TF-IDF计算公式,进行关键词抽取.通过比较实验,证明了候选词对关键词抽取的影响,与TF-IDF进行比较实验,改进的TF-IDF的准确率提高了5%左右. 展开更多
关键词 抽取 未登录词识别 候选词抽取 tf-idf
下载PDF
基于网络文本挖掘的冰雪旅游形象感知研究——以哈尔滨市为例 被引量:34
12
作者 敖长林 李凤佼 +1 位作者 许荔珊 孙宝生 《数学的实践与认识》 北大核心 2020年第1期44-54,共11页
旅游形象塑造是制约旅游市场竞争的关键因素,形象感知研究对旅游形象塑造具有重要意义.随着在线旅行社(OTA)的快速发展,产生了大量旅游城市和景点的在线评论数据,为形象感知研究提供了新的视角.以Baidu旅游、携程网、马蜂窝等多家OTA网... 旅游形象塑造是制约旅游市场竞争的关键因素,形象感知研究对旅游形象塑造具有重要意义.随着在线旅行社(OTA)的快速发展,产生了大量旅游城市和景点的在线评论数据,为形象感知研究提供了新的视角.以Baidu旅游、携程网、马蜂窝等多家OTA网络点评数据为例,采用词频-逆文档率(TF-IDF)和LDA文档主题生成模型两种典型的文本分析方法,分析游客对冰雪大世界、太阳岛、圣索菲亚大教堂、中央大街、雪乡、亚布力滑雪场等哈尔滨6个冰雪旅游景点的认知形象、情感形象和总体形象感知.研究表明:1)冰雪旅游认知形象要素可归纳为相关地标、旅游活动、建筑、餐饮住宿、游玩价格等5个群组,相关地标是第一要素,其余认知形象要素在各景点权重有所差异;2)冰雪旅游情感形象以积极正面为主,除雪乡外,其余5个景点均具有强烈的推荐意愿;3)冰雪旅游的整体形象感知主题涵盖冰雪娱乐、冰雪观光、冰雪运动、特色美食和文化.研究丰富了旅游大数据研究方法,为哈尔滨市冰雪旅游形象塑造提供建议. 展开更多
关键词 形象感知 网络点评 tf-idf LDA 文本分析 旅游大数据
原文传递
企业数字化、环境不确定性与全要素生产率 被引量:30
13
作者 王鹏飞 刘海波 陈鹏 《经济管理》 北大核心 2023年第1期43-66,共24页
数字化的经济效应有其一般内在规律和鲜明时代特征,企业数字化能否以及多大程度上取得实效,还会受环境不确定性的影响。本文基于2011—2020年沪深A股上市公司数据,利用年报文本中特征关键词的TF-IDF权重值刻画企业数字化指标,实证检验... 数字化的经济效应有其一般内在规律和鲜明时代特征,企业数字化能否以及多大程度上取得实效,还会受环境不确定性的影响。本文基于2011—2020年沪深A股上市公司数据,利用年报文本中特征关键词的TF-IDF权重值刻画企业数字化指标,实证检验了数字化对全要素生产率(TFP)的影响机制,以及环境不确定性在其中的调节效应。以数字技术应用和数据管理能力为内核的企业数字化与TFP呈倒U型关系,且在当前主要表现为生产率提升作用;该倒U型关系在高环境不确定性下更加明显,随着时间推移(滞后1年),环境不确定性的调节作用在宏观层面会变弱,在微观层面会增强;管理者短视主义、行业竞争强度和区域数字经济创新创业水平对数字化的生产率效应存在一定异质影响,企业数字化在环境不确定性的正向调节下有收敛趋同的可能。以上研究结论为探究企业数字化与高质量发展的关系提供了新证据,对于引导企业推进数字化转型与组织管理变革,以及应对不确定性冲击、消弥“数字鸿沟”,具有实践及政策启示。 展开更多
关键词 数字化 全要素生产率 环境不确定性 tf-idf 文本分析
原文传递
自动文本分类中权值公式的改进 被引量:25
14
作者 寇莎莎 魏振军 《计算机工程与设计》 CSCD 北大核心 2005年第6期1616-1618,共3页
在自动文本分类中,TF-IDF公式是常用的词语权重计算公式,但是TF-IDF公式是一种经验公式,并没有坚实的理论基础,它并不适用于任何情况下。通过信息论和概率证明了,在训练文本同属一个类别时,词语的重要性与词语的文档频率成正比,并对TF-... 在自动文本分类中,TF-IDF公式是常用的词语权重计算公式,但是TF-IDF公式是一种经验公式,并没有坚实的理论基础,它并不适用于任何情况下。通过信息论和概率证明了,在训练文本同属一个类别时,词语的重要性与词语的文档频率成正比,并对TF-IDF进行了改进,得到了改进的权值公式。改进的权值公式与TF-IDF公式进行实验比较,实验结果表明改进的权值公式提高了算法的分类精度。 展开更多
关键词 文本分类 tf-idf 向量空间 特征项 特征权重
下载PDF
利用本体关联度改进的TF-IDF特征词提取方法 被引量:29
15
作者 徐建民 王金花 马伟瑜 《情报科学》 CSSCI 北大核心 2011年第2期279-283,共5页
针对传统TF-IDF方法提取文本特征词时未考虑词语间关系的不足,提出一种利用本体关联度改进的文本特征词提取方法。该方法首先利用传统的TF-IDF方法构建候选特征词集合和非候选特征词集合,然后根据领域本体知识在非候选特征词集合中提取... 针对传统TF-IDF方法提取文本特征词时未考虑词语间关系的不足,提出一种利用本体关联度改进的文本特征词提取方法。该方法首先利用传统的TF-IDF方法构建候选特征词集合和非候选特征词集合,然后根据领域本体知识在非候选特征词集合中提取候选特征词的本体关联词,利用候选特征词与其本体关联词之间的本体关联度以及本体关联词本身的权重调整候选特征词的权重,得到新的候选特征词权重排序。实验证明,该方法能够有效提高文本特征词提取的准确度。 展开更多
关键词 文本特征词提取 tf-idf 本体关联词 本体关联度
原文传递
在线课程质量观和质量要素的质性研究--基于专家、实践者和学习者的视角 被引量:29
16
作者 李爽 李梦蕾 赵宏 《中国远程教育》 CSSCI 北大核心 2020年第3期42-50,81,共10页
本文采用扎根理论研究方法,通过对学术专家、实践者和学习者三类相关群体的访谈,调查高等教育和继续教育在线课程相关人群关于在线课程的质量观与对质量构成的认识,探索在线课程质量框架与要素,以期为促进人们对在线课程质量的共识,为... 本文采用扎根理论研究方法,通过对学术专家、实践者和学习者三类相关群体的访谈,调查高等教育和继续教育在线课程相关人群关于在线课程的质量观与对质量构成的认识,探索在线课程质量框架与要素,以期为促进人们对在线课程质量的共识,为改进和优化现有在线课程质量标准提供参考。研究通过对20位受访者累计22万字访谈文本的编码分析,发现四种质量观--服务质量观、系统性质量观、目标性质量观和增值性质量观,并定义出设计开发与实施运行两大类的九个在线课程质量要素--课程目标、课程内容、学习过程、学习支持服务、学习评价、媒体与技术环境、实施效果、改进发展和社会影响。其中,课程目标、学习内容与实施效果被定义为核心要素。本文基于TF-IDF关键词统计方法对三类群体的在线课程质量观差异进行了分析,并结合已有远程教育质量观和在线课程质量标准相关成果对本研究发现和定义的在线课程质量观、质量框架和质量要素进行了讨论与反思。 展开更多
关键词 在线课程 质量观 质量要素 质量标准 扎根理论 tf-idf 课程设计开发 课程实施运行
原文传递
基于支持向量机的中文极短文本分类模型 被引量:30
17
作者 王杨 许闪闪 +4 位作者 李昌 艾世成 张卫东 甄磊 孟丹 《计算机应用研究》 CSCD 北大核心 2020年第2期347-350,共4页
为了有效提取极短文本中的关键特征信息,提出了一种基于支持向量机的极短文本分类模型。首先对原数据进行数据清洗并利用jieba分词将清洗过的数据进行处理;再将处理后的数据存入数据库,通过TF-IDF进行文本特征的提取;同时,利用支持向量... 为了有效提取极短文本中的关键特征信息,提出了一种基于支持向量机的极短文本分类模型。首先对原数据进行数据清洗并利用jieba分词将清洗过的数据进行处理;再将处理后的数据存入数据库,通过TF-IDF进行文本特征的提取;同时,利用支持向量机对极短文本进行分类。经过1-0检验,验证了模型的有效性。实验以芜湖市社管平台中的9906条极短文本数据作为样本进行算法检验与分析。结果表明在分类准确率方面,该方法相比于朴素贝叶斯、逻辑回归、决策树等传统方法得到有效提高;在误分度与精确度指标上匹配结果更加均衡。 展开更多
关键词 支持向量机 jieba分词 极短文本分类 tf-idf
下载PDF
基于LDA的文本聚类在网络舆情分析中的应用研究 被引量:28
18
作者 王少鹏 彭岩 王洁 《山东大学学报(理学版)》 CAS CSCD 北大核心 2014年第9期129-134,共6页
针对传统的基于词语的文本聚类算法忽略了文本中可能具有的隐含信息的问题,提出了一种基于LDA(latent dirichlet allocation)主题模型的文本聚类算法。该方法利用TF-IDF算法和LDA主题模型分别计算文本的相似度,通过耗费函数确定文本相... 针对传统的基于词语的文本聚类算法忽略了文本中可能具有的隐含信息的问题,提出了一种基于LDA(latent dirichlet allocation)主题模型的文本聚类算法。该方法利用TF-IDF算法和LDA主题模型分别计算文本的相似度,通过耗费函数确定文本相似度的融合系数并进行线性结合来获取文本之间的相似度,同时使用F-measure值来对聚类结果进行评估。在构建LDA主题模型时,采用Gibbs抽样来进行参数估计,通过贝叶斯统计的标准方法进行最优主题数的确定。从仿真实验的聚类结果的准确性和稳定性来看,该方法相比传统的文本聚类算法具有更良好的效果。 展开更多
关键词 网络舆情 主题模型 LDA tf-idf 文本相似度
原文传递
文本分类中TF-IDF方法的改进研究 被引量:28
19
作者 覃世安 李法运 《现代图书情报技术》 CSSCI 北大核心 2013年第10期27-30,共4页
针对TF-IDF在待分类文本类的数量分布不均时提取特征值效果差的问题,提出使用特征值在类间出现的概率比代替特征值在类间出现的次数比以改进TF-IDF算法。实验证明利用改进后的TF-IDF方法提取网页文本特征值,并配合简单累加求和的分类器... 针对TF-IDF在待分类文本类的数量分布不均时提取特征值效果差的问题,提出使用特征值在类间出现的概率比代替特征值在类间出现的次数比以改进TF-IDF算法。实验证明利用改进后的TF-IDF方法提取网页文本特征值,并配合简单累加求和的分类器,使得网页文本分类的准确率有明显提高,且分类速度加快。 展开更多
关键词 概率 tfidf 网页 文本分类
原文传递
基于词汇语义信息的文本相似度计算 被引量:27
20
作者 谷重阳 徐浩煜 +1 位作者 周晗 张俊杰 《计算机应用研究》 CSCD 北大核心 2018年第2期391-395,共5页
传统的文本相似度计算大多基于词匹配的方法,忽略了词汇语义信息,计算结果很大程度上取决于文本的词汇重复率。虽然分布式词向量可以有效表达词汇语义关系,但目前基于词向量的文本处理方法大多通过词汇串联等形式表示文本,无法体现词汇... 传统的文本相似度计算大多基于词匹配的方法,忽略了词汇语义信息,计算结果很大程度上取决于文本的词汇重复率。虽然分布式词向量可以有效表达词汇语义关系,但目前基于词向量的文本处理方法大多通过词汇串联等形式表示文本,无法体现词汇在语料库中的分布情况。针对以上问题,提出了一种新的计算方法。该方法认为基于统计的文本向量各元素之间存在相关性,且该相关性可通过词汇语义相似度表示。因此,利用词汇相似度改进了基于余弦公式的文本相似度计算方法。实验表明该方法在F1值和准确度评价标准上优于其他方法。 展开更多
关键词 文本相似度 词向量 词频—逆文档频率
下载PDF
上一页 1 2 40 下一页 到第
使用帮助 返回顶部