期刊文献+
共找到204篇文章
< 1 2 11 >
每页显示 20 50 100
文档中词语权重计算方法的改进 被引量:120
1
作者 鲁松 李晓黎 +1 位作者 白硕 王实 《中文信息学报》 CSCD 北大核心 2000年第6期8-13,20,共7页
文本的形式化表示一直是文本检索、自动文摘和搜索引擎等信息检索领域关注的基础性问题。向量空间模型 (VectorSpaceModel)中的tf.idf文本表示是该领域里得到广泛应用并且取得较好效果的一种文本表示方法。词语在文本集合中的分布比例... 文本的形式化表示一直是文本检索、自动文摘和搜索引擎等信息检索领域关注的基础性问题。向量空间模型 (VectorSpaceModel)中的tf.idf文本表示是该领域里得到广泛应用并且取得较好效果的一种文本表示方法。词语在文本集合中的分布比例量上的差异是决定词语表达文本内容的重要因素之一 ,但现在tf.idf方法无法把握这一因素。针对这个问题 ,本文引入信息论中信息增益的概念 ,提出一种对tf.idf的改进方法tf.idf.IG文本表示方法。该方法将词语的信息增益作为一个文本表示的一个因子 ,来衡量词语在文本集合中分布比例在量上的差异。在文本分类实验中 ,tf.idf.IG文本表示的向量空间模型的分类效果要好于tf.idf方法 ,验证了改进方法tf.idf.IG的有效性和可行性。 展开更多
关键词 文本表示 向量空间模型 词语分布比例 信息增益
下载PDF
自然语言处理中的文本表示研究 被引量:46
2
作者 赵京胜 宋梦雪 +1 位作者 高祥 朱巧明 《软件学报》 EI CSCD 北大核心 2022年第1期102-128,共27页
自然语言处理是人工智能的核心技术,文本表示是自然语言处理的基础性和必要性工作,影响甚至决定着自然语言处理系统的质量和性能.探讨了文本表示的基本原理、自然语言的形式化、语言模型以及文本表示的内涵和外延.宏观上分析了文本表示... 自然语言处理是人工智能的核心技术,文本表示是自然语言处理的基础性和必要性工作,影响甚至决定着自然语言处理系统的质量和性能.探讨了文本表示的基本原理、自然语言的形式化、语言模型以及文本表示的内涵和外延.宏观上分析了文本表示的技术分类,对主流技术和方法,包括基于向量空间、基于主题模型、基于图、基于神经网络、基于表示学习的文本表示,进行了分析、归纳和总结,对基于事件、基于语义和基于知识的文本表示也进行了介绍.对文本表示技术的发展趋势和方向进行了预测和进一步讨论.以神经网络为基础的深度学习以及表示学习在文本表示中将发挥重要作用,预训练加调优的策略将逐渐成为主流,文本表示需要具体问题具体分析,技术和应用融合是推动力. 展开更多
关键词 自然语言处理 文本表示 向量空间模型 主题模型 图模型 深度学习 表示学习
下载PDF
基于Word2Vec的中文短文本分类问题研究 被引量:38
3
作者 汪静 罗浪 王德强 《计算机系统应用》 2018年第5期209-215,共7页
针对短文本中固有的特征稀疏以及传统分类模型存在的"词汇鸿沟"等问题,我们利用Word2Vec模型可以有效缓解短文本中数据特征稀疏的问题,并且引入传统文本分类模型中不具有的语义关系.但进一步发现单纯利用Word2Vec模型忽略了... 针对短文本中固有的特征稀疏以及传统分类模型存在的"词汇鸿沟"等问题,我们利用Word2Vec模型可以有效缓解短文本中数据特征稀疏的问题,并且引入传统文本分类模型中不具有的语义关系.但进一步发现单纯利用Word2Vec模型忽略了不同词性的词语对短文本的影响力,因此引入词性改进特征权重计算方法,将词性对文本分类的贡献度嵌入到传统的TF-IDF算法中计算短文本中词的权重,并结合Word2Vec词向量生成短文本向量,最后利用SVM实现短文本分类.在复旦大学中文文本分类语料库上的实验结果验证了该方法的有效性. 展开更多
关键词 Word2Vec TF-IDF 文本表示 短文本分类
下载PDF
文本分类中词语权重计算方法的改进与应用 被引量:28
4
作者 熊忠阳 黎刚 +1 位作者 陈小莉 陈伟 《计算机工程与应用》 CSCD 北大核心 2008年第5期187-189,共3页
文本的形式化表示一直是信息检索领域关注的基础性问题。向量空间模型(Vector SpaceModel)中的tf.idf文本表示是该领域里得到广泛应用,并且取得较好效果的一种文本表示方法。词语在文本集合中的分布比例量上的差异是决定词语表达文本内... 文本的形式化表示一直是信息检索领域关注的基础性问题。向量空间模型(Vector SpaceModel)中的tf.idf文本表示是该领域里得到广泛应用,并且取得较好效果的一种文本表示方法。词语在文本集合中的分布比例量上的差异是决定词语表达文本内容的重要因素之一。但是其IDF的计算,并没有考虑到特征项在类间的分布情况,也没有考虑到在类内分布相对均匀的特征项的权重应该比分布不均匀的要高,应该赋予其较高的权重。用改进的TFIDF选择特征词条、用KNN分类算法和遗传算法训练分类器来验证其有效性,实验表明改进的策略是可行的。 展开更多
关键词 文本表示 向量空间模型 特征选择 TFIDF
下载PDF
基于领域词典的文本特征表示 被引量:22
5
作者 陈文亮 朱靖波 +1 位作者 朱慕华 姚天顺 《计算机研究与发展》 EI CSCD 北大核心 2005年第12期2155-2160,共6页
为提高文本分类性能,提出一种结合机器学习和领域词典的文本特征表示方法·基于领域词典的文本特征表示方法可以增强文本特征表示能力,并降低文本特征空间维数,但是领域词典存在覆盖度不足的问题·为此,提出一种学习模型———... 为提高文本分类性能,提出一种结合机器学习和领域词典的文本特征表示方法·基于领域词典的文本特征表示方法可以增强文本特征表示能力,并降低文本特征空间维数,但是领域词典存在覆盖度不足的问题·为此,提出一种学习模型———自划分模型———来解决这个覆盖度不足的问题·实验结果表明,采用基于自划分模型的领域特征属性作为文本特征,可以提高文本分类性能,特别是特征数目少的情况下,该方法表现出很好的分类效果·相对于传统词文本特征方法,在特征数为500时分类的F1值提高6·58%· 展开更多
关键词 文本分类 知识获取 领域知识 文本表示
下载PDF
一种基于语义相似度的文本聚类算法 被引量:18
6
作者 孙爽 章勇 《南京航空航天大学学报》 EI CAS CSCD 北大核心 2006年第6期712-716,共5页
文本聚类在很多文本挖掘和信息检索系统中发挥着重要的作用。现有的聚类算法大多数都是基于向量空间模型,文档集合中出现的单词词频作为特征项。这些算法都存在数据维数过高、聚簇难以描述的问题,而且忽略了单词间的语义联系。本文提出... 文本聚类在很多文本挖掘和信息检索系统中发挥着重要的作用。现有的聚类算法大多数都是基于向量空间模型,文档集合中出现的单词词频作为特征项。这些算法都存在数据维数过高、聚簇难以描述的问题,而且忽略了单词间的语义联系。本文提出了一种基于语义相似度的文本聚类算法——TCU SS(Text clustering usingsem an ticsim ilarity)算法。TCU SS算法将文档表示成概念列表,有效地解决了数据维数高和聚簇描述难的问题,并给出如何利用概念列表进行聚簇描述的方法。TCU SS算法利用两个概念列表中单词间的语义相似度作为文档间相近程度的度量,并以图为基础进行聚类分析,避免有些聚类算法对聚簇形状的限制。实验证明,TCU SS算法提高了聚类质量。 展开更多
关键词 文本聚类 语义相似度 文本表示 语义相似度的文本聚类算法
下载PDF
英语阅读问题解决的认知诊断 被引量:25
7
作者 蔡艳 丁树良 涂冬波 《心理科学》 CSSCI CSCD 北大核心 2011年第2期272-277,共6页
本研究尝试将认知诊断技术应用于中学生英语阅读问题解决(ERPS),以实现对中学生英语阅读问题解决的认知诊断,探讨中学生英语阅读问题解决的认知发展特点及其所存在的问题,为中学生的相关认知发展和知识获取服务。研究发现:(1)基于"... 本研究尝试将认知诊断技术应用于中学生英语阅读问题解决(ERPS),以实现对中学生英语阅读问题解决的认知诊断,探讨中学生英语阅读问题解决的认知发展特点及其所存在的问题,为中学生的相关认知发展和知识获取服务。研究发现:(1)基于"文本表征"和"反应决策"两个加工过程中的七个认知属性是影响中学生ERPS的主要认知成分(R2=0.792);(2)中学生对于"文本表征"加工过程所涉及的属性的掌握情况优于"反应决策"加工过程所涉及的属性,学生所面临的主要困主要难于在"反应决策"加工阶段;(3)对不同属性掌握情况上存在显著的学校类型差异。(4)学生认知掌握状态的类型主要集中在15种(占73%),最多的三种为(1111011)、(1111110)和(1111101)(占34%)。总体来说,学生的属性掌握还是比较好的。相对地,对"推理"、"信息匹配"和"正确选项的加工水平"三个属性掌握较差,应引起重视。 展开更多
关键词 认知诊断 认知状态 文本表征 反应决策 英语阅读问题解决
下载PDF
用于文本分类的CNN_BiLSTM_Attention混合模型 被引量:24
8
作者 吴汉瑜 严江 +2 位作者 黄少滨 李熔盛 姜梦奇 《计算机科学》 CSCD 北大核心 2020年第S02期23-27,34,共6页
文本分类是许多自然语言处理任务的基础。卷积神经网络可以提取文本的短语级特征,但是不能很好地捕获文本的结构信息;循环神经网络可以提取文本的全局结构信息,但是对关键模式信息捕获能力不足;而注意力机制能够学习到不同词或短语对文... 文本分类是许多自然语言处理任务的基础。卷积神经网络可以提取文本的短语级特征,但是不能很好地捕获文本的结构信息;循环神经网络可以提取文本的全局结构信息,但是对关键模式信息捕获能力不足;而注意力机制能够学习到不同词或短语对文本整体语义的分布,关键的词或短语会被分配较高的权重,但是同样对全局结构信息不敏感。另外,现有模型大多只考虑词级信息,而忽略了短语级信息。针对上述模型中存在的问题,文中提出一种融合CNN,RNN,Attention的混合模型,该模型同时考虑不同层次的关键模式信息和全局结构信息,并把它们融合起来得到最终的文本表示,最后把文本表示输入softmax层进行分类。在多个文本分类数据集上进行了实验,实验结果表明该模型相较于现有模型可以实现更高的准确率。此外,还通过实验分析了模型的不同组件对模型性能的影响。 展开更多
关键词 文本分类 关键模式信息 全局结构信息 混合模型 文本表示
下载PDF
文本聚类中文本表示和相似度计算研究综述 被引量:23
9
作者 吴夙慧 成颖 +1 位作者 郑彦宁 潘云涛 《情报科学》 CSSCI 北大核心 2012年第4期622-627,共6页
围绕文本聚类中的文本表示和相似度计算两个基本的问题,对目前学界提出的文本表示方法和相似度计算方法进行了分类和较为全面的综述,将文本表示模型分为向量空间模型、语言模型、后缀树模型、本体等,相似度计算方法分为基于向量空间模... 围绕文本聚类中的文本表示和相似度计算两个基本的问题,对目前学界提出的文本表示方法和相似度计算方法进行了分类和较为全面的综述,将文本表示模型分为向量空间模型、语言模型、后缀树模型、本体等,相似度计算方法分为基于向量空间模型的相似度计算,基于短语的相似度计算方法和基于本体的相似度计算方法。 展开更多
关键词 文本聚类 文本表示 相似度计算
原文传递
基于深度学习的文本分类方法研究综述 被引量:22
10
作者 万家山 吴云志 《天津理工大学学报》 2021年第2期41-47,共7页
深度学习作为机器学习领域新的研究方向,现已在图像处理、语音识别和机器翻译等领域取得了突破性的进展.在处理自然语言任务中,深度学习建立在低层特征基础上,组合形成更加抽象的高层特征,用以完成复杂的语言模型构建、语义理解和文本... 深度学习作为机器学习领域新的研究方向,现已在图像处理、语音识别和机器翻译等领域取得了突破性的进展.在处理自然语言任务中,深度学习建立在低层特征基础上,组合形成更加抽象的高层特征,用以完成复杂的语言模型构建、语义理解和文本分类等任务,深受研究人员的关注.文本分类是自然语言处理中的一个重要应用,在文本信息处理过程中有着关键作用.研究综述近几年基于深度学习的文本分类应用现状,分析其与传统机器学习在文本分类领域的区别以及优势,并概况深度学习在文本分类领域的研究方向和未来发展趋势. 展开更多
关键词 文本分类 文本表示 机器学习 深度学习 综述
下载PDF
中文文本分类的特征选取评价 被引量:14
11
作者 孙国菊 张杰 《哈尔滨理工大学学报》 CAS 2005年第1期76-78,共3页
在对中文文本分类的特征选取方法进行综合评价的基础上,对目前比较流行的5种 特征选取方法(文档频度DF、互信息MI、信息增益IG、x2统计X2、术语强度TS)进行评价,选用 NaIve Bayes作为文本分类器,对一个中文文本分类语料库进行分类评测.... 在对中文文本分类的特征选取方法进行综合评价的基础上,对目前比较流行的5种 特征选取方法(文档频度DF、互信息MI、信息增益IG、x2统计X2、术语强度TS)进行评价,选用 NaIve Bayes作为文本分类器,对一个中文文本分类语料库进行分类评测.实验结果表明,DF和x2 的分类性能十分接近,处于较好水平;而TS分类性能稍差一些;IG和MI的分类性能与其他相比都 有较大的差距.特别是在特征数目少的情况下,MI和IG的结果较差.在特征数目为1000时,MI的 F1值为64.60%;IG为69.36%,而DF则达到87.01%. 展开更多
关键词 文本分类 特征选取 文本表示
下载PDF
文本的图表示初探 被引量:17
12
作者 周昭涛 卜东波 程学旗 《中文信息学报》 CSCD 北大核心 2005年第2期36-43,共8页
文本表示是文本信息处理中的基础问题 ,以向量空间模型 (VSM)为代表的多数文本表示模型没有考虑文本中特征项之间的序关系 ,这样的表示造成文本语义信息的损失。我们尝试在文本表示中引入序关系 ,用图结构来表示文本 ,提出了一种新的文... 文本表示是文本信息处理中的基础问题 ,以向量空间模型 (VSM)为代表的多数文本表示模型没有考虑文本中特征项之间的序关系 ,这样的表示造成文本语义信息的损失。我们尝试在文本表示中引入序关系 ,用图结构来表示文本 ,提出了一种新的文本表示模型—图表示模型 ,并对该模型的表示效果进行了验证。实验结果表明目前我们的表示模型仍达不到VSM模型所取得的表示效果。本文总结了文本表示过程 ,提出了一种新颖的用于度量文本表示模型表示能力的方法 ,同时也提出了一系列与文本图表示相关的值得探讨的问题。 展开更多
关键词 计算机应用 中文信息处理 文本表示 VSM模型 图表示
下载PDF
VSM在中文文本聚类中的应用及实证分析 被引量:13
13
作者 马辉民 李卫华 吴良元 《武汉理工大学学报(信息与管理工程版)》 CAS 2006年第4期56-59,81,共5页
文本聚类是W eb文本挖掘的一个重要分支,而文本表示方法是文本聚类的基础。重点讨论了文本表示方法中最常用到的向量空间模型,分析了其优势和不足,并基于一个文本处理实验,对V SM模型从可实现角度给出改进建议。
关键词 文本聚类 向量空间模型 文本表示
下载PDF
基于概念扩充的文本过滤模型 被引量:9
14
作者 尤文建 李绍滋 李堂秋 《计算机工程与应用》 CSCD 北大核心 2003年第25期74-77,共4页
该文在介绍文本过滤的背景及向量空间模型的同时,提出了基于语义词典对用户模板进行扩充的文本过滤模型,该模型首先对文本进行分析,把文本表示成向量空间中的向量形式,在形成用户初始模板之后,对用户模板进行同义词扩充,形成扩充后的用... 该文在介绍文本过滤的背景及向量空间模型的同时,提出了基于语义词典对用户模板进行扩充的文本过滤模型,该模型首先对文本进行分析,把文本表示成向量空间中的向量形式,在形成用户初始模板之后,对用户模板进行同义词扩充,形成扩充后的用户模板,以此模板来进行文本过滤。在用户反馈的基础上,自适应地修改该模板,以适应用户变化的需求及改善系统过滤性能。实验表明,这样的确可以提高系统覆盖面,提高系统效率。 展开更多
关键词 概念扩充 向量空间 用户模板 文本表示 WORDNET
下载PDF
基于深度学习的文本表示方法 被引量:19
15
作者 李枫林 柯佳 《情报科学》 CSSCI 北大核心 2019年第1期156-164,共9页
【目的/意义】文本表示是自然语言处理的基础工作,是信息检索、文本分类、问答系统的关键问题。【方法/过程】论文介绍了传统的文本表示方法,按照文本不同的粒度,回顾了近五年国内外基于神经网络模型的词表示、句子表示、篇章(段落)表... 【目的/意义】文本表示是自然语言处理的基础工作,是信息检索、文本分类、问答系统的关键问题。【方法/过程】论文介绍了传统的文本表示方法,按照文本不同的粒度,回顾了近五年国内外基于神经网络模型的词表示、句子表示、篇章(段落)表示的方法,并提出了未来的研究方向。【结果/结论】实验发现,通过在神经网络模型中融入更多的特征能得到更优的词向量,但词向量还缺乏统一的评价标准,句子向量表示通常根据具体NLP任务建模,不同结构的模型在特征表示、运算速度上各有优劣势,篇章表示通常使用层次组合模型。 展开更多
关键词 神经网络 文本表示 词向量
原文传递
基于关键短语的文本分类研究 被引量:14
16
作者 刘华 《中文信息学报》 CSCD 北大核心 2007年第4期34-41,共8页
文本分类的进一步改进除了算法方面,应该还立足于影响文本分类最底层、最根本的因素:文本表示中的特征项,提高特征项的完整独立程度。关键短语是具有强文本表示功能的特征短语,在表示文本时,能将文本的内容特征(如主题类别)鲜明地表示... 文本分类的进一步改进除了算法方面,应该还立足于影响文本分类最底层、最根本的因素:文本表示中的特征项,提高特征项的完整独立程度。关键短语是具有强文本表示功能的特征短语,在表示文本时,能将文本的内容特征(如主题类别)鲜明地表示出来。关键短语具有结构稳定、语义完整和较强统计意义的特点,能克服向量空间模型和贝叶斯假设的缺点,更适合作为文本表示的特征,有利于提高文本分类的效果。本文从语言学、认知心理学和言语习得、计算语言学等方面寻求关键短语优势的理论依据,对关键短语进行了界定,通过抽取网页上专家标引的关键词获得关键短语。在约3万篇测试集上(共15个大类,244个小类),与以词为特征的文本分类相比,以关键短语为特征的文本分类的大类微平均提高了3.1%,小类微平均提高了15%。 展开更多
关键词 计算机应用 中文信息处理 文本分类 关键短语 文本表示 特征项
下载PDF
基于文本挖掘的用电客户诉求智能聚类研究 被引量:17
17
作者 梁浩波 《广东电力》 2016年第8期45-50,66,共7页
从95598供电服务热线来电内容中挖掘用电客户服务需求来提升95598客户服务能力,基于此,提出了1套基于文本挖掘技术的用电客户诉求的智能聚类模型并通过开源技术将其系统化实现,该系统能够将用电客户来电内容的文本信息进行智能聚类并归... 从95598供电服务热线来电内容中挖掘用电客户服务需求来提升95598客户服务能力,基于此,提出了1套基于文本挖掘技术的用电客户诉求的智能聚类模型并通过开源技术将其系统化实现,该系统能够将用电客户来电内容的文本信息进行智能聚类并归类到不同诉求主题,进而得到用电客户的诉求热点,为实现精准的客户服务提供决策支持。实验表明,该系统能够有效地进行客户诉求文本的智能聚类,具有较高的聚类准确率。 展开更多
关键词 文本挖掘 文本聚类 中文分词 文本表示 客户诉求
下载PDF
基于词汇链的文本过滤模型 被引量:9
18
作者 尤文建 李绍滋 李堂秋 《计算机应用研究》 CSCD 北大核心 2003年第9期32-35,共4页
在介绍文本过滤的背景及传统基于关键词的向量空间方法不足之处的同时,引入了词汇链的概念,提出了基于词汇链表示文本的文本过滤模型,该模型首先对文本进行分析,把文本表示成词汇链的形式,在形成用户初始模板之后,以此模板来进行文本过... 在介绍文本过滤的背景及传统基于关键词的向量空间方法不足之处的同时,引入了词汇链的概念,提出了基于词汇链表示文本的文本过滤模型,该模型首先对文本进行分析,把文本表示成词汇链的形式,在形成用户初始模板之后,以此模板来进行文本过滤。在用户反馈的基础上,自适应地修改该模板,以适应用户变化的需求及改善系统过滤性能,实验表明,这样的确可以提高系统精度。 展开更多
关键词 词汇链 向量空间 用户模板 文本表示 WORDNET
下载PDF
基于神经网络的文本表示模型新方法 被引量:18
19
作者 曾谁飞 张笑燕 +1 位作者 杜晓峰 陆天波 《通信学报》 EI CSCD 北大核心 2017年第4期86-98,共13页
提出了一种改进的文本表示模型提取文本特征词向量方法。首先构建基于词典索引和所对应的词性索引的double word-embedding列表的word-embedding词向量,其次,利用在此基础上Bi-LSTM循环神经网络对生成后的词向量进一步进行特征提取,最后... 提出了一种改进的文本表示模型提取文本特征词向量方法。首先构建基于词典索引和所对应的词性索引的double word-embedding列表的word-embedding词向量,其次,利用在此基础上Bi-LSTM循环神经网络对生成后的词向量进一步进行特征提取,最后,通过mean-pooling层处理句子向量后且使用了softmax层进行文本分类。实验验证了Bi-LSTM和double word-embedding神经网络相结合的模型训练效果与提取情况。实验结果表明,该模型不但能较好地处理高质量的文本特征向量提取和表达序列,而且比LSTM、LSTM+context window和Bi-LSTM这3种神经网络有较明显的表达效果。 展开更多
关键词 神经网络 词向量 Bi-LSTM 文本表示
下载PDF
基于维基百科类别的文本特征表示 被引量:16
20
作者 王锦 王会珍 张俐 《中文信息学报》 CSCD 北大核心 2011年第2期27-31,共5页
该文提出了基于维基百科类别体系的文本特征表示方法,方法是将文本中的词映射到维基百科的类别体系中,使用类别作为特征来对文本进行表示。基于维基类别的文本特征表示方法可以增强文本特征表示能力,降低文本特征空间维数。针对维基百... 该文提出了基于维基百科类别体系的文本特征表示方法,方法是将文本中的词映射到维基百科的类别体系中,使用类别作为特征来对文本进行表示。基于维基类别的文本特征表示方法可以增强文本特征表示能力,降低文本特征空间维数。针对维基百科条目在语料中覆盖度不足的问题,该文提出了一种基于全局信息自学习维基百科类别的方法。该文构造基于维基百科类别为文本表示的分类系统,实验结果证明,基于维基百科类别作为文本表示特征,相对于词袋模型,具有明显的降维效果,在当特征数量较少时(如:<700),分类的F1值提高了5.14%。 展开更多
关键词 文本分类 维基百科类别 文本表示
下载PDF
上一页 1 2 11 下一页 到第
使用帮助 返回顶部