期刊文献+
共找到18篇文章
< 1 >
每页显示 20 50 100
文本挖掘及其关键技术与方法 被引量:42
1
作者 王丽坤 王宏 陆玉昌 《计算机科学》 CSCD 北大核心 2002年第12期12-19,共8页
With the dramatically development of Internet, the information processing and management technology onWWW have become a great important branch of data mining and data warehouse. Especially, nowadays, Text Miningis mar... With the dramatically development of Internet, the information processing and management technology onWWW have become a great important branch of data mining and data warehouse. Especially, nowadays, Text Miningis marvelously emerging and plays an important role in interrelated fields. So it is worth summarizing the contentabout text mining from its definition to relational methods and techniques. In this paper, combined to comparativelymature data mining technology, we present the definition of text mining and the multi-stage text mining process mod-el. Moreover, this paper roundly introduces the key areas of text mining and some of the powerful text analysis tech-niques, including: Word Automatic Segmenting, Feature Representation, Feature Extraction, Text Categorization,Text Clustering, Text Summarization, Information Extraction, Pattern Quality Evaluation, etc. These techniquescover the whole process from information preprocessing to knowledge obtaining. 展开更多
关键词 文本挖掘 数据挖掘 知识发现 数据处理 数据库
下载PDF
文本分类技术研究 被引量:13
2
作者 杨丽华 戴齐 杨占华 《微计算机信息》 北大核心 2006年第05X期209-211,共3页
文本分类是文本挖掘的基础和核心。文中系统地介绍了文本分类过程中涉及的各种关键技术,对特征表示、特征提取、文本分类方法及分类模型评估进行了较为详细地论述。最后,提出了文本分类中存在的问题及今后的发展。
关键词 文本挖掘 文本分类 特征表示 特征抽取 模型评估
下载PDF
基于KMeans-EDA算法的非均衡评论情感分类研究
3
作者 郭卡 《山东理工大学学报(自然科学版)》 CAS 2024年第4期45-52,共8页
学习者真实的评价是反映在线课程优缺点的重要指标,快速准确地获得其反馈,对于在线课程的优化极为重要。为深入挖掘学习者的在线学习行为,继而为在线教学提供有效的数据基础,爬取了中国大学MOOC平台的课程评论文本,基于Bert模型的结构,... 学习者真实的评价是反映在线课程优缺点的重要指标,快速准确地获得其反馈,对于在线课程的优化极为重要。为深入挖掘学习者的在线学习行为,继而为在线教学提供有效的数据基础,爬取了中国大学MOOC平台的课程评论文本,基于Bert模型的结构,建立了基于自注意力文本表征的机器学习模型,能够实现对评论文本的精确情感分类,从而获得学习者内隐的情感状态。由于爬取数据中负面评论较少,故设计了KMeans-EDA自适应均衡采样训练策略,解决了训练过程中模型偏向多数类的问题,提升了模型对负面评论的识别能力。实验结果表明,该策略可以将模型对评论文本的F1-score值从0.6902提升到0.7399。 展开更多
关键词 在线课程 评论文本 文本情感分类 预训练特征表示 非均衡训练
下载PDF
基于双编码器的短文本自动摘要方法 被引量:4
4
作者 丁建立 李洋 王家亮 《计算机应用》 CSCD 北大核心 2019年第12期3476-3481,共6页
针对当前生成式文本摘要方法存在的语义信息利用不充分、摘要精度不够等问题,提出一种基于双编码器的文本摘要方法。首先,通过双编码器为序列映射(Seq2Seq)架构提供更丰富的语义信息,并对融入双通道语义的注意力机制和伴随经验分布的解... 针对当前生成式文本摘要方法存在的语义信息利用不充分、摘要精度不够等问题,提出一种基于双编码器的文本摘要方法。首先,通过双编码器为序列映射(Seq2Seq)架构提供更丰富的语义信息,并对融入双通道语义的注意力机制和伴随经验分布的解码器进行了优化研究;然后,在词嵌入生成技术中融合位置嵌入和词嵌入,并新增词频-逆文档频率(TF-IDF)、词性(POS)、关键性得分(Soc),优化词嵌入维度。所提方法对传统序列映射Seq2Seq和词特征表示进行优化,在增强模型对语义的理解的同时,提高了摘要的质量。实验结果表明,该方法在Rouge评价体系中的表现相比传统伴随自注意力机制的递归神经网络方法(RNN+atten)和多层双向伴随自注意力机制的递归神经网络方法(Bi-MulRNN+atten)提高10~13个百分点,其文本摘要语义理解更加准确、生成效果更好,拥有更好的应用前景。 展开更多
关键词 生成式文本摘要 序列映射(Seq2Seq) 双编码器 经验分布 词特征表示
下载PDF
Web文本聚类的研究与实现 被引量:2
5
作者 贾丙静 吴长勤 葛华 《长春师范学院学报(自然科学版)》 2011年第3期26-29,共4页
Web文本聚类是使文本之间具有最大的簇内相似性,同时具有最小的簇间相似性,它是一个将文本集分组的全自动处理过程。本文首先提出了Web文本聚类模型,然后对Web文本聚类关键技术进行了深入的研究,讨论了分词、特征表示、特征选择和K-mean... Web文本聚类是使文本之间具有最大的簇内相似性,同时具有最小的簇间相似性,它是一个将文本集分组的全自动处理过程。本文首先提出了Web文本聚类模型,然后对Web文本聚类关键技术进行了深入的研究,讨论了分词、特征表示、特征选择和K-means算法等相关技术。最后,实现了该文本聚类系统,对采集到的Web文本进行聚类,实验证明此算法具有很好的聚类结果。 展开更多
关键词 WEB文本聚类 分词 特征表示 特征选择 K-MEANS算法
下载PDF
改进深度卷积生成式对抗网络的文本生成图像
6
作者 李云红 朱绵云 +3 位作者 任劼 苏雪平 周小计 于惠康 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2023年第8期1875-1883,共9页
针对深度卷积生成式对抗网络(DCGAN)模型高维文本输入表示的稀疏性导致以文本为条件生成的图像结构缺失和图像不真实的问题,提出了一种改进深度卷积生成式对抗网络模型CA-DCGAN。采用深度卷积网络和循环文本编码器对输入的文本进行编码... 针对深度卷积生成式对抗网络(DCGAN)模型高维文本输入表示的稀疏性导致以文本为条件生成的图像结构缺失和图像不真实的问题,提出了一种改进深度卷积生成式对抗网络模型CA-DCGAN。采用深度卷积网络和循环文本编码器对输入的文本进行编码,得到文本的特征向量表示。引入条件增强(CA)模型,通过文本特征向量的均值和协方差矩阵产生附加的条件变量,代替原来的高维文本特征向量。将条件变量与随机噪声结合作为生成器的输入,并在生成器的损失中额外加入KL损失正则化项,避免模型训练过拟合,使模型可以更好的收敛,在判别器中使用谱约束(SN)层,防止其梯度下降太快造成生成器与判别器不平衡训练而发生模式崩溃的问题。实验验证结果表明:所提模型在Oxford-102-flowers和CUB-200数据集上生成的图像质量较alignDRAW、GAN-CLS、GAN-INT-CLS、StackGAN(64×64)、StackGAN-v1(64×64)模型更好且接近于真实样本,初始得分值最低分别提高了10.9%和5.6%,最高分别提高了41.4%和37.5%,FID值最低分别降低了11.4%和8.4%,最高分别降低了43.9%和42.5%,进一步表明了所提模型的有效性。 展开更多
关键词 深度卷积生成式对抗网络 文本生成图像 文本特征表示 条件增强 KL正则化
下载PDF
A feature representation method for biomedical scientific data based on composite text description
7
作者 SUN Wei 《Chinese Journal of Library and Information Science》 2009年第4期43-53,共11页
Feature representation is one of the key issues in data clustering. The existing feature representation of scientific data is not sufficient, which to some extent affects the result of scientific data clustering. Ther... Feature representation is one of the key issues in data clustering. The existing feature representation of scientific data is not sufficient, which to some extent affects the result of scientific data clustering. Therefore, the paper proposes a concept of composite text description(CTD) and a CTD-based feature representation method for biomedical scientific data. The method mainly uses different feature weight algorisms to represent candidate features based on two types of data sources respectively, combines and finally strengthens the two feature sets. Experiments show that comparing with traditional methods, the feature representation method is more effective than traditional methods and can significantly improve the performance of biomedcial data clustering. 展开更多
关键词 Composite text description Scientific data feature representation Weight algorism
下载PDF
基于情感倾向特征的文本情感聚类 被引量:1
8
作者 薛宾 王素格 +1 位作者 张鹏 廖建 《电脑开发与应用》 2013年第2期1-5,共5页
利用领域本体对产品评论文本中的特征及其评价词进行抽取,并将特征评价词的情感倾向与特征所在句子的情感倾向进行特征表示,得到文本特征矩阵,在此基础上,利用K-means算法实现了文本的情感聚类。为了验证该方法的有效性,在真实汽车评论... 利用领域本体对产品评论文本中的特征及其评价词进行抽取,并将特征评价词的情感倾向与特征所在句子的情感倾向进行特征表示,得到文本特征矩阵,在此基础上,利用K-means算法实现了文本的情感聚类。为了验证该方法的有效性,在真实汽车评论文本数据上进行实验,结果表明,基于特征的情感倾向表示的权重相比布尔权重和LDA特征权重的聚类结果,在聚类的纯度和F值上有明显提高。 展开更多
关键词 文本聚类 特征表示 情感倾向
下载PDF
基于混合神经网络的中文短文本分类模型 被引量:1
9
作者 陈巧红 王磊 +1 位作者 孙麒 贾宇波 《浙江理工大学学报(自然科学版)》 2019年第4期509-516,共8页
针对已有算法中特征表示存在的稀疏问题以及文本高层特征提取效果不佳问题,提出了一种基于混合神经网络的中文短文本分类模型。该模型首先通过自定义筛选机制将文档以短语层和字符层进行特征词筛选;然后将卷积神经网络(CNN)和循环神经网... 针对已有算法中特征表示存在的稀疏问题以及文本高层特征提取效果不佳问题,提出了一种基于混合神经网络的中文短文本分类模型。该模型首先通过自定义筛选机制将文档以短语层和字符层进行特征词筛选;然后将卷积神经网络(CNN)和循环神经网络(RNN)相结合,提取文本高阶特征,并引入注意力机制优化高阶向量特征;最后将得到的高阶向量特征输入到全连接层得到分类结果。实验结果表明:该方法能有效提取出文档的短语层和字符层特征;与传统CNN、传统LSTM和CLSTM模型对比,二分类数据集上准确率分别提高10.36%、5.01%和2.39%,多分类数据集上准确率分别提高12.33%、4.16%和2.33%。 展开更多
关键词 卷积神经网络 循环神经网络 短文本分类 特征表示 注意力机制
下载PDF
PosNet:基于位置的因果关系抽取网络 被引量:1
10
作者 朱广丽 许鑫 +2 位作者 张顺香 吴厚月 黄菊 《计算机科学》 CSCD 北大核心 2022年第12期305-311,共7页
因果关系抽取是一种从文本中抽取因果实体对的自然语言处理技术,被广泛应用于金融、医疗等领域。传统的因果关系抽取技术需要人工选取文本特征进行因果匹配或使用神经网络多次提取特征,导致模型结构较为复杂,抽取效率不高。针对这一问题... 因果关系抽取是一种从文本中抽取因果实体对的自然语言处理技术,被广泛应用于金融、医疗等领域。传统的因果关系抽取技术需要人工选取文本特征进行因果匹配或使用神经网络多次提取特征,导致模型结构较为复杂,抽取效率不高。针对这一问题,提出一种基于位置的因果关系抽取网络(Position-based Causal Extraction Network,PosNet),以期提高因果关系的抽取效率。首先,预处理文本,构建多粒度文本特征作为网络的输入;然后,将文本特征传入位置预测网络,使用经典的浅层卷积神经网络预测因果实体的开始位置和结束位置;最后,通过组装算法按起始位置组装因果实体,抽取出全部因果实体对。实验结果证明PosNet可以提升因果关系抽取的效率。 展开更多
关键词 因果关系抽取 位置信息 文本特征表示
下载PDF
基于属性重要性的Web文本聚类研究
11
作者 贾丙静 王传安 +1 位作者 王亚军 吴长勤 《重庆文理学院学报(自然科学版)》 2011年第3期49-51,共3页
Web文本聚类是一种典型的无指导机器学习技术,目标是将站点上采集到的Web文本分成若干簇,使同一簇内的文本相似性最大,不同簇间的文本相似性最小.为了对原始粗糙的Web文本数据进行降维处理,在知识属性值的基础上,计算单个属性相对于属... Web文本聚类是一种典型的无指导机器学习技术,目标是将站点上采集到的Web文本分成若干簇,使同一簇内的文本相似性最大,不同簇间的文本相似性最小.为了对原始粗糙的Web文本数据进行降维处理,在知识属性值的基础上,计算单个属性相对于属性集的重要性量化值,并根据属性重要性量化值对特征向量降维,并采用K-means算法对降维后的数据聚类,实验证明该方法缩短了聚类时间. 展开更多
关键词 WEB文本聚类 特征表示 特征选择 属性重要性
下载PDF
基于稠密连接记忆神经网络的文本推理
12
作者 潘永华 闭应洲 +1 位作者 潘怀奇 郑思霞 《计算机应用研究》 CSCD 北大核心 2020年第5期1380-1383,1389,共5页
由于传统的端到端记忆神经网络模型特征表示能力不足、无法很好地表示各个记忆之间的联系,导致其在数据集b Ab I中的位置推理和路径查找问题正确率不高,针对此问题,提出了一种结合稠密连接和多层感知机的记忆神经网络。该模型利用稠密... 由于传统的端到端记忆神经网络模型特征表示能力不足、无法很好地表示各个记忆之间的联系,导致其在数据集b Ab I中的位置推理和路径查找问题正确率不高,针对此问题,提出了一种结合稠密连接和多层感知机的记忆神经网络。该模型利用稠密连接与全连接层获取关系特征,增强了模型的特征表示能力。利用b Ab I数据集对模型进行推理正确率的评估,实验结果表明,与传统的记忆神经网络以及端到端记忆神经网络相比,该模型能有效提升文本推理的正确率。 展开更多
关键词 记忆神经网络 稠密连接 文本推理 多层感知机 特征表示
下载PDF
Web文本挖掘及相关技术研究 被引量:4
13
作者 白翎雁 才书训 《沈阳工程学院学报(自然科学版)》 2008年第3期258-261,共4页
随着信息的海量化,如何获取用户所需已经日益突显出其重要性.Web文本挖掘可对Web上大量文档集合的内容进行总结、分类、聚类、分析以便于利用.介绍了Web文本挖掘的定义、特点,重点分析了其相关的几种关键技术—文本特征表示、特征子选... 随着信息的海量化,如何获取用户所需已经日益突显出其重要性.Web文本挖掘可对Web上大量文档集合的内容进行总结、分类、聚类、分析以便于利用.介绍了Web文本挖掘的定义、特点,重点分析了其相关的几种关键技术—文本特征表示、特征子选取、文本分类、文本聚类,并对其发展作以展望. 展开更多
关键词 WEB文本挖掘 特征表示 特征子集选取 文本分类 文本聚类
下载PDF
基于增强特征表示的语义分割神经网络
14
作者 程坦 许开强 安竹林 《计算机仿真》 北大核心 2023年第11期122-125,共4页
语义分割是计算机视觉领域中一个基础而重要的话题,针对语义分割中边界分割困难的问题,提出了一种利用类别整体特征以增强模型表征能力的语义分割神经网络结构。通过分析同类别内各像素特征应具有相似性、不同类别内的特征应具有可分性... 语义分割是计算机视觉领域中一个基础而重要的话题,针对语义分割中边界分割困难的问题,提出了一种利用类别整体特征以增强模型表征能力的语义分割神经网络结构。通过分析同类别内各像素特征应具有相似性、不同类别内的特征应具有可分性的特点,利用区域提议汇聚各类别区域内的特征,并使用关注特征的方法建立像素点与类别之间的联系,从而增强模型表征能力。通过在公开数据集上的实验分析比较,上述结构能有效提升像素点特征表示能力。 展开更多
关键词 语义分割 深度神经网络 特征增强表示 多尺度上下文编码 特征表示
下载PDF
一种基于复合文本描述的科学数据特征表示方法 被引量:2
15
作者 孙巍 《现代图书情报技术》 CSSCI 北大核心 2009年第5期22-27,共6页
特征表示是数据聚类的关键问题之一。当前对科学数据特征表示的深度不够,从而在一定程度上影响科学数据聚类的效果。针对这一问题,提出复合文本描述的概念以及一种基于复合文本描述的科学数据特征表示方法,该方法的主要特点是运用不同... 特征表示是数据聚类的关键问题之一。当前对科学数据特征表示的深度不够,从而在一定程度上影响科学数据聚类的效果。针对这一问题,提出复合文本描述的概念以及一种基于复合文本描述的科学数据特征表示方法,该方法的主要特点是运用不同的特征权重计算法分别对基于两种文本数据源的候选特征加以表示,并将两种特征集合并,最终实现强化特征集的目的。实验表明,该方法优于传统方法,使科学数据聚类的效果有明显提高。 展开更多
关键词 复合文本描述 科学数据 特征表示 权重计算
下载PDF
基于概念全信息空间的文本知识挖掘算法 被引量:1
16
作者 宋菲 朱群雄 顾祥柏 《计算机应用与软件》 CSCD 北大核心 2008年第7期96-97,108,共3页
提出了用非负矩阵因子分解法(NMF)得到的基向量作为概念空间,并用其代替原特征向量空间来表示文本特征的方法,该方法不仅降低了特征空间的维数而且弥补了传统表示法无法体现特征相关性的不足。在此基础上,提出了基于概念全信息空间的文... 提出了用非负矩阵因子分解法(NMF)得到的基向量作为概念空间,并用其代替原特征向量空间来表示文本特征的方法,该方法不仅降低了特征空间的维数而且弥补了传统表示法无法体现特征相关性的不足。在此基础上,提出了基于概念全信息空间的文本知识挖掘算法。实验结果表明,与单纯的基于语义的知识挖掘方法相比,提出的算法具有更好的精度与效率,提取的知识既包含具体内容又体现知识的价值,能够为智能决策的合理性提供可靠的依据。 展开更多
关键词 文本知识挖掘 基于概念空间的特征表示 NMF-模糊层次分析法 概念全信息空间
下载PDF
基于多文本特征融合的中文微博的立场检测 被引量:24
17
作者 奠雨洁 金琴 吴慧敏 《计算机工程与应用》 CSCD 北大核心 2017年第21期77-84,共8页
微博立场检测是判断微博作者对某一个话题的态度是支持、反对或中立。在基于监督学习的分类框架上,扩展并提出基于多文本特征融合的中文微博的立场检测方法。首先探究了基于词频统计的特征(词袋特征(Bag-ofWords,Bo W)、基于同义词典的... 微博立场检测是判断微博作者对某一个话题的态度是支持、反对或中立。在基于监督学习的分类框架上,扩展并提出基于多文本特征融合的中文微博的立场检测方法。首先探究了基于词频统计的特征(词袋特征(Bag-ofWords,Bo W)、基于同义词典的词袋特征、考虑词与立场标签共现关系的特征)和文本深度特征(词向量、字向量)。之后使用支持向量机,随机森林和梯度提升决策树对上述特征进行立场分类。最后,结合所有特征分类器进行后期融合。实验表明,文中提出的特征对于不同话题下的微博立场检测的结果都有提升,且文本深度特征和基于词频统计的特征能够捕捉到文本的不同信息,在立场检测中是互补的。基于本文方法的微博立场检测系统在2016年自然语言处理与中文计算会议(NLPCC2016)的中文微博立场检测评测任务中取得了最好的结果。 展开更多
关键词 立场检测 情感分析 文本特征表示 微博 文本分类
下载PDF
基于特征增强和语义相关性匹配的图像文本检索方法 被引量:2
18
作者 陈佳 张鸿 《计算机应用》 CSCD 北大核心 2024年第1期16-23,共8页
为实现图像文本检索中图像与文本的精确语义连接,提出一种基于特征增强和语义相关性匹配(FESCM)的图像文本检索方法。首先,通过特征增强表示模块,引入多头自注意力机制增强图像区域特征和文本单词特征,以减少冗余信息对图像区域和文本... 为实现图像文本检索中图像与文本的精确语义连接,提出一种基于特征增强和语义相关性匹配(FESCM)的图像文本检索方法。首先,通过特征增强表示模块,引入多头自注意力机制增强图像区域特征和文本单词特征,以减少冗余信息对图像区域和文本单词对齐的干扰;其次,通过语义相关性匹配模块,不仅利用局部匹配捕获局部显著对象之间的对应相关性,还把图像背景信息融入图像全局特征,利用全局匹配实现精确的全局语义相关性;最后,通过局部匹配分数和全局匹配分数获取图像和文本的最终匹配分数。实验结果表明,基于FESCM的图像文本检索方法在Flickr8k和Flickr30k基准数据集上的召回率总值比扩展的视觉语义嵌入方法分别提升了5.7和7.5个百分点,在MS-COCO数据集比双流层次相似度推理方法提升了3.7个百分点。因此该方法可以有效提高图像文本检索的准确度,实现图像与文本的语义连接。 展开更多
关键词 图像文本检索 特征增强表示 多头自注意力机制 语义相关性匹配
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部