期刊文献+
共找到337篇文章
< 1 2 17 >
每页显示 20 50 100
基于语义框架的电网缺陷文本挖掘技术及其应用 被引量:81
1
作者 曹靖 陈陆燊 +3 位作者 邱剑 王慧芳 应高亮 张波 《电网技术》 EI CSCD 北大核心 2017年第2期637-643,共7页
电网企业拥有大量蕴含着重要可靠性信息的设备缺陷文本,依靠人工进行挖掘不仅效率低而且准确性因人而异。以变压器缺陷文本为研究对象,通过分析文本的特点,建立了基于语义框架的电网缺陷文本挖掘模型,解决了缺陷文本句子成分难以划分、... 电网企业拥有大量蕴含着重要可靠性信息的设备缺陷文本,依靠人工进行挖掘不仅效率低而且准确性因人而异。以变压器缺陷文本为研究对象,通过分析文本的特点,建立了基于语义框架的电网缺陷文本挖掘模型,解决了缺陷文本句子成分难以划分、数字量无法精确提取等问题,为电网领域的非结构化数据挖掘提供了新技术。首先在建立本体词库基础上,对缺陷文本进行分词、词汇特征提取等预处理;然后定义了电力语义框架与语义槽,提出了槽填充和语义框架构建流程,并通过词串合并实现了本体字典自动完善;最后对缺陷文本挖掘结果在可靠性统计中的应用进行了研究。算例表明,所提出的挖掘技术应用于电网缺陷自动分类与统计中,具有可行性和有效性。 展开更多
关键词 文本挖掘 语义框架 可靠性统计 缺陷文本
下载PDF
语义分析与词频统计相结合的中文文本相似度量方法研究 被引量:42
2
作者 华秀丽 朱巧明 李培峰 《计算机应用研究》 CSCD 北大核心 2012年第3期833-836,共4页
基于统计的文本相似度量方法大多先采用TF-IDF方法将文本表示为词频向量,然后利用余弦计算文本之间的相似度。此类方法由于忽略文本中词项的语义信息,不能很好地反映文本之间的相似度。基于语义的方法虽然能够较好地弥补这一缺陷,但需... 基于统计的文本相似度量方法大多先采用TF-IDF方法将文本表示为词频向量,然后利用余弦计算文本之间的相似度。此类方法由于忽略文本中词项的语义信息,不能很好地反映文本之间的相似度。基于语义的方法虽然能够较好地弥补这一缺陷,但需要知识库来构建词语之间的语义关系。研究了以上两类文本相似度计算方法的优缺点,提出了一种新颖的文本相似度量方法,该方法首先对文本进行预处理,然后挑选TF-IDF值较高的词项作为特征项,再借助HowNet语义词典和TF-IDF方法对特征项进行语义分析和词频统计相结合的文本相似度计算,最后利用文本相似度在基准文本数据集合上进行聚类实验。实验结果表明,采用提出的方法得到的F-度量值明显优于只采用TF-IDF方法或词语语义的方法,从而证明了提出的文本相似度计算方法的有效性。 展开更多
关键词 向量空间模型 语义分析 词频 概率分布 文本相似度
下载PDF
文本信息隐藏检测算法研究 被引量:26
3
作者 周继军 杨著 +1 位作者 钮心忻 杨义先 《通信学报》 EI CSCD 北大核心 2004年第12期97-101,共5页
对当前流行的文本信息隐藏算法进行了分析,重点剖析了基于语义的文本信息隐藏算法存在的弱点,然后根据这些弱点借鉴概念图的思想设计了其通用检测算法--句间相关性度量判定法。实验测试结果表明该检测算法具有较高的检测可靠性。
关键词 信息隐藏 语义 文本 概念图
下载PDF
一种基于语义相似度的文本聚类算法 被引量:18
4
作者 孙爽 章勇 《南京航空航天大学学报》 EI CAS CSCD 北大核心 2006年第6期712-716,共5页
文本聚类在很多文本挖掘和信息检索系统中发挥着重要的作用。现有的聚类算法大多数都是基于向量空间模型,文档集合中出现的单词词频作为特征项。这些算法都存在数据维数过高、聚簇难以描述的问题,而且忽略了单词间的语义联系。本文提出... 文本聚类在很多文本挖掘和信息检索系统中发挥着重要的作用。现有的聚类算法大多数都是基于向量空间模型,文档集合中出现的单词词频作为特征项。这些算法都存在数据维数过高、聚簇难以描述的问题,而且忽略了单词间的语义联系。本文提出了一种基于语义相似度的文本聚类算法——TCU SS(Text clustering usingsem an ticsim ilarity)算法。TCU SS算法将文档表示成概念列表,有效地解决了数据维数高和聚簇描述难的问题,并给出如何利用概念列表进行聚簇描述的方法。TCU SS算法利用两个概念列表中单词间的语义相似度作为文档间相近程度的度量,并以图为基础进行聚类分析,避免有些聚类算法对聚簇形状的限制。实验证明,TCU SS算法提高了聚类质量。 展开更多
关键词 文本聚类 语义相似度 文本表示 语义相似度的文本聚类算法
下载PDF
基于维基百科的语义知识库及其构建方法研究 被引量:26
5
作者 张海粟 马大明 邓智龙 《计算机应用研究》 CSCD 北大核心 2011年第8期2807-2811,共5页
维基百科(Wikipedia)是规模最大的在线网络百科全书之一,采用群体在线合作编辑的Wiki机制,具有质量高、覆盖广、实时演化和半结构化等特点,是用来构建语义知识库的优质语料来源。分析了维基百科语料库的基本情况,综述了目前基于维基百... 维基百科(Wikipedia)是规模最大的在线网络百科全书之一,采用群体在线合作编辑的Wiki机制,具有质量高、覆盖广、实时演化和半结构化等特点,是用来构建语义知识库的优质语料来源。分析了维基百科语料库的基本情况,综述了目前基于维基百科所构建的多种语义知识库及其概念抽取和关系抽取方法,讨论了各类方法的优缺点、开放问题和可能的研究方向。 展开更多
关键词 维基百科 语义挖掘 知识库 文本挖掘
下载PDF
结合LDA与Word2vec的文本语义增强方法 被引量:20
6
作者 唐焕玲 卫红敏 +2 位作者 王育林 朱辉 窦全胜 《计算机工程与应用》 CSCD 北大核心 2022年第13期135-145,共11页
文本的语义表示是自然语言处理和机器学习领域的研究难点,针对目前文本表示中的语义缺失问题,基于LDA主题模型和Word2vec模型,提出一种新的文本语义增强方法Sem2vec(semantic to vector)模型。该模型利用LDA主题模型获得单词的主题分布... 文本的语义表示是自然语言处理和机器学习领域的研究难点,针对目前文本表示中的语义缺失问题,基于LDA主题模型和Word2vec模型,提出一种新的文本语义增强方法Sem2vec(semantic to vector)模型。该模型利用LDA主题模型获得单词的主题分布,计算单词与其上下文词的主题相似度,作为主题语义信息融入到词向量中,代替one-hot向量输入至Sem2vec模型,在最大化对数似然目标函数约束下,训练Sem2vec模型的最优参数,最终输出增强的语义词向量表示,并进一步得到文本的语义增强表示。在不同数据集上的实验结果表明,相比其他经典模型,Sem2vec模型的语义词向量之间的语义相似度计算更为准确。另外,根据Sem2vec模型得到的文本语义向量,在多种文本分类算法上的分类结果,较其他经典模型可以提升0.58%~3.5%,同时也提升了时间性能。 展开更多
关键词 LDA主题模型 Word2vec模型 语义词向量 语义相似度 文本分类
下载PDF
产品语义提取方法及流程研究 被引量:21
7
作者 李然 支锦亦 +1 位作者 肖江浩 秦玉京 《包装工程》 CAS 北大核心 2018年第22期132-137,共6页
目的对产品语义的提取方法及流程进行了研究与实践。方法借鉴设计学、语言学中关于语义的提炼方法,提出了由用户语义采集、文本整理、语义词汇提炼3个步奏构成的提取方法及流程。结果按照语义提取方法及流程,研究小组从调查问卷中获取... 目的对产品语义的提取方法及流程进行了研究与实践。方法借鉴设计学、语言学中关于语义的提炼方法,提出了由用户语义采集、文本整理、语义词汇提炼3个步奏构成的提取方法及流程。结果按照语义提取方法及流程,研究小组从调查问卷中获取得到电动汽车的核心语义词汇,为项目的顺利推进提供了较好的支持。结论基于研究,构建了一套操作简单,易于掌握,适用范围广,花费成本低,适用于工业设计师在实践项目中进行产品语义提取的方法与流程。 展开更多
关键词 产品语义 语义采集 文本整理 词汇提炼 语义提取
下载PDF
基于语义角色和概念图的信息抽取模型 被引量:19
8
作者 杨选选 张蕾 《计算机应用》 CSCD 北大核心 2010年第2期411-414,共4页
传统的信息抽取方法由于缺少语义信息的支持,抽取的准确率不高。针对这个问题提出了一种基于语义理解的信息抽取方法。一方面,把语义角色标注的浅层语义信息转换成概念图,无歧义地将抽取信息所包含的基本语义形式化;另一方面,通过概念... 传统的信息抽取方法由于缺少语义信息的支持,抽取的准确率不高。针对这个问题提出了一种基于语义理解的信息抽取方法。一方面,把语义角色标注的浅层语义信息转换成概念图,无歧义地将抽取信息所包含的基本语义形式化;另一方面,通过概念图的相似度计算区分场景,并使用语义角色获取抽取模式,以提高抽取质量。实验结果表明,该方法取得了较好的效果。 展开更多
关键词 信息抽取 语义角色 概念图相似度 知网 文本理解
下载PDF
面向公共安全事件的网络文本大数据结构化研究 被引量:15
9
作者 裴韬 郭思慧 +5 位作者 袁烨城 张雪英 袁文 高昂 赵志远 薛存金 《地球信息科学学报》 CSCD 北大核心 2019年第1期2-13,共12页
网络文本中所包含的相关信息目前已成为公共安全事件紧急救援与影响评估的重要信息源。现有的方法虽然可定向地提取文本信息中事件的各类要素信息,但由于缺乏面向事件的整体建模与解析框架,难以从网络文本中获取系统的事件要素的结构化... 网络文本中所包含的相关信息目前已成为公共安全事件紧急救援与影响评估的重要信息源。现有的方法虽然可定向地提取文本信息中事件的各类要素信息,但由于缺乏面向事件的整体建模与解析框架,难以从网络文本中获取系统的事件要素的结构化信息,即所提取的事件要素信息要么不够完整,要么与目标事件不匹配,由此产生的遗漏与谬误难以支撑针对公共安全事件信息的系统分析。为解决该问题,本文提出了面向公共安全事件的网络文本大数据结构化理论框架,首先,建立了公共安全事件的语义框架,并以地震事件为例构建了相应的结构化表结构;其次,应用训练语料的关联标注解决了事件要素与事件无法匹配的难点;最后,通过使用可融合关联信息的文本解析算法,系统提取了事件类型、事件名称、事件时间、事件位置及其他属性,基本实现了网络文本中不同事件信息的结构化。本文以云南邵通鲁甸地震为例,展示了地震事件的网络文本信息的结构化过程与结果,为分析地震所受的关注程度以及救援状况提供了重要参考。在上述研究的基础上,开发了面向公共安全事件的网络文本信息挖掘系统,展示了地震事件文本的结构化解析以及由此实施的事件关注度分析。 展开更多
关键词 语义框架 文本解析 事件关注度 地震事件 空间搜索引擎
原文传递
小句的语气类型与小句之间语义联结类别的关系 被引量:7
10
作者 袁明军 《汉语学习》 CSSCI 北大核心 2006年第3期31-35,共5页
本文考察了陈述、祈使、疑问、感叹四种语气类型的十六种组合可以有哪些语义关系,不能有哪些语义关系。本文对外国学生话语习得和计算机篇章生成有一定意义。
关键词 小句 语气 语义关系 话语 篇章
下载PDF
基于语义空间的藏文微博情感分析方法 被引量:10
11
作者 袁斌 江涛 于洪志 《计算机应用研究》 CSCD 北大核心 2016年第3期682-685,共4页
藏文微博具有独特的语法特点,传统方法对藏文文本进行情感分类很难取得较好效果。结合藏文句法结构和语义特征向量构建语义特征空间,提出了一种基于语义空间的藏文微博情感分析方法。首先使用句法树生成句法结构并结合语义特征向量构建... 藏文微博具有独特的语法特点,传统方法对藏文文本进行情感分类很难取得较好效果。结合藏文句法结构和语义特征向量构建语义特征空间,提出了一种基于语义空间的藏文微博情感分析方法。首先使用句法树生成句法结构并结合语义特征向量构建特征空间,运用K-means方法聚类形成语义簇质心,将基于簇的TF-IDF值作为最终的微博情感特征值。实验结果表明,该方法的情感分类效果均优于SVM+TF-IDF和naive Bayes+最大熵的方法。 展开更多
关键词 藏语微博 情感分类 语义空间 文本聚类 语义簇
下载PDF
基于共现潜在语义向量空间模型的语义核构建 被引量:10
12
作者 牛奉高 张亚宇 《情报学报》 CSSCI CSCD 北大核心 2017年第8期834-842,共9页
实现数字图书馆资源聚合的知识发现离不开对知识的有效表示。作为经典的文本表示模型,向量空间模型(VSM)及其衍生模型在信息检索以及知识发现等研究中都有着重要的地位,但依然存在不足。共现潜在语义向量空间模型(CLSVSM)作为新的文本... 实现数字图书馆资源聚合的知识发现离不开对知识的有效表示。作为经典的文本表示模型,向量空间模型(VSM)及其衍生模型在信息检索以及知识发现等研究中都有着重要的地位,但依然存在不足。共现潜在语义向量空间模型(CLSVSM)作为新的文本表示模型,与VSM相比明显提高了文本聚类的精度。然而,面对文本大数据的应用,共现矩阵维度往往较高,致使模型的计算复杂度也较大。因此,本文在CLSVSM基础上构建了语义核(CLSVSM_K),构建的原理是基于潜在语义分析(LSA)的思想。CLSVSM_K不仅降低了共现矩阵的维度,而且实现了文本特征词之间同义信息的合并。本文将该语义核模型应用于文献的主题聚类中,实验结果表明,该方法的确有效降低了特征词空间的维度和计算的复杂度,提高了聚类算法的性能,且提高了文献主题聚类的精确度。该模型的应用将有助于数字图书馆信息资源组织、知识发现和知识优化。 展开更多
关键词 共现潜在语义向量空间模型 语义核 共现潜在语义向量空间模型语义核 文本聚类
下载PDF
基于语义分割的食品标签文本检测 被引量:10
13
作者 田萱 王子亚 王建新 《农业机械学报》 EI CAS CSCD 北大核心 2020年第8期336-343,共8页
食品包装上的标签文本含有生产日期、营养成分、生产厂家等食品相关信息,这些不仅为消费者购买食品提供了重要依据,也有助于食品监督抽检机构发现潜在的食品安全问题。食品标签文本检测是食品标签自动识别的前提,有助于降低人工录入成... 食品包装上的标签文本含有生产日期、营养成分、生产厂家等食品相关信息,这些不仅为消费者购买食品提供了重要依据,也有助于食品监督抽检机构发现潜在的食品安全问题。食品标签文本检测是食品标签自动识别的前提,有助于降低人工录入成本、提高数据处理效率。基于食品包装图像构建数据集,提出了一种基于语义分割的距离场模型,以检测食品标签。该模型包含像素分类和距离场回归两类任务,其中像素分类任务分割处理图像中的文本区域,距离场回归任务预测文本区域内的像素点到该区域边界的归一化距离。为提升模型的检测性能,在回归预测模块中通过增加注意力模块优化模型结构,并针对距离场回归任务损失值过小、影响模型训练优化问题对其损失函数进行了改进。消融实验结果表明,增加注意力模块和损失函数的改进使得模型的准确率分别提高了4.39、3.80个百分点,有效提高了检测准确率。食品包装图像数据集的对比实验表明,采用本文模型检测食品标签文本具有较好的性能,其召回率、准确率分别达到87.61%、76.50%。 展开更多
关键词 食品标签 语义分割 文本检测 文本识别
下载PDF
基于语义的文档特征提取研究方法 被引量:10
14
作者 姜芳 李国和 岳翔 《计算机科学》 CSCD 北大核心 2016年第2期254-258,共5页
中文文本特征词选取是文本处理的重要方面,对文本分类有重要影响。现有的文本特征提取方法存在生成特征向量维数高、依赖训练集、忽略低频关键词等不足。利用《同义词词林》计算词语之间的语义距离,通过聚类算法筛选类别的主题相关词,... 中文文本特征词选取是文本处理的重要方面,对文本分类有重要影响。现有的文本特征提取方法存在生成特征向量维数高、依赖训练集、忽略低频关键词等不足。利用《同义词词林》计算词语之间的语义距离,通过聚类算法筛选类别的主题相关词,最后通过信息增益算法从主题相关词中选取特征词。以宏F值和微F值为评价指标,通过有效性实验和对比实验表明,该方法的文本特征选取效果优于其他经典算法。 展开更多
关键词 特征词 语义距离 信息增益 文本分类
下载PDF
面向语义出版的学术文本词汇语义功能自动识别 被引量:10
15
作者 程齐凯 李信 《数字图书馆论坛》 CSSCI 2017年第8期24-31,共8页
为提高学术文献语义出版水平,既需要在写作和出版模式方面进行研究,也需要探索学术文本语义理解技术,以实现对学术文献,特别是存量学术文献的语义化处理。本文在学术文本词汇功能分析框架基础上,提出一种基于条件随机场的学术文献问题... 为提高学术文献语义出版水平,既需要在写作和出版模式方面进行研究,也需要探索学术文本语义理解技术,以实现对学术文献,特别是存量学术文献的语义化处理。本文在学术文本词汇功能分析框架基础上,提出一种基于条件随机场的学术文献问题和方法识别模型,该模型使用词法特征、句法特征、组块特征等27个特征。实验表明,该方法具有优于当前最佳的识别效果。 展开更多
关键词 词汇功能 语义出版 序列标注 学术文本
下载PDF
在线开放课程的学习者评价数据分析框架研究--以“中小学教师数据素养”在线开放课程为例 被引量:10
16
作者 周德青 杨现民 李新 《现代教育技术》 CSSCI 2021年第8期92-101,共10页
分析学习者评价文本,可以发掘学习者对课程的真实感受与建议,客观评价课程质量。基于此,文章以“中小学教师数据素养”在线开放课程的评价数据为样本,从时间、情感、语义三个分析维度出发,构建了在线开放课程的学习者评价数据分析框架... 分析学习者评价文本,可以发掘学习者对课程的真实感受与建议,客观评价课程质量。基于此,文章以“中小学教师数据素养”在线开放课程的评价数据为样本,从时间、情感、语义三个分析维度出发,构建了在线开放课程的学习者评价数据分析框架。研究发现,课程早期和中期发表的评语最多;大部分学习者对课程持肯定态度,少数学习者认为课程理论性较强,实操部分较少;课程内容、学习反馈、情感态度与学业价值是学习者评价课程时主要关注的三大话题。最后,文章从评价数据采集规范、评价数据质量可信、评价数据分析精准、评价数据解读深入四个方面提出了学习者评价数据分析的关键策略,以期为学习者评价数据分析提供借鉴。 展开更多
关键词 在线开放课程 学习者评价数据 时间序列 语义特征 文本情感
下载PDF
基于本体和Word2Vec的文本知识片段语义标引 被引量:9
17
作者 唐晓波 翟夏普 《情报科学》 CSSCI 北大核心 2019年第4期97-102,共6页
【目的/意义】如何识别文本中的知识片段进行标引,使检索系统能检索文本知识内容是提高用户信息利用效率的关键。【方法/过程】在文献调查的基础上,文章基于本体概念模型和Word2Vec词向量模型阐述了文本片段语义标引的流程框架,并对本... 【目的/意义】如何识别文本中的知识片段进行标引,使检索系统能检索文本知识内容是提高用户信息利用效率的关键。【方法/过程】在文献调查的基础上,文章基于本体概念模型和Word2Vec词向量模型阐述了文本片段语义标引的流程框架,并对本体语义扩展、神经网络模型训练、文本片段标引、文本片段权重获取四个部分的关键环节及技术做了详细说明。最后通过实验验证了该流程框架。【结果/结论】实验结果显示该方法在文本知识片段识别上是有效的,知识识别的准确率达到80%,能够实现对文本知识内容进行标引。该方法为自动化实现基于知识的文本信息组织提供了有益的参考。 展开更多
关键词 本体 语义标引 语义识别 文本检索
原文传递
基于语义相关度的中文文本聚类方法研究 被引量:9
18
作者 杜坤 刘怀亮 王帮金 《情报理论与实践》 CSSCI 北大核心 2016年第2期129-133,共5页
[目的/意义]在基于向量空间模型的文本聚类中,文本相似度计算忽略特征项间语义关联,针对此问题,提出一种改进的语义文本相似度计算方法。[方法/过程]新方法利用维基百科知识库计算语义相关度,结合特征项在文本中的表示权重,构造文本相... [目的/意义]在基于向量空间模型的文本聚类中,文本相似度计算忽略特征项间语义关联,针对此问题,提出一种改进的语义文本相似度计算方法。[方法/过程]新方法利用维基百科知识库计算语义相关度,结合特征项在文本中的表示权重,构造文本相似度语义加权因子,并进行K-means文本聚类实验。[结果/结论]与传统的余弦相似度相比,改进后的语义文本相似度应用在文本聚类上,能有效提高聚类的准确度。[局限]语义相关度的计算没有对词语进行消歧处理。 展开更多
关键词 维基百科 语义相关度 文本相似度 文本聚类
原文传递
人同此心,心同此理——奈达与纽马克的翻译理论的相通性 被引量:8
19
作者 蒋天平 唐美莲 《河北理工学院学报(社会科学版)》 2003年第4期157-159,161,共4页
近年来 ,尤金·奈达和彼得·纽马克的翻译理论在我国产生重大影响。他们的基本翻译理论在许多方面是相同的。在诸如等效理论和形式与内容关系方面存在着表层上差异 ,然而从根本上看是相通的。
关键词 动态对等 语义翻译 交际翻译 本文 形式和内容 功能对等
下载PDF
介词短语的语义空间 被引量:4
20
作者 魏本力 武成 《四川外语学院学报》 北大核心 2006年第5期116-121,共6页
介词短语是空间表征的重要词汇语法资源,具有从具体到抽象空间跨域的语义功能,其认知目标之一在于建构语义空间。语篇分析证实,介词短语的语义空间可以营造语篇架构,行使语篇标记功能。语类分析证实,介词短语的语义空间可以组织语类模... 介词短语是空间表征的重要词汇语法资源,具有从具体到抽象空间跨域的语义功能,其认知目标之一在于建构语义空间。语篇分析证实,介词短语的语义空间可以营造语篇架构,行使语篇标记功能。语类分析证实,介词短语的语义空间可以组织语类模式、司职语类识别功能。 展开更多
关键词 介词短语 语义空间 语篇 语类
下载PDF
上一页 1 2 17 下一页 到第
使用帮助 返回顶部