期刊文献+
共找到177篇文章
< 1 2 9 >
每页显示 20 50 100
显性非宾格动词结构的句法研究 被引量:139
1
作者 潘海华 韩景泉 《语言研究》 CSSCI 北大核心 2005年第3期1-13,共13页
汉语非宾格现象呈显性表现,散见于存现句、非使役句以及被动句之中。在这类结构中的动词无外论元,其唯一的受事或客体内论元不仅具有宾语的性质,而且表现形式也与及物动词的宾语相同。因为动词具有非宾格性质,不能给动词后面的论元名词... 汉语非宾格现象呈显性表现,散见于存现句、非使役句以及被动句之中。在这类结构中的动词无外论元,其唯一的受事或客体内论元不仅具有宾语的性质,而且表现形式也与及物动词的宾语相同。因为动词具有非宾格性质,不能给动词后面的论元名词组指派宾格。本文认为,动词之后的论元名词组虽然无法从动词那里获得宾格,但可以将空主语位置的主格继承过来。在有显性名词组移位的结构中,英语的名词组移位是为了核查强EPP特征,而汉语的名词组移位则是为了生成一个无标记话题。在论元名词组留在原位的同时,汉语非宾格句子允许句首位置出现一个表示领属的名词组。该领有名词组应该分析为基础生成的标记性话题,由述语中的语义变量所允准。论元名词组移入空主语位置则生成受事主语句。 展开更多
关键词 显性非宾格现象 内论元 话题 主语 特征核查 受事主语
下载PDF
基于LDA与新兴主题特征分析的新兴主题探测研究 被引量:60
2
作者 范云满 马建霞 《情报学报》 CSSCI 北大核心 2014年第7期698-711,共14页
本文尝试基于LDA主题模型探测文档集中的新兴主题.本文采用主题的新颖度、发文量指标,并引入被引量,得到新兴主题的特征指标,在此基础上对主题在进入成熟阶段前各个时期的特征进行了分析.并提出了针对上述新兴主题探测指标,基于LDA主题... 本文尝试基于LDA主题模型探测文档集中的新兴主题.本文采用主题的新颖度、发文量指标,并引入被引量,得到新兴主题的特征指标,在此基础上对主题在进入成熟阶段前各个时期的特征进行了分析.并提出了针对上述新兴主题探测指标,基于LDA主题模型抽取文档的语义主题词,利用文档-主题矩阵建立主题和文档的映射,得到主题的新颖度指标和发文量指标、被引量指标,并形成新兴主题探测表格和探测曲线VDP,从而探测出新兴主题,并对新兴主题VDP与基线VDP距离的发展趋势进行预测,根据拟合的曲线对其进行分析,得到最值得关注的新兴主题. 展开更多
关键词 隐狄利克雷分布 主题模型 新兴主题 主题特征 新颖度指标 发文量指标 被引量指标 生命周期
下载PDF
基于PLSA和SVM的道岔故障特征提取与诊断方法研究 被引量:31
3
作者 钟志旺 唐涛 王峰 《铁道学报》 EI CAS CSCD 北大核心 2018年第7期80-87,共8页
铁路局和电务段长期以来保留的道岔故障记录是非常宝贵的数据,对道岔故障类型统计、故障特征分析、故障诊断和故障预测有非常好的参考作用,但这些数据往往保存格式多样,难以直接利用。本文提出基于主题模型PLSA和支持向量机SVM的道岔设... 铁路局和电务段长期以来保留的道岔故障记录是非常宝贵的数据,对道岔故障类型统计、故障特征分析、故障诊断和故障预测有非常好的参考作用,但这些数据往往保存格式多样,难以直接利用。本文提出基于主题模型PLSA和支持向量机SVM的道岔设备故障特征提取与诊断方法。通过分词算法将故障文档表达在词项特征空间中;采用主题模型算法提取主题特征,并将故障文档表达在主题特征空间上;以SVM算法构造诊断器实现道岔设备的故障诊断。利用中国铁路广州局集团有限公司道岔故障记录的真实数据,对提出的算法有效性进行验证。实验表明,提出的算法能有效实现道岔设备故障诊断,对现场维护有一定的指导意义。 展开更多
关键词 主题模型 支持向量机 道岔故障 特征提取 故障诊断
下载PDF
基于主题特征的关键词抽取 被引量:30
4
作者 刘俊 邹东升 +1 位作者 邢欣来 李英豪 《计算机应用研究》 CSCD 北大核心 2012年第11期4224-4227,共4页
为了使抽取出的关键词更能反映文档主题,提出了一种新的词的主题特征(topic feature,TF)计算方法,该方法利用主题模型中词和主题的分布情况计算词的主题特征。并将该特征与关键词抽取中的常用特征结合,用装袋决策树方法构造一个关键词... 为了使抽取出的关键词更能反映文档主题,提出了一种新的词的主题特征(topic feature,TF)计算方法,该方法利用主题模型中词和主题的分布情况计算词的主题特征。并将该特征与关键词抽取中的常用特征结合,用装袋决策树方法构造一个关键词抽取模型。实验结果表明提出的主题特征可以提升关键词抽取的效果,同时验证了装袋决策树在关键词抽取中的适用性。 展开更多
关键词 关键词抽取 主题特征 主题模型 装袋决策树
下载PDF
一种基于特征演变的新闻话题演化挖掘方法 被引量:23
5
作者 赵旭剑 杨春明 +4 位作者 李波 张晖 金培权 岳丽华 戴文锴 《计算机学报》 EI CSCD 北大核心 2014年第4期819-832,共14页
话题演化挖掘研究可以准确完整地获取新闻话题动态演化各个阶段的话题内容,帮助用户理解新闻话题的来龙去脉以及话题内容之间的相关性和差异性,因此在网络新闻检索、网络舆情监控、互联网突发事件检测与应急管理等方面具有十分重要的作... 话题演化挖掘研究可以准确完整地获取新闻话题动态演化各个阶段的话题内容,帮助用户理解新闻话题的来龙去脉以及话题内容之间的相关性和差异性,因此在网络新闻检索、网络舆情监控、互联网突发事件检测与应急管理等方面具有十分重要的作用和应用前景.现有工作由于缺乏对话题特征随时间发展而动态演变的深入分析,仅仅采用均值泛化的思想去增量扩充演化中的话题特征,引入大量话题无关信息,影响了话题关联的准确率,从而导致最终话题演化挖掘结果的偏斜.因此,针对以上问题,文中通过引入话题特征演变特性,提出一种针对话题演化的特征计算模型,在此基础上利用已有话题相关文档和最新文档进行话题信息动态增量扩充,通过对话题特征进行正向融合以及逆向过滤完成对特征信息的抗噪处理,提高话题关联的正确率,有效地解决了话题演化的偏斜问题. 展开更多
关键词 话题演化 话题模型 演变特征 演化偏斜 社会计算 社交网络
下载PDF
“V起来”句作为有形态标记的话题句 被引量:20
6
作者 宋红梅 《外语研究》 CSSCI 北大核心 2008年第5期14-19,共6页
对汉语中动句式的研究已经引起不少学者的注意,但是,现有的研究多从语义关系的描写入手。其中争议较大的是关于"V起来"句式的研究。国内学者多把"V起来"句式看作中动句,也有人把它看作一般的话题句。自从生成语法... 对汉语中动句式的研究已经引起不少学者的注意,但是,现有的研究多从语义关系的描写入手。其中争议较大的是关于"V起来"句式的研究。国内学者多把"V起来"句式看作中动句,也有人把它看作一般的话题句。自从生成语法理论引入国内,不少学者尝试用该理论来研究汉语现象,这其中就包括对中动句式的研究。但是,把"V起来"句式看作中动句或一般话题句仍然存在着问题,也没有发现"V起来"句式的实质。本文基于Chomsky(1995)最简方案中的特征核查理论,深入探讨了"V起来"句,认为"V起来"句不是中动句,也不是一般的话题句,而是有形态标记的话题句。其中"V起来"中的"起来"是话题性语素,其功能是要求该句式话题性的强制实现。同时,文章认为,"V上去"和"V着"中的"上去"和"着"也都可以看作话题性语素。 展开更多
关键词 “V起来”句式 中动句 话题句 话题性语素 特征核查
下载PDF
基于WEB的面向主题搜索引擎的设计与实现 被引量:7
7
作者 聂哲 《计算机工程与设计》 CSCD 2003年第2期60-62,共3页
针对目前通用搜索引擎所搜索到的结果过多、与主题相关性不强的情况,提出了面向主题的搜索引擎, 并从系统结构方面将系统划分为特征提取、存取分析以及搜索控制等3个子系统,并给出了其具体的实现策略。
关键词 WEB 信息检索 主题 搜索引擎 设计 信息搜集 网页 互联网
下载PDF
一种面向主题的领域服务聚类方法 被引量:17
8
作者 李征 王健 +3 位作者 张能 李昭 何成万 何克清 《计算机研究与发展》 EI CSCD 北大核心 2014年第2期408-419,共12页
随着互联网上服务资源规模的快速增长,如何高效、准确地发现服务成为一个亟待解决的关键问题.服务聚类是促进服务发现的一种重要技术.但是,现有服务聚类方法只对单一类型的服务文档进行聚类,并且没有考虑服务的领域特性.针对该问题,在... 随着互联网上服务资源规模的快速增长,如何高效、准确地发现服务成为一个亟待解决的关键问题.服务聚类是促进服务发现的一种重要技术.但是,现有服务聚类方法只对单一类型的服务文档进行聚类,并且没有考虑服务的领域特性.针对该问题,在对服务进行领域分类的基础上,提出了一种基于概率、融合领域特性的服务聚类模型——领域服务聚类模型(domain service clustering model,DSCM),然后基于该模型提出了一种面向主题的服务聚类方法.最后通过ProgrammableWeb网站提供的真实服务集对提出的方法进行了验证.实验结果表明,该方法可以准确地对不同类型的服务文档进行聚类.与经典的潜在狄利克雷分配(latent Dirichlet allocation,LDA),K-means等方法相比,该方法在聚类纯度和F-measure指标上均具有更好的效果,从而为按需服务发现与服务组合提供更好的支持. 展开更多
关键词 服务聚类 潜在狄利克雷分配 主题 概率 特征降维
下载PDF
文本内容主题的识别方法 被引量:8
9
作者 朱靖波 姚天顺 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2002年第5期425-427,共3页
提出了一种基于知识的内容主题识别方法 ,其中采用基于统计和规则的技术进行主题特征识别 ,利用集聚公式进行主题特征集聚分析·通过引入领域知识库 ,将基于词汇的分析技术提升到领域知识计算层面·实验结果显示主题识别平均正... 提出了一种基于知识的内容主题识别方法 ,其中采用基于统计和规则的技术进行主题特征识别 ,利用集聚公式进行主题特征集聚分析·通过引入领域知识库 ,将基于词汇的分析技术提升到领域知识计算层面·实验结果显示主题识别平均正确率为 70 % · 展开更多
关键词 主题分析 特征识别 特征集聚 领域知识 文本自动处理 自动语言处理 知识 内容识别
下载PDF
基于主题图谱的网络舆情特征演化及其可视化分析 被引量:15
10
作者 陈健瑶 夏立新 刘星月 《情报科学》 CSSCI 北大核心 2021年第5期75-84,共10页
【目的/意义】旨在从网络舆情用户信息及文本内容视角出发,构建不同维度的网络舆情主题图谱,结合主题图谱对网络舆情进行特征演化及可视化分析,为舆情管理提供参考。【方法/过程】本文以实体抽取和关系构建技术为基础,构建了网络舆情主... 【目的/意义】旨在从网络舆情用户信息及文本内容视角出发,构建不同维度的网络舆情主题图谱,结合主题图谱对网络舆情进行特征演化及可视化分析,为舆情管理提供参考。【方法/过程】本文以实体抽取和关系构建技术为基础,构建了网络舆情主题图谱模型,并以"台风利奇马"事件为例,建立了三个不同维度的主题图谱,结合用户和文本等多维度微观数据,对网络舆情特征演化进行分析。【结果/结论】在该事件中,用户影响力节点具备多元化、相关性、官方主导性等特点;网络舆情演化对应台风事件发展存在一定的滞后性;PC终端存在传播媒介种类少、发博数量多且用户集中等特点,移动终端存在传播媒介种类多、发博数量少且用户分布均匀等特点。【创新/局限】本文借助主题图谱,构建了网络舆情用户节点和文本节点及其关联关系,从用户、账户、内容三个维度系统且全面的展示了网络舆情特征的演化规律。 展开更多
关键词 主题图谱 网络舆情 特征演化 可视化分析 台风利奇马
原文传递
基于动量模型的微博突发话题检测方法 被引量:15
11
作者 贺敏 杜攀 +2 位作者 张瑾 刘悦 程学旗 《计算机研究与发展》 EI CSCD 北大核心 2015年第5期1022-1028,共7页
针对微博特征空间动态变化、信息噪音大的特点,提出一种基于有意义串动量模型的微博突发话题检测方法.提取时间窗口内微博信息流的有意义串,作为微博信息的动态特征,根据动力学原理对特征进行动量建模,结合特征能量大小、变化趋势以及... 针对微博特征空间动态变化、信息噪音大的特点,提出一种基于有意义串动量模型的微博突发话题检测方法.提取时间窗口内微博信息流的有意义串,作为微博信息的动态特征,根据动力学原理对特征进行动量建模,结合特征能量大小、变化趋势以及二阶变化率检测突发特性有意义串,即突发特征,合并突发特征形成突发话题.微博数据实验表明,该方法适用于在线微博突发话题检测,在准确率和召回率上都有明显提升. 展开更多
关键词 突发话题 微博 突发特征 有意义串 动量模型
下载PDF
基于词嵌入与概率主题模型的社会媒体话题识别 被引量:13
12
作者 余冲 李晶 +1 位作者 孙旭东 傅向华 《计算机工程》 CAS CSCD 北大核心 2017年第12期184-191,共8页
词嵌入技术能从大语料库中捕获词语的语义信息,将其与概率主题模型结合可解决标准主题模型缺乏语义信息的问题。为此,同时对词嵌入和主题模型进行改进,构建词-主题混合模型。在主题词嵌入(TWE)模型中引入外部语料库获得初始主题和单词表... 词嵌入技术能从大语料库中捕获词语的语义信息,将其与概率主题模型结合可解决标准主题模型缺乏语义信息的问题。为此,同时对词嵌入和主题模型进行改进,构建词-主题混合模型。在主题词嵌入(TWE)模型中引入外部语料库获得初始主题和单词表示,通过定义主题向量和词嵌入的条件概率分布,将词嵌入特征表示和主题向量集成到主题模型中,同时最小化新词-主题分布函数和原始词-主题分布函数的KL散度。实验结果表明,与Word2vec、TWE、LDA和LFLDA模型相比,该模型在词表示和主题检测方面性能更好。 展开更多
关键词 社会媒体 话题检测 特征表示 词嵌入 话题模型 词-主题混合模型
下载PDF
基于可扩展LDA模型的微博话题特征抽取研究 被引量:12
13
作者 邱明涛 马静 +1 位作者 张磊 姚兆旭 《情报科学》 CSSCI 北大核心 2017年第4期22-26,31,共6页
【目的/意义】提出一种基于可扩展LDA模型的微博话题特征抽取方法。【方法/过程】利用词语权重调整方法筛选高贡献度高频词语;基于bootstrap思想,迭代产生特征词条候选集;引入信息熵值理论筛选话题词条;并利用四维泛化分类实现对特征词... 【目的/意义】提出一种基于可扩展LDA模型的微博话题特征抽取方法。【方法/过程】利用词语权重调整方法筛选高贡献度高频词语;基于bootstrap思想,迭代产生特征词条候选集;引入信息熵值理论筛选话题词条;并利用四维泛化分类实现对特征词条的泛化和归类。【结果/结论】本文以真实新浪微博数据为实验对象,实验结果表明基于扩展LDA模型的特征词提取方法可弥补传统LDA模型在话题可解释性上的不足,有效地对微博文本进行话题特征抽取。 展开更多
关键词 LDA模型 微博话题 话题特征 特征抽取
原文传递
基于有意义串聚类的微博热点话题发现方法 被引量:12
14
作者 贺敏 王丽宏 +2 位作者 杜攀 张瑾 程学旗 《通信学报》 EI CSCD 北大核心 2013年第S1期256-262,共7页
针对微博数据特征稀疏、内容碎片化的特点,提出一种基于有意义串聚类的热点话题发现方法。结合重复串计算、上下文邻接分析和语言规则过滤多种策略,提取能够表达独立完整语义的有意义串,并将微博数据建模在相对较小的有意义串空间,通过... 针对微博数据特征稀疏、内容碎片化的特点,提出一种基于有意义串聚类的热点话题发现方法。结合重复串计算、上下文邻接分析和语言规则过滤多种策略,提取能够表达独立完整语义的有意义串,并将微博数据建模在相对较小的有意义串空间,通过聚类产生候选话题,根据热度排序发现热点话题。微博数据实验结果表明,该方法在一定程度上实现对微博高维稀疏空间的降维,对于微博空间的热点话题发现有效可行。 展开更多
关键词 热点话题 微博 有意义串 特征聚类
下载PDF
量词重叠的句法 被引量:12
15
作者 隋娜 胡建华 《中国语文》 CSSCI 北大核心 2017年第1期22-41,共20页
本文研究汉语量词重叠的句法机制,着重讨论量词重叠形式为什么不能与全称量化词"每"共现,为什么与量化副词"都"搭配以及出现在宾语位置时会受限制。本文指出,汉语量词的词法结构有两种实现形式:一种是由Cl直接构成... 本文研究汉语量词重叠的句法机制,着重讨论量词重叠形式为什么不能与全称量化词"每"共现,为什么与量化副词"都"搭配以及出现在宾语位置时会受限制。本文指出,汉语量词的词法结构有两种实现形式:一种是由Cl直接构成的简单形式,另一种是由名词性的内核N合并功能语类Cl生成的复杂形式。汉语的AA重叠操作可以在句法中作用于量词,产生量词重叠式,也可以在词法中作用于名词性内核,生成述谓短语Pred P。句法推导生成的量词重叠式带有[TOP]特征,不能处于宾语位置,不能与"每"共现,但可以与"都"连用。而在词法中生成的述谓短语Pred P可以出现在宾语位置,但却不能与量化副词"都"连用。 展开更多
关键词 量词重叠 词法结构 句法限制 话题特征 全称量
原文传递
汉英主题结构的标记性:基于口语语料库的话语认知分析 被引量:11
16
作者 王义娜 李银美 《外国语》 CSSCI 北大核心 2016年第6期34-45,共12页
以往主题结构的标记性研究主要关注其主题表现。本文基于认知语法的当前话语空间分析模型,以日常对话为语料,从主题和述题的情境植入角度就三类主题结构在句法、话语和认知层面上的标记性等级进行了汉英对比考察。研究发现:汉语的主题... 以往主题结构的标记性研究主要关注其主题表现。本文基于认知语法的当前话语空间分析模型,以日常对话为语料,从主题和述题的情境植入角度就三类主题结构在句法、话语和认知层面上的标记性等级进行了汉英对比考察。研究发现:汉语的主题标记性低于英语,而述题表现却相反;就结构间对比:汉英偏置结构的典型特征分布基本一致,但在两类前置结构上差异显著。其标记性倾向受到认知情境因素制约:汉语主题的情境植入方式简单,以延续主题和提升主题为主,话语凸显度较高,易使用主观评价类述题,而英语主题情境植入方式复杂,多为提升或旁枝主题,更易与客观描写述题搭建语义关联。不同主题结构的标记性倾向可反观汉英语言的类型差异。 展开更多
关键词 主题结构 情境植入 标记性 典型特征束 当前话语空间
原文传递
面向船舶工业新闻的文本分类 被引量:11
17
作者 朱芳鹏 王晓峰 《电子测量与仪器学报》 CSCD 北大核心 2020年第1期149-155,共7页
由于船舶工业领域中的新闻内容篇幅较长且专业性较强,同时包含大量船舶领域专业词汇,目前针对该领域新闻文本分类的研究较少且缺少相应的船舶工业新闻语料。构建了一个船舶工业新闻语料库,并提出了一种新的面向船舶工业新闻的文本分类算... 由于船舶工业领域中的新闻内容篇幅较长且专业性较强,同时包含大量船舶领域专业词汇,目前针对该领域新闻文本分类的研究较少且缺少相应的船舶工业新闻语料。构建了一个船舶工业新闻语料库,并提出了一种新的面向船舶工业新闻的文本分类算法,首先基于文档频率、卡方统计量及主题模型LSA进行特征选择和特征降维,将文档-词矩阵映射成文档-主题矩阵后,最终对处理后的特征采用支持向量机进行文本分类。通过新闻文本分类的实验表明,所提出的算法能够有效解决文本向量的高维度、高稀疏性问题,在小样本集和类别有限的前提下相比传统方法具有较好的分类效果。 展开更多
关键词 文本分类 主题模型 特征选择 支持向量机(SVM)
下载PDF
基于时间序列分析的微博突发话题检测方法 被引量:11
18
作者 贺敏 徐杰 +2 位作者 杜攀 程学旗 王丽宏 《通信学报》 EI CSCD 北大核心 2016年第3期48-54,共7页
针对微博信息噪音大、新颖度难以判断的问题,在动量模型的基础上进行优化,提出了基于时序分析的微博突发话题检测方法。通过动量模型提取候选突发特征后,对特征的动量时间序列分别借鉴信号频域分析理论和股票趋势分析理论进行建模,分析... 针对微博信息噪音大、新颖度难以判断的问题,在动量模型的基础上进行优化,提出了基于时序分析的微博突发话题检测方法。通过动量模型提取候选突发特征后,对特征的动量时间序列分别借鉴信号频域分析理论和股票趋势分析理论进行建模,分析特征的频域特性来识别频繁伪突发特征,分析特征的新颖程度来识别间歇性伪突发特征,合并过滤后的有效突发特征形成突发话题。微博数据实验表明,该方法有效提高了突发话题检测的准确率和F值。 展开更多
关键词 突发话题 微博 突发特征 时序分析
下载PDF
互联网新闻话题特征选择与构建 被引量:8
19
作者 赵旭剑 邓思远 +4 位作者 李波 张晖 杨春明 喻琼 王耀彬 《软件》 2015年第7期17-20,共4页
新闻话题的特征表示是建立话题模型以及进行话题聚类(融合)的基础,传统的特征构建一般采用关键字构成的向量表示模型,未对特征的选取、分类以及质量等方面进行完整的研究,因此本文拟针对互联网新闻文档进行特征提取、特征构建以及话题... 新闻话题的特征表示是建立话题模型以及进行话题聚类(融合)的基础,传统的特征构建一般采用关键字构成的向量表示模型,未对特征的选取、分类以及质量等方面进行完整的研究,因此本文拟针对互联网新闻文档进行特征提取、特征构建以及话题聚类质量分析等方面的系统研究,阐明话题特征的选择与构建对文本话题研究的影响,为后续的话题检测与追踪等应用提供更科学的特征理论模型。实验结果表明经过话题特征优选后的聚类效果有助于提高话题模型的准确性,避免噪声特征带来的话题歧义。 展开更多
关键词 话题特征 话题模型 话题聚类 特征选择
下载PDF
基于主题与三支决策的文本情感分析 被引量:10
20
作者 王磊 黄河笑 +1 位作者 吴兵 郑任儿 《计算机科学》 CSCD 北大核心 2015年第6期93-96,共4页
近年来,情感计算已经成为自然语言处理与人工智能领域的一个研究热点,而文本情感分析是情感计算的一个重要组成部分。提出了一个基于主题特征与三支决策理论相融合的多标记情感分类方法。首先采用基于主题的情感识别模型判断句子的多标... 近年来,情感计算已经成为自然语言处理与人工智能领域的一个研究热点,而文本情感分析是情感计算的一个重要组成部分。提出了一个基于主题特征与三支决策理论相融合的多标记情感分类方法。首先采用基于主题的情感识别模型判断句子的多标记情感类别,在此基础上结合三支决策理论,最终实现对文本篇章的多标记情感分类。实验结果表明,该方法在文本篇章的多标记情感类别识别上取得了令人满意的结果。 展开更多
关键词 三支决策 主题特征 多标签分类 情感计算
下载PDF
上一页 1 2 9 下一页 到第
使用帮助 返回顶部