题名 大数据流式计算:关键技术及系统实例
被引量:313
1
作者
孙大为
张广艳
郑纬民
机构
清华大学 计算 机科学与 技术系
符号计算 与 知识 工程 教育部 重点 实验室 (吉林大学 )
出处
《软件学报》
EI
CSCD
北大核心
2014年第4期839-862,共24页
基金
国家自然科学基金(61170008
61272055)
+1 种基金
国家重点基础研究发展计划(973)(2014CB340402)
吉林大学符号计算与知识工程教育部重点实验室资助项目(93K172012K12)
文摘
大数据计算主要有批量计算和流式计算两种形态,目前,关于大数据批量计算系统的研究和讨论相对充分,而如何构建低延迟、高吞吐且持续可靠运行的大数据流式计算系统是当前亟待解决的问题且研究成果和实践经验相对较少.总结了典型应用领域中流式大数据所呈现出的实时性、易失性、突发性、无序性、无限性等特征,给出了理想的大数据流式计算系统在系统结构、数据传输、应用接口、高可用技术等方面应该具有的关键技术特征,论述并对比了已有的大数据流式计算系统的典型实例,最后阐述了大数据流式计算系统在可伸缩性、系统容错、状态一致性、负载均衡、数据吞吐量等方面所面临的技术挑战.
关键词
大数据计算
流式计算
流式大数据
内存计算
系统实例
Keywords
big data computing
stream computing
stream big data
memory computing
system instance
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 贝叶斯优化方法和应用综述
被引量:198
2
作者
崔佳旭
杨博
机构
符号计算 与 知识 工程 教育部 重点 实验室 (吉林大学 )
吉林大学 计算 机科学与 技术学院
出处
《软件学报》
EI
CSCD
北大核心
2018年第10期3068-3090,共23页
基金
国家自然科学基金(61572226
61876069)
+1 种基金
吉林省重点科技研发项目(20180201067GX
20180201044GX)~~
文摘
设计类问题在科学研究和工业领域无处不在.作为一种十分有效的全局优化算法,近年来,贝叶斯优化方法在设计类问题上被广泛应用.通过设计恰当的概率代理模型和采集函数,贝叶斯优化框架只需经过少数次目标函数评估即可获得理想解,非常适用于求解目标函数表达式未知、非凸、多峰和评估代价高昂的复杂优化问题.从方法论和应用领域两方面深入分析、讨论和展望了贝叶斯优化的研究现状、面临的问题和应用领域,期望为相关领域的研究者提供有益的借鉴和参考.
关键词
贝叶斯优化
全局优化算法
概率代理模型
采集函数
黑箱
Keywords
Bayesian optimization
global optimization algorithm
probabilistic surrogate model
acquisition function
black-box
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
题名 基于多注意力卷积神经网络的特定目标情感分析
被引量:140
3
作者
梁斌
刘全
徐进
周倩
章鹏
机构
苏州大学 计算 机科学与 技术学院
软件新技术与 产业化协同创新中心
符号计算 与 知识 工程 教育部 重点 实验室 (吉林大学 )
出处
《计算机研究与发展》
EI
CSCD
北大核心
2017年第8期1724-1735,共12页
基金
国家自然科学基金项目(61272005
61303108
+6 种基金
61373094
61472262
61502323
61502329)
江苏省自然科学基金项目(BK2012616)
江苏省高校自然科学研究项目(13KJB520020)
吉林大学符号计算与知识工程教育部重点实验室基金项目(93K172014K04)~~
文摘
特定目标情感分析作为情感分析一个重要的子任务,近年来得到越来越多研究人员的关注.针对在特定目标情感分析中,将注意力机制和LSTM等序列性输入网络相结合的网络模型训练时间长、且无法对文本进行平行化输入等问题,提出一种基于多注意力卷积神经网络(multi-attention convolution neural networks,MATT-CNN)的特定目标情感分析方法.相比基于注意力机制的LSTM网络,该方法可以接收平行化输入的文本信息,大大降低了网络模型的训练时间.同时,该方法通过结合多种注意力机制有效弥补了仅仅依赖内容层面注意力机制的不足,使模型在不需要例如依存句法分析等外部知识的情况下,获取更深层次的情感特征信息,有效识别不同目标的情感极性.最后在SemEval2014数据集和汽车领域数据集(automotive-domain data,ADD)进行实验,取得了比普通卷积神经网络、基于单注意力机制的卷积神经网络和基于注意力机制的LSTM网络更好的效果.
关键词
注意力机制
卷积神经网络
特定目标情感分析
深度学习
自然语言处理
Keywords
attention mechanism
convolutional neural networks
aspect-based sentiment analysis
deep learning
natural language processing
分类号
TP183
[自动化与计算机技术—控制理论与控制工程]
题名 时空数据挖掘研究进展
被引量:126
4
作者
刘大有
陈慧灵
齐红
杨博
机构
吉林大学 计算 机科学与 技术学院
符号计算 与 知识 工程 教育部 重点 实验室 (吉林大学 )
出处
《计算机研究与发展》
EI
CSCD
北大核心
2013年第2期225-239,共15页
基金
国家自然科学基金项目(61133011
61170092
+1 种基金
60973088
60873149)
文摘
近年来,随着全球定位系统、传感器网络和移动设备等的普遍使用,非时空数据和时空数据急剧增加,加之时空数据处理更为复杂,使数据处理任务日趋繁重的形势更加严峻.因此,寻找有效的时空数据挖掘方法具有十分重要的意义.针对这一背景,主要围绕时空模式发现、时空聚类、时空异常检测、时空预测、时空分类、时空数据挖掘与推理的结合等方面,对时空数据挖掘研究的现状进行了详细介绍,对其当前所面临的一些主要问题及可能的解决方案进行了探讨.
关键词
时空数据挖掘
时空模式发现
时空聚类
时空异常检测
时空预测和分类
Keywords
spatiotemporal data mining
spatiotemporal pattern mining
spatiotemporal clustering
spatiotemporal outlier detection
spatiotemporal prediction and classification
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
题名 双精英协同进化遗传算法
被引量:86
5
作者
刘全
王晓燕
傅启明
张永刚
章晓芳
机构
苏州大学 计算 机科学与 技术学院
符号计算 与 知识 工程 教育部 重点 实验室 (吉林大学 )
计算 机软件新技术国家重点 实验室 (南京大学 )
出处
《软件学报》
EI
CSCD
北大核心
2012年第4期765-775,共11页
基金
国家自然科学基金(60873116
61070223
+6 种基金
61103045
61170020)
江苏省自然科学基金(BK2008161
BK2009116)
江苏省高校自然科学研究项目(09KJA520002
09KJB520012)
吉林大学符号计算与知识工程教育部重点实验室资助项目(93K172012K04)
文摘
针对传统遗传算法早熟收敛和收敛速度慢的问题,提出一种双精英协同进化遗传算法(double elitecoevolutionary genetic algorithm,简称DECGA).该算法借鉴了精英策略和协同进化的思想,选择两个相异的、高适应度的个体(精英个体)作为进化操作的核心,两个精英个体分别按照不同的评价函数来选择个体,组成各自的进化子种群.两个子种群分别采用不同的进化策略,以平衡算法的勘探和搜索能力.理论分析证明,该算法具有全局收敛性.通过对测试函数的实验,其结果表明,该算法能搜索到几乎所有测试函数的最优解,同时能够有效地保持种群的多样性.与已有算法相比,该算法在收敛速度和搜索全局最优解上都有了较大的改进和提高.
关键词
遗传算法
进化算法
精英策略
协同进化
种群多样性
Keywords
genetic algorithm
evolutionary algorithm
elitist strategy
coevolution
population diversity
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
题名 复杂网络社区挖掘综述
被引量:72
6
作者
刘大有
金弟
何东晓
黄晶
杨建宁
杨博
机构
吉林大学 计算 机科学与 技术学院
符号计算 与 知识 工程 教育部 重点 实验室 (吉林大学 )
天津大学 计算 机科学与 技术学院
出处
《计算机研究与发展》
EI
CSCD
北大核心
2013年第10期2140-2154,共15页
基金
国家自然科学基金项目(61133011
61202308
+5 种基金
61303110
61373053)
教育部新世纪优秀人才支持计划基金项目(NCET-11-0204)
符号计算与知识工程教育部重点实验室开放基金项目(93K172013K02)
天津大学自主创新基金项目(2013XQ-0136)
吉林大学科学前沿与交叉学科创新项目(450060481084)
文摘
复杂网络社区挖掘是近10年来多学科交叉的前沿研究热点之一,其研究不仅有重要的理论意义,而且有广泛的应用前景.介绍了社区挖掘及重叠社区挖掘的研究背景和研究意义,分析了研究现状,讨论了该研究所面临的一些主要问题及未来的发展方向.同时,为了对不同的社区挖掘算法进行更好地评估,选择了有代表性的6个社区挖掘算法和3个重叠社区挖掘算法进行测试,并给出了对比分析结果,试图为这个新兴研究领域勾画出一个较为全面和清晰的轮廓.
关键词
复杂网络
社区结构
社区挖掘
重叠社区挖掘
网络聚类
Keywords
complex network
community structure
community mining
overlapping communitynetwork clustering
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
题名 基于深度学习的语言模型研究进展
被引量:48
7
作者
王乃钰
叶育鑫
刘露
凤丽洲
包铁
彭涛
机构
吉林大学 计算 机科学与 技术学院
吉林大学 软件学院
符号计算 与 知识 工程 教育部 重点 实验室 (吉林大学 )
Department of Computer Science
出处
《软件学报》
EI
CSCD
北大核心
2021年第4期1082-1115,共34页
基金
国家自然科学基金(61872163,61806084)
吉林省教育厅项目(JJKH20190160KJ)。
文摘
语言模型旨在对语言的内隐知识进行表示,作为自然语言处理的基本问题,一直广受关注.基于深度学习的语言模型是目前自然语言处理领域的研究热点,通过预训练-微调技术展现了内在强大的表示能力,并能够大幅提升下游任务性能.围绕语言模型基本原理和不同应用方向,以神经概率语言模型与预训练语言模型作为深度学习与自然语言处理结合的切入点,从语言模型的基本概念和理论出发,介绍了神经概率与预训练模型的应用情况和当前面临的挑战,对现有神经概率、预训练语言模型及方法进行了对比和分析.同时又从新型训练任务和改进网络结构两方面对预训练语言模型训练方法进行了详细阐述,并对目前预训练模型在规模压缩、知识融合、多模态和跨语言等研究方向进行了概述和评价.最后总结了语言模型在当前自然语言处理应用中的瓶颈,对未来可能的研究重点做出展望.
关键词
语言模型
预训练
深度学习
自然语言处理
神经语言模型
Keywords
language model
pre-training
deep learning
natural language processing
neural language model
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 一种基于聚类的PU主动文本分类方法
被引量:24
8
作者
刘露
彭涛
左万利
戴耀康
机构
吉林大学 计算 机科学与 技术学院
Department of Computer Science
符号计算 与 知识 工程 教育部 重点 实验室 (吉林大学 )
出处
《软件学报》
EI
CSCD
北大核心
2013年第11期2571-2583,共13页
基金
国家自然科学基金(60903098,60973040)
文摘
文本分类是信息检索的关键问题之一.提取更多的可信反例和构造准确高效的分类器是PU(positive and unlabeled)文本分类的两个重要问题.然而,在现有的可信反例提取方法中,很多方法提取的可信反例数量较少,构建的分类器质量有待提高.分别针对这两个重要步骤提供了一种基于聚类的半监督主动分类方法.与传统的反例提取方法不同,利用聚类技术和正例文档应与反例文档共享尽可能少的特征项这一特点,从未标识数据集中尽可能多地移除正例,从而可以获得更多的可信反例.结合SVM主动学习和改进的Rocchio构建分类器,并采用改进的TFIDF(term frequency inverse document frequency)进行特征提取,可以显著提高分类的准确度.分别在3个不同的数据集中测试了分类结果(RCV1,Reuters-21578,20 Newsgoups).实验结果表明,基于聚类寻找可信反例可以在保持较低错误率的情况下获取更多的可信反例,而且主动学习方法的引入也显著提升了分类精度.
关键词
PU(FIositive
and
unlabeled)文本分类
聚类
TFIPNDF(term
FREQUENCY
inverse
positive
negative
document
frequency)
主动学习
可信反例
改进的Rocchio
Keywords
positive and unlabeled (PU) text classification
clustering
TFIPNDF (term frequency inverse positive-negative documentfrequency)
active learning
reliable negative example
improved Rocchio
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于图注意力网络的因果关系抽取
被引量:22
9
作者
许晶航
左万利
梁世宁
王英
机构
吉林大学 计算 机科学与 技术学院
符号计算 与 知识 工程 教育部 重点 实验室 (吉林大学 )
出处
《计算机研究与发展》
EI
CSCD
北大核心
2020年第1期159-174,共16页
基金
国家自然科学基金项目(61976103,61872161)
吉林省技术攻关项目(20190302029GX)
+1 种基金
吉林省自然科学基金项目(20180101330JC,2018101328JC)
吉林省发改委项目(2019C053-8)~~
文摘
因果关系作为一种重要的关系类型在关系推理等许多领域中起着至关重要的作用,因此对因果关系进行抽取是文本挖掘中的一项基本任务.与传统文本分类方法或关系抽取不同,采用序列标注的方法可以抽取文本中的因果实体并确定因果关系方向,不需要依赖特征工程或因果背景知识.主要贡献有:1)拓展句法依存树到句法依存图,将图注意力网络应用到自然语言处理中,引入了基于句法依存图的图注意力网络的概念;2)提出Bi-LSTM+CRF+S-GAT因果关系抽取模型,根据输入的词向量生成句子中每个词的因果标签;3)对SemEval数据集进行修正与拓展,针对其存在的缺陷制定规则重新标注实验数据.在拓展后的SemEval数据集上进行了大量的实验,结果表明:该模型在预测准确率上比现有最优模型Bi-LSTM+CRF+self-ATT提高了0.064.
关键词
因果关系抽取
图注意力网络
序列标注
句法依存图
双向长短期记忆网络
Keywords
causal relation extraction
graph attention networks (GATs)
sequence labeling
syntactic dependency graph
bidirectional long short-term memory (Bi-LSTM)
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 云计算中的数据放置与任务调度算法
被引量:22
10
作者
王强
李雄飞
王婧
机构
符号计算 与 知识 工程 教育部 重点 实验室 (吉林大学 )
出处
《计算机研究与发展》
EI
CSCD
北大核心
2014年第11期2416-2426,共11页
基金
吉林省自然科学基金项目(201115020)
吉林省科技发展计划基金项目(201205018)
文摘
在海量数据的云计算中,通常面临着数据传输时间长的问题.针对目前大多数数据放置与任务调度算法存在的副本静态性和传输标准精确度的不足,提出了一种动态调整副本个数、以时间作为衡量数据传输标准的数据放置与任务调度算法.该算法根据数据访问频率和存储大小,动态地调整副本个数,一方面减少了低访问率副本对存储空间的浪费;另一方面也减少了高访问率副本所需跨节点传输次数.考虑到节点间网络带宽的差异性,确定以数据传输时间作为传输衡量标准,提高了传输标准的精确度.实验结果表明,除了任务集和网络节点均较少的情况外,该算法均能有效地减少数据传输时间,甚至在任务集合和网络节点较多的情况下,能减少近50%的传输时间.
关键词
云计算
数据放置
任务调度
数据传输
数据副本
Keywords
cloud computing
data placement
task scheduling
data transmission
data replica
分类号
TP393
[自动化与计算机技术—计算机应用技术]
TP316.4
[自动化与计算机技术—计算机科学与技术]
题名 邻域平衡密度聚类算法
被引量:22
11
作者
武佳薇
李雄飞
孙涛
李巍
机构
符号计算 与 知识 工程 教育部 重点 实验室 (吉林大学 )
出处
《计算机研究与发展》
EI
CSCD
北大核心
2010年第6期1044-1052,共9页
基金
国家科技支撑计划基金项目(2006BAK01A33)
吉林省科技发展计划基金项目(20070321
20090704)
文摘
聚类是数据挖掘领域的一项重要分析手段.在分析核心对象与其邻域对象的分布特征后,引入对象的投影点,对象的邻域平衡、平衡核心对象、边界稀疏对象等概念.提出一种新的基于密度的聚类算法bDBSCAN(balance-DBSCAN).算法将核心对象邻域中的对象投影,进行向量单位化,考察核心对象的邻域平衡性,将与平衡核心对象平衡密度可达的对象聚成一个簇.理论分析和实验结果表明,算法可以处理任意形状的簇,有效地排除边界稀疏对象这类噪声,并且可以解决高维数据聚类边界区分不明显、噪声对象多等问题,提高了聚类精度.算法的时间复杂度与DBSCAN近似.
关键词
投影点
邻域平衡
平衡核心对象
边界稀疏对象
基于密度的聚类算法
Keywords
projection point
neighborhood balance
balanceable core point
boundary sparse point
density-based clustering algorithm
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
题名 基于森林优化特征选择算法的改进研究
被引量:19
12
作者
初蓓
李占山
张梦林
于海鸿
机构
吉林大学 计算 机科学与 技术学院
符号计算 与 知识 工程 教育部 重点 实验室 (吉林大学 )
出处
《软件学报》
EI
CSCD
北大核心
2018年第9期2547-2558,共12页
基金
国家自然科学基金(61170314
61272208)
吉林省自然科学基金(20140101200JC)~~
文摘
在分类中,特征选择一直是一个重要而又困难的问题.最近的研究表明,森林优化特征选择算法(FSFOA)具有更好的分类性能及较好的维度缩减能力.然而,初始化阶段的随机性、更新机制上的局限性及局部播种阶段新树的劣质性严重限制了该算法的分类性能和维度缩减能力.该文采用一种新的初始化策略和更新机制,并在局部播种阶段加入贪婪策略,形成特征选择算法IFSFOA,在最大化分类性能的同时,最小化特征个数.实验阶段,IFSFOA使用SVM,J48和KNN分类器指导学习过程,通过机器学习数据库UCI上的小维、中维、高维数据集进行测试.实验结果表明:与FSFOA相比,IFSFOA在分类性能和维度缩减上均有明显提高.将IFSFOA算法与近几年提出的比较高效的特征选择方法进行对比,不论是在准确率,还是在维度缩减上,IFSFOA仍具有很强的竞争力.
关键词
IFSFOA
初始化
更新机制
贪婪策略
特征选择
Keywords
IFSFOA
initialization
updating mechanism
greedy strategy
feature selection
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
题名 面向双注意力网络的特定方面情感分析模型
被引量:18
13
作者
孙小婉
王英
王鑫
孙玉东
机构
吉林大学 软件学院
吉林大学 计算 机科学与 技术学院
符号计算 与 知识 工程 教育部 重点 实验室 (吉林大学 )
长春工程 学院计算 机技术与 工程 学院
出处
《计算机研究与发展》
EI
CSCD
北大核心
2019年第11期2384-2395,共12页
基金
国家自然科学基金项目(61872161,61602057,61976103)
吉林省科技发展计划项目(2018101328JC)
+3 种基金
吉林省科技厅优秀青年人才基金项目(20170520059JH)
吉林省技术攻关项目(20190302029GX)
吉林省发改委项目(2019C053-8)
吉林省教育厅科研项目(JJKH20191257KJ)~~
文摘
特定方面情感分析已经成为自然语言处理领域的研究热点,其通过学习文本上下文的信息判别文本中特定方面的情感极性,可以更加有效地帮助人们了解用户对不同方面的情感表达.当前,将注意力机制和神经网络相结合的模型在解决特定方面情感分析任务时大多仅考虑单一层面的注意力信息,并且卷积神经网络无法获取全局结构信息、循环神经网络训练时间过长且单词间的依赖程度随着距离增加而逐渐减弱.针对上述问题,提出一种面向双注意力网络的特定方面情感分析(dual-attention networks for aspect-level sentiment analysis,DANSA)模型.首先,引入多头注意力机制,通过对输入进行多次不同的线性变换操作,获取更全面的注意力信息,同时,多头注意力机制可以实现并行化计算,保证了DANSA的训练速度.其次,DANSA引入自注意力机制,通过计算输入中每个单词与其他所有单词的注意力得分获取全局结构信息,并且单词间的依赖程度不会受到时间和句子长度的影响.最后,融合上下文自注意力信息与特定方面单词注意力信息,共同作为特定方面情感预测的依据,最终实现特定方面情感极性的预测.相比结合注意力机制的神经网络,DANSA弥补了注意力信息单一问题,不仅可以有效获取全局结构信息,还能够实现并行化计算,大大降低了训练时间.在SemEval2014数据集和Twitter数据集上进行实验,DANSA获得了更好的分类效果,进一步证明了DANSA的有效性.
关键词
特定方面情感分析
自注意力机制
多头注意力机制
双注意力网络
自然语言处理
Keywords
aspect-based sentiment analysis(ABSA)
self-attention
multi-head attention
dual-attention networks
natural language processing(NLP)
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于超图卷积的异质网络半监督节点分类
被引量:16
14
作者
吴越
王英
王鑫
徐正祥
李丽娜
机构
吉林大学 计算 机科学与 技术学院
符号计算 与 知识 工程 教育部 重点 实验室 (吉林大学 )
吉林大学 软件学院
吉林大学 人工智能学院
长春工程 学院计算 机技术与 工程 学院
出处
《计算机学报》
EI
CAS
CSCD
北大核心
2021年第11期2248-2260,共13页
基金
国家自然科学基金(61872161,61976103)
吉林省科技发展计划(2018101328JC,20200201297JC)
+2 种基金
吉林省科技厅优秀青年人才基金(20170520059JH)
吉林省发改委项目(2019C053-8)
吉林省教育厅科研项目(JJKH20191257KJ)资助.
文摘
近几年,图神经网络(Graph Neural Network)由于能够较好地提取网络结构信息以获得网络表示,逐渐成为网络节点分类的主流算法。然而,与广泛研究的同质信息网络相比,真实世界中网络往往是由不同类型的对象通过复杂关系相互连接所构成的异质信息网络。异质信息网络包含复杂的结构信息和丰富的语义信息,这也给网络节点分类提供了新的机遇与挑战。在异质信息网络中,网络模体(Motif)能够用于理解和探索复杂网络,其既能描述复杂的语义信息,又能保存网络中高阶近邻结构信息.因此,提出基于网络模体的异质超图卷积网络模型MHGCN(Motif-based HyperGraph Convolutional Network).首先,将重复出现的高阶网络模体建模为多个相关节点所构成的超边(hyperedge),进而将整个异质信息网络转换成由不同超边构成的超图,以克服同质网络中只能描述节点之间(pair-wise)关系的缺点;然后,利用超图的基本性质和谱理论设计超图上的卷积操作,同时引入超边自注意力机制聚合超图内部不同类型的节点,并通过在超图网络中加入自环解决在模型的前向传播过程中对异质信息网络覆盖不足的问题;最后,通过注意力机制对于不同语义的超图表示进行聚合,从而使最终的节点表示可以有效保持高阶近邻关系和复杂的语义信息.由于MHGCN是端到端的,最终模型直接学习得到节点的分类标签,并通过半监督节点分类任务进行验证,与其它方法相比,MHGCN在DBLP-P、DBLP-A数据集上比最好的基准方法micro-F1提高了0.56%~3.51%,macro-F1提高了0.54%~4.37%,验证了MHGCN模型的有效性.
关键词
异质信息网络
网络模体
超图
网络表示学习
节点分类
Keywords
heterogeneous information network
network motif
hypergraph
network representation learning
node classification
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 面向中文自然语言文档的自动知识抽取方法
被引量:17
15
作者
车海燕
冯铁
张家晨
陈伟
李大利
机构
符号计算 与 知识 工程 教育部 重点 实验室 (吉林大学 )
吉林大学 计算 机科学与 技术学院
出处
《计算机研究与发展》
EI
CSCD
北大核心
2013年第4期834-842,共9页
基金
吉林省科技发展计划基金项目(20100186)
长春市国际合作项目(11GH12)
文摘
自动知识抽取方法可以自动识别并抽取Web文档中与本体匹配的事实知识。利用这些事实知识既可以构建基于知识的服务,也能够为语义Web的实现提供必要的语义数据。但面向自然语言特别是中文自然语言的自动知识抽取非常困难.提出了基于语义Web理论和中文自然语言处理(natural language processing,NLP)技术的自动知识抽取新方法AKE,用聚集体知识概念刻画N元关系知识,能够在不使用大规模语言知识库和同义词表的情况下自动识别中文自然语言文档内容中显式和隐含的简单事实知识和N元关系复杂事实知识.实验结果表明该方法优于目前已知的其他方法.
关键词
自动知识抽取
中文自然语言文档
AKE
语义WEB
聚集体知识概念
N元关系
Keywords
automatic knowledge extraction
Chinese natural language document
AKE
SemanticWeb
aggregated knowledge concept
N-ary relations
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 基于动态极大度的极小碰集求解方法
被引量:17
16
作者
张立明
欧阳丹彤
曾海林
机构
吉林大学 计算 机科学与 技术学院
符号计算 与 知识 工程 教育部 重点 实验室 (吉林大学 )
出处
《计算机研究与发展》
EI
CSCD
北大核心
2011年第2期209-215,共7页
基金
国家自然科学基金项目(60973089
60873148
+10 种基金
60773097
61003101)
吉林省科技发展计划基金项目(20101501
20100185
20090108
20080107)
浙江省自然科学基金项目(Y1100191)
欧盟合作项目(155776-EM-1-2009-1-IT-ERAMUNDUS-ECW-L12)
吉林大学符号计算与知识工程教育部重点实验室开放项目(93K-17-2009-K05)
吉林大学"985工程"研究生创新基金项目(20080242
20101026)
文摘
在计算集合簇的碰集时,结合SE-Tree(set enumeration tree)形式化地表达计算过程,逐步生成所有的极小碰集.并在SE-Tree中添加了终止结点,避免了非极小碰集的产生,并且不会因剪枝而丢失正确的解.提出未扩展元素度的概念和结点度的概念,进而在扩展SE-Tree结点时按照未扩展元素度由大到小的顺序扩展,极早地生成集合簇的碰集,减少枚举树生成的结点个数,并且直接根据结点度得出结点对应的集合是否为集合簇的碰集,避免计算集合是否为集合簇的碰集.实验结果表明,该算法程序容易编制且效率较好.
关键词
基于模型的诊断
极小碰集
SE-Tree
动态极大度
向量交集
Keywords
model-based diagnosis
minimal hitting set
SE-Tree
dynamic maximum degree
intersection of vectors
分类号
TP311.1
[自动化与计算机技术—计算机软件与理论]
题名 一种最大置信上界经验采样的深度Q网络方法
被引量:14
17
作者
朱斐
吴文
刘全
伏玉琛
机构
苏州大学 计算 机科学与 技术学院
江苏省计算 机信息处理技术重点 实验室 (苏州大学 )
符号计算 与 知识 工程 教育部 重点 实验室 (吉林大学 )
常熟理工学院计算 机科学与 工程 学院
出处
《计算机研究与发展》
EI
CSCD
北大核心
2018年第8期1694-1705,共12页
基金
国家自然科学基金项目(61303108
61373094
+5 种基金
61772355)
江苏省高校自然科学研究项目重大项目(17KJA520004)
符号计算与知识工程教育部重点实验室(吉林大学)资助项目(93K172014K04)
苏州市应用基础研究计划工业部分(SYG201422)
高校省级重点实验室(苏州大学)项目(KJS1524)
中国国家留学基金项目(201606920013)~~
文摘
由深度学习(deep learning,DL)和强化学习(reinforcement learning,RL)结合形成的深度强化学习(deep reinforcement learning,DRL)是目前人工智能领域的一个热点.深度强化学习在处理具有高维度输入的最优策略求解任务中取得了很大的突破.为了减少转移状态之间暂时的相关性,传统深度Q网络使用经验回放的采样机制,从缓存记忆中随机采样转移样本.然而,随机采样并不考虑缓存记忆中各个转移样本的优先级,导致网络训练过程中可能会过多地采用信息较低的样本,而忽略一些高信息量的样本,结果不但增加了训练时间,而且训练效果也不理想.针对此问题,在传统深度Q网络中引入优先级概念,提出基于最大置信上界的采样算法,通过奖赏、时间步、采样次数共同决定经验池中样本的优先级,提高未被选择的样本、更有信息价值的样本以及表现优秀的样本的被选概率,保证了所采样本的多样性,使智能体能更有效地选择动作.最后,在Atari 2600的多个游戏环境中进行仿真实验,验证了算法的有效性.
关键词
强化学习
深度强化学习
最大置信上界
经验回放
深度Q网络
Keywords
reinforcement learning (RL)
deep reinforcement learning (DRL)
upper confidencebound
experience replay
deep Q- network (DQN)
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
题名 采用高斯拟合的全局阈值算法阈值优化框架
被引量:13
18
作者
陈海鹏
申铉京
龙建武
机构
吉林大学 计算 机科学与 技术学院
符号计算 与 知识 工程 教育部 重点 实验室 (吉林大学 )
重庆理工大学 计算 机科学与 工程 学院
出处
《计算机研究与发展》
EI
CSCD
北大核心
2016年第4期892-903,共12页
基金
国家自然科学基金项目(61305046
61502065)
+3 种基金
吉林省自然科学基金项目(20140101193JC
20130522117JH
20150101055JC)
重庆理工大学科研启动基金项目(2014ZD27)~~
文摘
采用最大类间方差法、最大熵法和最小误差法3种经典全局阈值方法获得的阈值,存在一定偏差.针对该问题,提出了一种采用高斯拟合的全局阈值算法阈值优化框架(TOF).本优化框架先利用全局阈值算法获得初始阈值,将图像粗分为背景和目标2个部分,然后分别计算各部分均值和方差来拟合出2个高斯分布.由于最佳阈值位于2个高斯分布的交点位置,为此本框架采用多次迭代方式来优化阈值,直至最终收敛到最佳阈值.为提高抗噪性能,结合三维直方图重建和降维思想,提出了一种鲁棒的采用高斯拟合的全局阈值算法阈值优化框架(RTOF).实验结果表明,对于以上经典全局算法,采用本优化方法均能收敛到一个最佳阈值,同时本算法还具有鲁棒的抗噪性能和较高的执行效率.
关键词
图像分割
阈值优化
OTSU算法
最小误差算法
最大熵算法
高斯拟合
Keywords
image segmentation
threshold optimization
Otsu algorithm
minimum error algorithm
maximum entropy algorithm
Gaussian fitting
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 一种基于密度的分布式聚类方法
被引量:13
19
作者
王岩
彭涛
韩佳育
刘露
机构
吉林大学 计算 机科学与 技术学院
符号计算 与 知识 工程 教育部 重点 实验室 (吉林大学 )
出处
《软件学报》
EI
CSCD
北大核心
2017年第11期2836-2850,共15页
基金
国家自然科学基金(60903098)
吉林省发改委产业技术研究与开发专项(2015Y055)
+1 种基金
吉林省科技厅重点科技攻关项目(20150204040GX)
吉林大学研究生创新基金(2016183)~~
文摘
聚类是数据挖掘领域中的一种重要的数据分析方法.它根据数据间的相似度,将无标注数据划分为若干聚簇.CSDP是一种基于密度的聚类算法,当数据量较大或数据维数较高时,聚类的效率相对较低.为了提高聚类算法的效率,提出了一种基于密度的分布式聚类方法 MRCSDP,利用MapReduce框架对实验数据进行聚类.该方法定义了独立计算单元和独立计算块的概念.首先,将数据拆分为若干数据块,构建独立计算单元和独立计算块,在集群中分配独立计算块的任务;然后进行分布式计算,得到数据块的局部密度,将局部密度合并得到全局密度,根据全局密度计算中心值,由全局密度和中心值得到每个数据块中候选聚簇中心;最后,从候选聚簇中心选举出最终的聚簇中心.MRCSDP在充分降低时间复杂度的基础上得到较好的聚类效果.实验结果表明,分布式环境下的聚类方法MRCSDP相对于CSDP更能快速、有效地处理大规模数据,并使各节点负载均衡.
关键词
聚类
分布式计算
MAPREDUCE
独立计算单元
独立计算块
Keywords
MapReduce
clustering
distributed computing
MapReduce
independent calculation unit
independent calculation block
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
题名 基于朴素贝叶斯模型的单词语义相似度度量
被引量:12
20
作者
王俊华
左万利
闫昭
机构
吉林大学 计算 机科学与 技术学院
符号计算 与 知识 工程 教育部 重点 实验室 (吉林大学 )
长春工业大学 计算 机科学与 工程 学院
出处
《计算机研究与发展》
EI
CSCD
北大核心
2015年第7期1499-1509,共11页
基金
国家自然科学基金项目(60973040)
国家自然科学青年基金项目(60903098,61300148)
+1 种基金
吉林省重点科技攻关项目(20130206051GX)
吉林省科技计划青年基金项目(20130522112JH)
文摘
单词语义相似度度量是自然语言处理领域的经典和热点问题.通过结合朴素贝叶斯模型和知识库,提出一个新颖的度量单词语义相似度度量途径.首先借助通用本体WordNet获取属性变量,然后使用统计和分段线性插值生成条件概率分布列,继而通过贝叶斯推理实现信息融合获得后验概率,并在此基础上量化单词语义相似度.主要贡献是定义了单词对距离和深度,并将朴素贝叶斯模型用于单词语义相似度度量.在基准数据集R&G(65)上,对比算法评判结果与人类评判结果的相关度,采用5折交叉验证对算法进行分析,样本Pearson相关度达到0.912,比当前最优方法高出0.4%,比经典算法高出7%~13%;Spearman相关度达到0.873,比经典算法高出10%~20%;且算法的运行效率和经典算法相当.实验结果显示将朴素贝叶斯模型和知识库相结合解决单词语义相似度问题是合理有效的.
关键词
单词语义相似度
语义相似度
分段线性插值
朴素贝叶斯模型
WORDNET
Keywords
word semantic similarity
semantic similarity
piecewise linear interpolation
Naïve Bayes model
WordNet
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]