期刊文献+
共找到30篇文章
< 1 2 >
每页显示 20 50 100
A spatiotemporal deep learning method for excavation-induced wall deflections
1
作者 Yuanqin Tao Shaoxiang Zeng +3 位作者 Honglei Sun Yuanqiang Cai Jinzhang Zhang Xiaodong Pan 《Journal of Rock Mechanics and Geotechnical Engineering》 SCIE CSCD 2024年第8期3327-3338,共12页
Data-driven approaches such as neural networks are increasingly used for deep excavations due to the growing amount of available monitoring data in practical projects.However,most neural network models only use the da... Data-driven approaches such as neural networks are increasingly used for deep excavations due to the growing amount of available monitoring data in practical projects.However,most neural network models only use the data from a single monitoring point and neglect the spatial relationships between multiple monitoring points.Besides,most models lack flexibility in providing predictions for multiple days after monitoring activity.This study proposes a sequence-to-sequence(seq2seq)two-dimensional(2D)convolutional long short-term memory neural network(S2SCL2D)for predicting the spatiotemporal wall deflections induced by deep excavations.The model utilizes the data from all monitoring points on the entire wall and extracts spatiotemporal features from data by combining the 2D convolutional layers and long short-term memory(LSTM)layers.The S2SCL2D model achieves a long-term prediction of wall deflections through a recursive seq2seq structure.The excavation depth,which has a significant impact on wall deflections,is also considered using a feature fusion method.An excavation project in Hangzhou,China,is used to illustrate the proposed model.The results demonstrate that the S2SCL2D model has superior prediction accuracy and robustness than that of the LSTM and S2SCL1D(one-dimensional)models.The prediction model demonstrates a strong generalizability when applied to an adjacent excavation.Based on the long-term prediction results,practitioners can plan and allocate resources in advance to address the potential engineering issues. 展开更多
关键词 Braced excavation Wall deflections Deep learning Convolutional layer Long short-term memory(LSTM) sequence to sequence(seq2seq)
下载PDF
基于seq2seq和Attention机制的居民用户非侵入式负荷分解 被引量:79
2
作者 王轲 钟海旺 +1 位作者 余南鹏 夏清 《中国电机工程学报》 EI CSCD 北大核心 2019年第1期75-83,共9页
非侵入式负荷分解(nonintrusiveloadmonitoring,NILM)是大数据分析在智能配电系统中为终端用户提供的重要应用之一,能够提升对负荷的认知水平,显著提升需求侧响应的潜力。长期以来,传统的NILM算法存在误判率高,功率分解值准确度低等问... 非侵入式负荷分解(nonintrusiveloadmonitoring,NILM)是大数据分析在智能配电系统中为终端用户提供的重要应用之一,能够提升对负荷的认知水平,显著提升需求侧响应的潜力。长期以来,传统的NILM算法存在误判率高,功率分解值准确度低等问题。为此,采用深度学习的框架,提出一种基于序列到序列和Attention机制的NILM模型。该模型首先将输入的有功功率时间序列通过词嵌入映射到高维向量,并利用基于长短时记忆模型的编码器进行信息提取;然后通过引入Attention机制的解码器,从提取的信息中选取与当前时刻相关度最高的信息,用于解码并最终得到负荷分解结果。提出的深度学习网络模型能够显著提升对信息的提取与利用能力。基于REFITPowerData数据集的测试结果验证了方法的有效性。 展开更多
关键词 非侵入式负荷分解 深度学习 序列到序列 Attention机制
下载PDF
基于预警文本信息的调度命令智能生成模型 被引量:16
3
作者 彭其渊 胡雨欣 鲁工圆 《同济大学学报(自然科学版)》 EI CAS CSCD 北大核心 2020年第9期1328-1335,1363,共9页
提出调度命令智能生成模型,该模型由神经网络和调度命令修正模块两部分组成。基于长短时记忆(LSTM)网络构建序列‒序列(seq2seq)模型,将预警文本信息作为模型的输入进行训练,提出五种调度命令修正策略并分别对五种易错信息进行修正,最终... 提出调度命令智能生成模型,该模型由神经网络和调度命令修正模块两部分组成。基于长短时记忆(LSTM)网络构建序列‒序列(seq2seq)模型,将预警文本信息作为模型的输入进行训练,提出五种调度命令修正策略并分别对五种易错信息进行修正,最终得到调度命令。结果表明:该模型具有利用预警文本信息生成调度命令的能力,引入的调度命令修正模块能够有效提升调度命令生成质量。 展开更多
关键词 铁路运输 调度命令 智能调度 序列‒序列(seq2seq)模型 自然语言处理
下载PDF
基于运行关键指标和Seq2Seq的大电网运行异常识别 被引量:13
4
作者 庞传军 牟佳男 +1 位作者 余建明 武力 《电力建设》 北大核心 2020年第7期17-24,共8页
基于电网运行指标的态势感知是未来主要电网调度模式,电网运行异常识别是态势感知的重要内容。首先,从大电网调控运行需求出发构建了全面反映电网运行情况的综合指标体系;然后,采用由长短期记忆单元组成的自动编码机构建指标异常识别模... 基于电网运行指标的态势感知是未来主要电网调度模式,电网运行异常识别是态势感知的重要内容。首先,从大电网调控运行需求出发构建了全面反映电网运行情况的综合指标体系;然后,采用由长短期记忆单元组成的自动编码机构建指标异常识别模型,在缺少电网运行指标异常数据的情况下,采用无监督的方式从电网正常运行状态下指标历史数据中学习指标的内在模式;最后,基于模型的重构误差分布提出了反映指标偏离正常状态的异常分数。将电网运行指标实时数据送入训练后的模型进行重构,当存在异常时会产生较大的异常分数,根据异常分数识别电网运行指标异常。实验结果表明,当电网运行指标出现异常时该模型可以根据异常分数进行有效识别,从而帮助电网调度人员及时感知电网运行风险,及时采取控制措施保障电网运行安全。 展开更多
关键词 运行指标 异常识别 序列到序列(seq2seq) 长短期记忆单元(LSTM) 电网运行
原文传递
基于深度学习的文本自动摘要方案 被引量:11
5
作者 张克君 李伟男 +2 位作者 钱榕 史泰猛 焦萌 《计算机应用》 CSCD 北大核心 2019年第2期311-315,共5页
针对自然语言处理(NLP)生成式自动摘要领域的语义理解不充分、摘要语句不通顺和摘要准确度不够高的问题,提出了一种新的生成式自动摘要解决方案,包括一种改进的词向量生成技术和一个生成式自动摘要模型。改进的词向量生成技术以Skip-Gra... 针对自然语言处理(NLP)生成式自动摘要领域的语义理解不充分、摘要语句不通顺和摘要准确度不够高的问题,提出了一种新的生成式自动摘要解决方案,包括一种改进的词向量生成技术和一个生成式自动摘要模型。改进的词向量生成技术以Skip-Gram方法生成的词向量为基础,结合摘要的特点,引入词性、词频和逆文本频率三个词特征,有效地提高了词语的理解;而提出的Bi-MulRnn+生成式自动摘要模型以序列映射(seq2seq)与自编码器结构为基础,引入注意力机制、门控循环单元(GRU)结构、双向循环神经网络(BiRnn)、多层循环神经网络(MultiRnn)和集束搜索,提高了生成式摘要准确性与语句流畅度。基于大规模中文短文本摘要(LCSTS)数据集的实验结果表明,该方案能够有效地解决短文本生成式摘要问题,并在Rouge标准评价体系中表现良好,提高了摘要准确性与语句流畅度。 展开更多
关键词 自然语言处理 生成式文本自动摘要 序列映射 自编码器 词向量 循环神经网络
下载PDF
基于WaveNet的端到端语音合成方法 被引量:9
6
作者 邱泽宇 屈丹 张连海 《计算机应用》 CSCD 北大核心 2019年第5期1325-1329,共5页
针对端到端语音合成系统中Griffin-Lim算法恢复相位信息合成语音保真度较低、人工处理痕迹明显的问题,提出了一种基于WaveNet网络架构的端到端语音合成方法。以序列映射Seq2Seq结构为基础,首先将输入文本转化为one-hot向量,然后引入注... 针对端到端语音合成系统中Griffin-Lim算法恢复相位信息合成语音保真度较低、人工处理痕迹明显的问题,提出了一种基于WaveNet网络架构的端到端语音合成方法。以序列映射Seq2Seq结构为基础,首先将输入文本转化为one-hot向量,然后引入注意力机制获取梅尔声谱图,最后利用WaveNet后端处理网络重构语音信号的相位信息,从而将梅尔频谱特征逆变换为时域波形样本。实验的测试语料为LJSpeech-1.0和THchs-30,针对英语、汉语两个语种进行了实验,实验结果表明平均意见得分(MOS)分别为3.31、3.02,在合成自然度方面优于采用Griffin-Lim算法的端到端语音合成系统以及参数式语音合成系统。 展开更多
关键词 语音合成 端到端 seq2seq Griffin-Lim算法 WaveNet
下载PDF
基于Attention机制优化CNN-seq2seq模型的非侵入式负荷监测 被引量:9
7
作者 王琪凯 熊永康 +3 位作者 陈瑛 夏永洪 叶宗阳 余礼苏 《电力系统及其自动化学报》 CSCD 北大核心 2022年第12期27-34,42,共9页
非侵入式负荷监测是智能用电的一个关键环节。本文提出了一种基于注意力机制优化的卷积神经网络-序列到序列模型,用于提高非侵入式负荷监测的分解精度。首先,通过K-means++算法对各设备进行聚类操作,并将其转换成对应的独热码;其次,通... 非侵入式负荷监测是智能用电的一个关键环节。本文提出了一种基于注意力机制优化的卷积神经网络-序列到序列模型,用于提高非侵入式负荷监测的分解精度。首先,通过K-means++算法对各设备进行聚类操作,并将其转换成对应的独热码;其次,通过卷积神经网络结构提取总负荷数据的特征,并利用序列到序列结构捕捉负荷特征的时序依赖关系;最后,使用注意力机制优化卷积神经网络-序列到序列模型的整体结构。该模型通过将时间序列数据与设备状态编码之间形成一一映射关系,简化了模型结构。借助于能关注负荷重要特征的注意力机制,提升了模型的分解精度,并使用AMPds2开源数据集验证了模型的有效性。 展开更多
关键词 非侵入式负荷监测 卷积神经网络 序列到序列 注意力机制
下载PDF
基于循环神经网络的Modbus/TCP模糊测试算法 被引量:9
8
作者 黄河 陈君 邓浩江 《计算机工程》 CAS CSCD 北大核心 2019年第7期164-169,共6页
Modbus/TCP安全漏洞挖掘的相关协议包常采用随机方式生成,易产生过多无效包,降低漏洞挖掘效率。为此,基于循环神经网络(RNN)提出结构性模糊算法Fuzzy-RNN。从Modbus/TCP训练集中学习协议包各部分的概率分布,并考虑极端参数条件,实现针... Modbus/TCP安全漏洞挖掘的相关协议包常采用随机方式生成,易产生过多无效包,降低漏洞挖掘效率。为此,基于循环神经网络(RNN)提出结构性模糊算法Fuzzy-RNN。从Modbus/TCP训练集中学习协议包各部分的概率分布,并考虑极端参数条件,实现针对性的模糊生成。实验结果表明,与通用模糊测试器GPF相比,Fuzzy-RNN算法在Modbus Slave、xMasterSlave等多种仿真软件上能以更高概率实现合法协议包的模糊生成,测试时间缩减50 %以上,测试效率明显提高。 展开更多
关键词 工业控制协议 漏洞挖掘 模糊测试 网络安全 循环神经网络 序列到序列
下载PDF
基于BART噪声器的中文语法纠错模型 被引量:8
9
作者 孙邱杰 梁景贵 李思 《计算机应用》 CSCD 北大核心 2022年第3期860-866,共7页
在中文语法纠错中,基于神经机器翻译的方法被广泛应用,该方法在训练过程中需要大量的标注数据才能保障性能,但中文语法纠错的标注数据较难获取。针对标注数据有限导致中文语法纠错系统性能不佳问题,提出一种基于BART噪声器的中文语法纠... 在中文语法纠错中,基于神经机器翻译的方法被广泛应用,该方法在训练过程中需要大量的标注数据才能保障性能,但中文语法纠错的标注数据较难获取。针对标注数据有限导致中文语法纠错系统性能不佳问题,提出一种基于BART噪声器的中文语法纠错模型——BN-CGECM。首先,为了加快模型的收敛,使用基于BERT的中文预训练语言模型对BN-CGECM的编码器参数进行初始化;其次,在训练过程中,通过BART噪声器对输入样本引入文本噪声,自动生成更多样的含噪文本用于模型训练,从而缓解标注数据有限的问题。在NLPCC 2018数据集上的实验结果表明,所提模型的F0.5值比有道开发的中文语法纠错系统(YouDao)提高7.14个百分点,比北京语言大学开发的集成中文语法纠错系统(BLCU_ensemble)提高6.48个百分点;同时,所提模型不增加额外的训练数据量,增强了原始数据的多样性,且具有更快的收敛速度。 展开更多
关键词 数据增强 中文语法纠错 文本噪声 深度学习 序列到序列模型 BART噪声器
下载PDF
基于大感知域LSTM-Seq2Seq模型的代码缺陷检测方法 被引量:2
10
作者 王鹏 姚鑫鹏 +2 位作者 汪克念 陈文琪 陈曦 《中国民航大学学报》 CAS 2023年第2期14-20,38,共8页
针对现有基于深度神经网络的代码缺陷检测方法无法分析缺陷特征并输出相关评审建议的问题,提出一种基于大感知域LSTM-Seq2Seq模型的代码缺陷检测方法。首先,使用长短期记忆网络(LSTM,long short-term memory)学习缺陷代码的编码特征,建... 针对现有基于深度神经网络的代码缺陷检测方法无法分析缺陷特征并输出相关评审建议的问题,提出一种基于大感知域LSTM-Seq2Seq模型的代码缺陷检测方法。首先,使用长短期记忆网络(LSTM,long short-term memory)学习缺陷代码的编码特征,建立缺陷判别模型。其次,针对模型与数据集不匹配的问题,向序列到序列模型(Seq2Seq,sequence to sequence)引入代码段长度系数,提升模型对代码评审任务的适用度;通过建立代码缺陷特征与评审建议特征间的映射关系建立了代码分析模型,实现评审输出功能。最后,利用公开数据集SARD对该方法进行了验证,该方法在准确率、召回率、F1值方面的测试结果分别为92.50%、87.20%、87.60%,典型代码缺陷输出的评审文本与专家评审的文本相似度为85.99%,可有效减少评审过程对专家经验的依赖。 展开更多
关键词 缺陷检测 代码评审 长短期记忆网络(LSTM) 序列到序列模型(seq2seq)
下载PDF
较短的长序列时间序列预测模型 被引量:1
11
作者 徐泽鑫 杨磊 李康顺 《计算机应用》 CSCD 北大核心 2024年第6期1824-1831,共8页
针对现有的研究大多将短序列时间序列预测和长序列时间序列预测分开研究而导致模型在较短的长序列时序预测时精度较低的问题,提出一种较短的长序列时间序列预测模型(SLTSFM)。首先,利用卷积神经网络(CNN)和PBUSM(Probsparse Based on Un... 针对现有的研究大多将短序列时间序列预测和长序列时间序列预测分开研究而导致模型在较短的长序列时序预测时精度较低的问题,提出一种较短的长序列时间序列预测模型(SLTSFM)。首先,利用卷积神经网络(CNN)和PBUSM(Probsparse Based on Uniform Selection Mechanism)自注意力机制搭建一个序列到序列(Seq2Seq)结构,用于提取长序列输入的特征;其次,设计“远轻近重”策略将多个短序列输入特征提取能力较强的长短时记忆(LSTM)模块提取的各时段数据特征进行重分配;最后,用重分配的特征增强提取的长序列输入特征,提高预测精度并实现时序预测。利用4个公开的时间序列数据集验证模型的有效性。实验结果表明,与综合表现次优的对比模型循环门单元(GRU)相比,SLTSFM的平均绝对误差(MAE)指标在4个数据集上的单变量时序预测分别减小了61.54%、13.48%、0.92%和19.58%,多变量时序预测分别减小了17.01%、18.13%、3.24%和6.73%。由此可见SLTSFM在提升较短的长序列时序预测精度方面的有效性。 展开更多
关键词 较短的长序列时间序列预测 序列到序列 长短期记忆 自注意力机制 特征重分配
下载PDF
基于语义相关性分析的多模态摘要模型 被引量:1
12
作者 林于翔 吴运兵 +1 位作者 阴爱英 廖祥文 《计算机应用》 CSCD 北大核心 2024年第1期65-72,共8页
多模态生成式摘要往往采用序列到序列(Seq2Seq)框架,目标函数在字符级别优化模型,根据局部最优解生成单词,忽略了摘要样本全局语义信息,使得摘要与多模态信息产生语义偏差,容易造成事实性错误。针对上述问题,提出一种基于语义相关性分... 多模态生成式摘要往往采用序列到序列(Seq2Seq)框架,目标函数在字符级别优化模型,根据局部最优解生成单词,忽略了摘要样本全局语义信息,使得摘要与多模态信息产生语义偏差,容易造成事实性错误。针对上述问题,提出一种基于语义相关性分析的多模态摘要模型。首先,在Seq2Seq框架基础上对多模态摘要进行训练,生成语义多样性的候选摘要;其次,构建基于语义相关性分析的摘要评估器,从全局的角度学习候选摘要之间的语义差异性和真实评价指标ROUGE(Recall-Oriented Understudy for Gisting Evaluation)的排序模式,从而在摘要样本层面优化模型;最后,不依赖参考摘要,利用摘要评估器对候选摘要进行评价,使得选出的摘要与源文本在语义空间中尽可能相似。实验结果表明,在公开数据集MMSS上,相较于MPMSE(Multimodal Pointer-generator via Multimodal Selective Encoding)模型,所提模型在ROUGE-1、ROUGE-2、ROUGE-L评价指标上分别提升了3.17、1.21和2.24个百分点。 展开更多
关键词 多模态 生成式摘要 序列到序列 事实性错误 语义相关性
下载PDF
序列多智能体强化学习算法 被引量:5
13
作者 史腾飞 王莉 黄子蓉 《模式识别与人工智能》 EI CSCD 北大核心 2021年第3期206-213,共8页
针对当前多智能体强化学习算法难以适应智能体规模动态变化的问题,文中提出序列多智能体强化学习算法(SMARL).将智能体的控制网络划分为动作网络和目标网络,以深度确定性策略梯度和序列到序列分别作为分割后的基础网络结构,分离算法结... 针对当前多智能体强化学习算法难以适应智能体规模动态变化的问题,文中提出序列多智能体强化学习算法(SMARL).将智能体的控制网络划分为动作网络和目标网络,以深度确定性策略梯度和序列到序列分别作为分割后的基础网络结构,分离算法结构与规模的相关性.同时,对算法输入输出进行特殊处理,分离算法策略与规模的相关性.SMARL中的智能体可较快适应新的环境,担任不同任务角色,实现快速学习.实验表明SMARL在适应性、性能和训练效率上均较优. 展开更多
关键词 多智能体强化学习 深度确定性策略梯度(DDPG) 序列到序列(seq2seq) 分块结构
下载PDF
公交专用道条件下公交车辆轨迹的Seq2Seq预测 被引量:5
14
作者 张楠 董红召 佘翊妮 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2021年第8期1482-1489,1517,共9页
即使在公交专用道条件下,因受前方车辆、站台通行能力、行人过街等因素影响,由路段上游到下游停车线持续一定时长的公交车辆轨迹仍然表现出较强的不确定性.简单场景下的单一目标时间序列模型难以有效应对不确定性对公交车辆轨迹预测的影... 即使在公交专用道条件下,因受前方车辆、站台通行能力、行人过街等因素影响,由路段上游到下游停车线持续一定时长的公交车辆轨迹仍然表现出较强的不确定性.简单场景下的单一目标时间序列模型难以有效应对不确定性对公交车辆轨迹预测的影响.针对上述问题,提出将车辆通过路段的整体轨迹表示为由多个相对简单的局部时间序列顺序组成的高维时间序列,应用循环神经网络的单层和多层循环编码器-解码器结构建立高维时间序列中局部序列和整体序列的映射关系,从当前时段轨迹序列开始依次循环预测每个局部序列直到获得未来时段的整体序列.在实验验证中,采用杭州市文三路公交线路的实测GPS轨迹数据对2种结构进行训练和测试.结果表明,所提方法优于现有流行的多步循环序列到序列方法,其中多层结构预测结果和复杂场景的泛化性能均优于单层结构. 展开更多
关键词 高维时间序列 循环神经网络(RNN) 序列到序列(seq2seq) 多层循环编码器-解码器(HRED) 智能交通系统(ITS)
下载PDF
基于标签交互Seq2Seq模型的多标签文本分类方法
15
作者 王嫄 胡鹏 +3 位作者 鄢艳玲 王佳帅 赵婷婷 杨巨成 《传感器与微系统》 CSCD 北大核心 2024年第8期155-159,共5页
多标签文本分类任务可被建模为文本序列到标签序列的映射任务。然而,现有的序列到序列(Seq2Seq)模型仅从嘈杂文本中提取粗粒度的文本级表示,忽略了标签与单词之间细粒度的交互线索,导致类别理解偏差。对此,提出基于编码器—解码器结构... 多标签文本分类任务可被建模为文本序列到标签序列的映射任务。然而,现有的序列到序列(Seq2Seq)模型仅从嘈杂文本中提取粗粒度的文本级表示,忽略了标签与单词之间细粒度的交互线索,导致类别理解偏差。对此,提出基于编码器—解码器结构的标签语义交互Seq2Seq模型。在文本语义提取阶段,使用门控机制融合粗粒度的文本级表示和细粒度的交互线索,最终得到类别理解纠正的文本表示。在2个标准数据集上,与LEAM,LSAN,SGM等6个算法进行对比实验,结果表明,本文模型在2个主要评价指标上均得到显著提升。 展开更多
关键词 多标签文本分类 序列到序列 自适应门 多头注意力 标签嵌入
下载PDF
基于学习-推理的约束求解方法研究进展
16
作者 邹悦 赖家洋 张永刚 《软件学报》 EI CSCD 北大核心 2024年第1期220-235,共16页
机器学习与自动推理的融合是当前人工智能研究的新趋势.约束满足问题是人工智能研究的经典问题,现实世界中大量的调度、规划和配置等问题均可以建模为约束满足问题,高效的求解算法一直是研究热点.近年来涌现出众多将机器学习应用于约束... 机器学习与自动推理的融合是当前人工智能研究的新趋势.约束满足问题是人工智能研究的经典问题,现实世界中大量的调度、规划和配置等问题均可以建模为约束满足问题,高效的求解算法一直是研究热点.近年来涌现出众多将机器学习应用于约束满足问题求解的新方法,这些基于“学习-推理”的新方法为约束满足问题求解开辟了新方向并展示出巨大发展潜力,方法的突出优点是适应性强、可在线优化并具有更强的可扩展性.将当前的“学习-推理”方法分为基于消息传递神经网络、基于序列到序列和基于最优化等3类进行综述,详细分析各类方法的特点和在不同的问题集上求解效果,尤其对每类方法所涵盖的相关工作进行多角度的对比分析.最后,对基于“学习-推理”的约束求解方法进行总结和展望. 展开更多
关键词 约束满足问题 消息传递神经网络 序列到序列 强化学习 最优化
下载PDF
双路卷积神经网络和序列到序列的多步短期负荷预测
17
作者 袁建华 徐杰 +1 位作者 蒋文军 李洪强 《电力系统及其自动化学报》 CSCD 北大核心 2024年第9期96-104,共9页
为提高多步短期电力负荷预测精度,满足实际应用中对于不同时间长度的预测需求,提出一种双路卷积神经网络和序列到序列相结合的多步预测方法。首先,构造双支路并行结构的特征提取网络双路卷积神经网络对负荷输入数据进行不同尺度的深层... 为提高多步短期电力负荷预测精度,满足实际应用中对于不同时间长度的预测需求,提出一种双路卷积神经网络和序列到序列相结合的多步预测方法。首先,构造双支路并行结构的特征提取网络双路卷积神经网络对负荷输入数据进行不同尺度的深层次特征提取;其次,分别以双向门控循环单元和长短期记忆网络作为编码器和解码器构建序列到序列网络,利用编码器对双路卷积神经网络的输出特征进行编码,并引入注意力机制完成输入数据到动态变化的中间向量的信息转换;最后通过解码器解码实现未来多个时刻的负荷序列输出。实验结果表明,所提方法较其他方法具有更优的多步预测性能。 展开更多
关键词 负荷预测 多步预测 序列到序列 深度学习 注意力机制
下载PDF
基于双编码器结构的文本自动摘要研究 被引量:6
18
作者 冯读娟 杨璐 严建峰 《计算机工程》 CAS CSCD 北大核心 2020年第6期60-64,共5页
为了解决序列到序列模型中编码器不能充分编码源文本的问题,构建一种基于双编码器网络结构的CGAtten-GRU模型。2个编码器分别使用卷积神经网络和双向门控循环单元,源文本并行进入双编码器,结合2种编码网络结构的输出结果构建注意力机制... 为了解决序列到序列模型中编码器不能充分编码源文本的问题,构建一种基于双编码器网络结构的CGAtten-GRU模型。2个编码器分别使用卷积神经网络和双向门控循环单元,源文本并行进入双编码器,结合2种编码网络结构的输出结果构建注意力机制,解码器端使用GRU网络融合Copy机制和集束搜索方法,以提高解码的准确度。在大规模中文短文本摘要数据集LCSTS上的实验结果表明,与RNN context模型相比,该模型的Rouge-1、Rouge-2和Rouge-L分别提高0.1、0.059和0.046。 展开更多
关键词 自然语言处理 生成式摘要 卷积神经网络 门控循环单元 注意力机制 序列到序列模型 Copy机制
下载PDF
Prediction of discharge in a tidal river using the LSTM-based sequence-to-sequence models
19
作者 Zhigao Chen Yan Zong +2 位作者 Zihao Wu Zhiyu Kuang Shengping Wang 《Acta Oceanologica Sinica》 SCIE CAS CSCD 2024年第7期40-51,共12页
The complexity of river-tide interaction poses a significant challenge in predicting discharge in tidal rivers.Long short-term memory(LSTM)networks excel in processing and predicting crucial events with extended inter... The complexity of river-tide interaction poses a significant challenge in predicting discharge in tidal rivers.Long short-term memory(LSTM)networks excel in processing and predicting crucial events with extended intervals and time delays in time series data.Additionally,the sequence-to-sequence(Seq2Seq)model,known for handling temporal relationships,adapting to variable-length sequences,effectively capturing historical information,and accommodating various influencing factors,emerges as a robust and flexible tool in discharge forecasting.In this study,we introduce the application of LSTM-based Seq2Seq models for the first time in forecasting the discharge of a tidal reach of the Changjiang River(Yangtze River)Estuary.This study focuses on discharge forecasting using three key input characteristics:flow velocity,water level,and discharge,which means the structure of multiple input and single output is adopted.The experiment used the discharge data of the whole year of 2020,of which the first 80%is used as the training set,and the last 20%is used as the test set.This means that the data covers different tidal cycles,which helps to test the forecasting effect of different models in different tidal cycles and different runoff.The experimental results indicate that the proposed models demonstrate advantages in long-term,mid-term,and short-term discharge forecasting.The Seq2Seq models improved by 6%-60%and 5%-20%of the relative standard deviation compared to the harmonic analysis models and improved back propagation neural network models in discharge prediction,respectively.In addition,the relative accuracy of the Seq2Seq model is 1%to 3%higher than that of the LSTM model.Analytical assessment of the prediction errors shows that the Seq2Seq models are insensitive to the forecast lead time and they can capture characteristic values such as maximum flood tide flow and maximum ebb tide flow in the tidal cycle well.This indicates the significance of the Seq2Seq models. 展开更多
关键词 discharge prediction long short-term memory networks sequence-to-sequence(seq2seq)model tidal river back propagation neural network Changjiang River(Yangtze River)Estuary
下载PDF
融合卷积收缩门控的生成式文本摘要方法
20
作者 甘陈敏 唐宏 +2 位作者 杨浩澜 刘小洁 刘杰 《计算机工程》 CAS CSCD 北大核心 2024年第2期98-104,共7页
在深度学习技术的推动下,基于编码器-解码器架构并结合注意力机制的序列到序列模型成为文本摘要研究中应用最广泛的模型之一,尤其在生成式文本摘要任务中取得显著效果。然而,现有的采用循环神经网络的模型存在并行能力不足和时效低下的... 在深度学习技术的推动下,基于编码器-解码器架构并结合注意力机制的序列到序列模型成为文本摘要研究中应用最广泛的模型之一,尤其在生成式文本摘要任务中取得显著效果。然而,现有的采用循环神经网络的模型存在并行能力不足和时效低下的局限性,无法充分概括有用信息,忽视单词与句子间的联系,易产生冗余重复或语义不相关的摘要。为此,提出一种基于Transformer和卷积收缩门控的文本摘要方法。利用BERT作为编码器,提取不同层次的文本表征得到上下文编码,采用卷积收缩门控单元调整编码权重,强化全局相关性,去除无用信息的干扰,过滤后得到最终的编码输出,并通过设计基础Transformer解码模块、共享编码器的解码模块和采用生成式预训练Transformer(GPT)的解码模块3种不同的解码器,加强编码器与解码器的关联,以此探索能生成高质量摘要的模型结构。在LCSTS和CNNDM数据集上的实验结果表明,相比主流基准模型,设计的TCSG、ES-TCSG和GPT-TCSG模型的评价分数增量均不低于1.0,验证了该方法的有效性和可行性。 展开更多
关键词 生成式文本摘要 序列到序列模型 Transformer模型 BERT编码器 卷积收缩门控单元 解码器
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部