期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于RoBERTa-WWM和HDBSCAN的文本聚类算法 被引量:1
1
作者 刘锟 曾曦 +1 位作者 邱梓珩 陈周国 《计算机与现代化》 2022年第3期48-52,63,共6页
在大数据环境下,从海量的互联网数据中获取热点话题是研究当前互联网中民意民情的基础,其中文本聚类是得到热点话题最常用的方法之一,可以分为文本向量化表示和聚类2个步骤。然而在文本向量化表示任务中,传统的文本表示模型无法准确表... 在大数据环境下,从海量的互联网数据中获取热点话题是研究当前互联网中民意民情的基础,其中文本聚类是得到热点话题最常用的方法之一,可以分为文本向量化表示和聚类2个步骤。然而在文本向量化表示任务中,传统的文本表示模型无法准确表示新闻、帖文等文本的上下文语境信息。在聚类任务中,最常使用的是K-Means算法和DBSCAN算法,但是它们对数据的聚类方式与实际中话题数据的分布不符,这使得现有的文本聚类算法在实际的互联网环境中应用效果很差。本文根据互联网中话题的数据分布情况,提出一种基于RoBERTa-WWM和HDBSCAN的文本聚类算法。首先利用预训练语言模型RoBERTa-WWM得到每一篇文本的文本向量,其次利用t-SNE算法对高维文本向量进行降维,最后利用基于层次的密度聚类算法的HDBSCAN算法对低维的文本向量进行聚类。实验结果表明提出的算法相较于现有的文本聚类算法,在含有噪声数据且分布不均衡的数据集上,聚类效果有很大的提升。 展开更多
关键词 文本聚类 预训练语言模型 可视化降维 密度聚类
下载PDF
基于时间生成对抗网络的风电随机场景预测 被引量:1
2
作者 贾梦瑶 王玉玮 宋明浩 《智慧电力》 北大核心 2023年第8期59-66,共8页
由于风电出力的随机性和时间相关性,利用常规的短期点或区间预测方法所得到的风电数据,无法支撑高比例风电接入下电力系统的鲁棒调度和可靠运行。提出一种基于时间生成对抗网络(TimeGAN)的风电随机场景预测模型。首先,将风电样本分解为... 由于风电出力的随机性和时间相关性,利用常规的短期点或区间预测方法所得到的风电数据,无法支撑高比例风电接入下电力系统的鲁棒调度和可靠运行。提出一种基于时间生成对抗网络(TimeGAN)的风电随机场景预测模型。首先,将风电样本分解为静态和时间序列数据,并搭建嵌入、复现、生成和判别网络结构;其次,以静态和时间序列数据为样本,联合训练嵌入和复现网络;最后,以嵌入网络输出为样本,对抗训练生成和判别网络,并将生成网络输出反馈至嵌入-复现训练以检验时间序列拟合效果。以最小化重构、有监督和无监督损失为目标,模型深度学习风电时间特性并预测随机场景。算例验证了所提模型的有效性。 展开更多
关键词 风电出力 随机场景预测 时间生成对抗网络 可视化降维 信息学习能力
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部