期刊文献+
共找到85篇文章
< 1 2 5 >
每页显示 20 50 100
LDA模型的优化及其主题数量选择研究——以科技文献为例 被引量:37
1
作者 王婷婷 韩满 王宇 《数据分析与知识发现》 CSSCI CSCD 北大核心 2018年第1期29-40,共12页
【目的】为提升传统LDA模型的主题识别性能,并给主题最优数目选择提供技术方案,提出基于自适应聚类的K-wrLDA模型。【方法】利用LDA和Word2Vec模型得出包含主题词概率信息及词义相关性的T-WV矩阵,并将传统LDA模型的主题数目选择问题转... 【目的】为提升传统LDA模型的主题识别性能,并给主题最优数目选择提供技术方案,提出基于自适应聚类的K-wrLDA模型。【方法】利用LDA和Word2Vec模型得出包含主题词概率信息及词义相关性的T-WV矩阵,并将传统LDA模型的主题数目选择问题转化为聚类效果评价问题,以内部指标伪F统计量作为目标函数,计算主题聚类数目的最优解,并对新旧两种模型的主题识别效果进行比较。【结果】经自适应聚类得出最优主题数量为33,且新模型的困惑度得分始终低于传统模型,主题识别效果对比显示新模型具有更好的凝聚性。【局限】在实证语料选取上获取单一主题下的科技文献,数据量不大。【结论】新模型具有更理想的主题识别能力,并能够自主计算最优主题数目。该模型作为对传统LDA模型的改进,可以应用于各领域的大规模语料中。 展开更多
关键词 主题模型 词嵌入 自适应聚类 困惑度
原文传递
基于特征词向量的短文本聚类算法 被引量:9
2
作者 刘欣 佘贤栋 +1 位作者 唐永旺 王波 《数据采集与处理》 CSCD 北大核心 2017年第5期1052-1060,共9页
针对互联网短文本特征稀疏和速度更新快而导致的短文本聚类性能较差的问题,本文提出了一种基于特征词向量的短文本聚类算法。首先,定义基于词性和词长度加权的特征词提取公式并提取特征词代表短文本;然后,使用Skip-gram模型(Continous s... 针对互联网短文本特征稀疏和速度更新快而导致的短文本聚类性能较差的问题,本文提出了一种基于特征词向量的短文本聚类算法。首先,定义基于词性和词长度加权的特征词提取公式并提取特征词代表短文本;然后,使用Skip-gram模型(Continous skip-gram model)在大规模语料中训练得到表示特征词语义的词向量;最后,引入词语游走距离(Word mover′s distance,WMD)来计算短文本间的相似度并将其应用到层次聚类算法中实现短文本聚类。在4个测试数据集上的评测结果表明,本文方法的效果明显优于传统的聚类算法,平均F值较次优结果提高了56.41%。 展开更多
关键词 短文本 特征词 词向量 相似度计算 聚类
下载PDF
基于词向量和条件随机场的中文命名实体分类 被引量:8
3
作者 马孟铖 杨晴雯 +1 位作者 艾斯卡尔·艾木都拉 吐尔地·托合提 《计算机工程与设计》 北大核心 2020年第9期2515-2522,共8页
针对中文命名实体识别及分类问题,提出一种基于词向量聚类和条件随机场的方法。分析语料语言特点并选取统计特征,构建特征模板识别测试语料中的命名实体;利用词向量包含丰富语义信息这一特点,将训练集中的实体词向量聚类成一个个簇;通... 针对中文命名实体识别及分类问题,提出一种基于词向量聚类和条件随机场的方法。分析语料语言特点并选取统计特征,构建特征模板识别测试语料中的命名实体;利用词向量包含丰富语义信息这一特点,将训练集中的实体词向量聚类成一个个簇;通过比较每一个簇与已识别的测试集命名实体之间的相似度距离,实现中文命名实体的分类。实验结果表明,在该方法下所分8个类别中,命名实体分类的F 1值最高达到93.04%,F 1值的平均值达到了83.82%。 展开更多
关键词 命名实体识别 条件随机场 词向量 聚类 命名实体分类
下载PDF
基于表示学习的告警数据流压缩算法
4
作者 阴振生 陈佳 +1 位作者 王鹏 汪卫 《计算机应用与软件》 北大核心 2024年第7期34-41,共8页
大型在线服务系统的告警数量巨大且关联关系复杂,运维人员进行故障诊断的难度较大。为此,提出一种基于表示学习的告警数据流压缩算法。该算法包含离线学习和在线压缩阶段:离线学习阶段,采用嵌入技术对告警内容的语义信息及服务组件的拓... 大型在线服务系统的告警数量巨大且关联关系复杂,运维人员进行故障诊断的难度较大。为此,提出一种基于表示学习的告警数据流压缩算法。该算法包含离线学习和在线压缩阶段:离线学习阶段,采用嵌入技术对告警内容的语义信息及服务组件的拓扑信息进行表示学习;在线压缩阶段,采用流式聚类方法对表示学习得到的告警向量进行聚合并生成告警事件。在合成数据集与真实数据集上的实验表明,该算法的各项评价指标均优于已有算法,更能满足告警数据流压缩的实时性和有效性要求。 展开更多
关键词 在线服务系统 告警数据流压缩 表示学习 词嵌入 图嵌入 流式聚类
下载PDF
基于对比学习的矢量化特征空间嵌入聚类
5
作者 郑洋 吴永明 徐岸 《计算机工程与应用》 CSCD 北大核心 2024年第4期211-219,共9页
深度嵌入聚类(deep embedding clustering,DEC)算法只通过自编码器,以单一实例重构的方式将数据嵌入到低维矢量化特征空间中进行聚类,而忽略了不同实例之间的关系,导致可能无法很好地区分嵌入空间中的实例。针对上述问题,提出基于对比... 深度嵌入聚类(deep embedding clustering,DEC)算法只通过自编码器,以单一实例重构的方式将数据嵌入到低维矢量化特征空间中进行聚类,而忽略了不同实例之间的关系,导致可能无法很好地区分嵌入空间中的实例。针对上述问题,提出基于对比学习的矢量化特征空间嵌入聚类(vectorized feature space embedded clustering based on contrastive learning,VECCL)方法。通过对比学习以辨识数据实例之间异同性的方式,从数据中提取出具有同近异远聚类语义的特征,并作为先验知识带入DEC中,引导自编码器初始化带有深层数据信息的低维聚类特征空间。同时利用软分类标签构造熵损失,与自编码器的重构损失一起作为正则化项引入聚类损失函数中,共同细化聚类。实验结果表明,所提方法提取特征的能力更强,与DEC方法在数据集CIFAR10、CIFAR100和STL10上的实验结果相比,ACC分别提升48.1个百分点、23.1个百分点和41.8个百分点,NMI分别提升41.0个百分点、25.2个百分点和39.0个百分点,ARI分别提升45.4个百分点、16.4个百分点和41.8个百分点。 展开更多
关键词 深度聚类 对比学习 自编码器 矢量化特征空间 嵌入聚类
下载PDF
基于时序网络节点嵌入的影响力最大化算法
6
作者 詹秀秀 谢晓雯 +2 位作者 张恺悦 刘闯 张子柯 《中国科学:物理学、力学、天文学》 CSCD 北大核心 2024年第3期65-76,共12页
随着互联网的高速发展,影响力最大化算法在病毒营销、谣言遏制等众多领域得到广泛应用,它旨在搜索一个指定规模的种子节点集,以实现影响力传播范围最大化.尽管已有许多影响力最大化算法被提出,复杂系统的时序特征却鲜有被纳入考量.为了... 随着互联网的高速发展,影响力最大化算法在病毒营销、谣言遏制等众多领域得到广泛应用,它旨在搜索一个指定规模的种子节点集,以实现影响力传播范围最大化.尽管已有许多影响力最大化算法被提出,复杂系统的时序特征却鲜有被纳入考量.为了解决时序网络中的影响力最大化问题,本文提出了一种基于时序网络节点嵌入的影响力最大化算法(Micro-and Macro-based Clustering,MMC).该算法能够通过节点嵌入有效地学习时序网络中的微观和宏观维度上的动力学特征.基于嵌入向量,对时序网络进行簇聚类,以降低影响力最大化算法的复杂度,减小种子节点集间的影响力范围重叠,从而进一步提升算法的效果.为了验证MMC的有效性,本文在真实时序网络中进行了影响力传播实验与相似性比较.结果显示,相较于其他5种对比算法,MMC筛选出的种子节点在保证较好的传播效果的同时,能够跳出既有算法的框架.参数敏感性的分析表明,节点聚类过程有效地提升了算法效果. 展开更多
关键词 影响力最大化 时序网络 节点嵌入 簇聚类 传播模型
原文传递
多语义关系嵌入的知识图谱补全方法 被引量:2
7
作者 尹华 肖石冉 +2 位作者 陈智全 胡振生 龙泳潮 《计算机科学与探索》 CSCD 北大核心 2023年第2期467-477,共11页
基于知识表示的知识图谱补全方法将实体与关系转化为分布式向量,通过向量计算补全缺失关系。现有的知识表示模型将关系看作单一向量,损失了部分关系语义。而传统关系多语义细分模型由于参数较多,时耗较大难以在大规模知识图谱上应用。... 基于知识表示的知识图谱补全方法将实体与关系转化为分布式向量,通过向量计算补全缺失关系。现有的知识表示模型将关系看作单一向量,损失了部分关系语义。而传统关系多语义细分模型由于参数较多,时耗较大难以在大规模知识图谱上应用。提出了一种多语义关系嵌入的知识图谱补全方法(MSRE),在复数域空间中反向计算关系角度向量,基于Mean-Shift构建各关系的语义分量簇,优化RotatE得分函数为语义分量簇中最恰当的关系语义分量得分。该方法在扩充关系表示的同时,保证了三元组运算中的唯一性。在公开数据集FB15K-237、WN18RR上的链路预测和三元组分类的实验结果表明,该方法可以挖掘关系的潜在语义,保持较低的时间复杂度,且在多数指标上相较于主流模型有一定的性能提升。 展开更多
关键词 知识图谱 关系多语义 关系嵌入 聚类
下载PDF
基于邻居相似性的图嵌入社区检测算法
8
作者 张安琪 张娜 《电脑与电信》 2024年第5期79-83,共5页
社区检测是复杂网络中的研究热点,理解和发现网络的社区结构对于探索网络的行为和功能具有重要意义。提出了一种新颖的基于邻居相似性的图嵌入方法进行社区检测。基于节点的邻居相似性和接受度聚合邻居的属性信息表达,得到网络中每个节... 社区检测是复杂网络中的研究热点,理解和发现网络的社区结构对于探索网络的行为和功能具有重要意义。提出了一种新颖的基于邻居相似性的图嵌入方法进行社区检测。基于节点的邻居相似性和接受度聚合邻居的属性信息表达,得到网络中每个节点的向量表达后,直接进行K-均值聚类得到最终的社区划分结果。实验结果表明:提出的算法具有更好的社团划分结果,其模块性和标准归一化指标都有明显的提升。 展开更多
关键词 社区检测 邻居相似性 图嵌入 聚类
下载PDF
基于TWE-NMF主题模型的Mashup服务聚类方法 被引量:1
9
作者 陆佳炜 赵伟 +2 位作者 张元鸣 梁倩卉 肖刚 《软件学报》 EI CSCD 北大核心 2023年第6期2727-2748,共22页
随着互联网和面向服务技术的发展,一种新型的Web应用——Mashup服务,开始在互联网上流行并快速增长.如何在众多Mashup服务中找到高质量的服务,已经成为一个大家关注的热点问题.寻找功能相似的服务并进行聚类,能有效提升服务发现的精度... 随着互联网和面向服务技术的发展,一种新型的Web应用——Mashup服务,开始在互联网上流行并快速增长.如何在众多Mashup服务中找到高质量的服务,已经成为一个大家关注的热点问题.寻找功能相似的服务并进行聚类,能有效提升服务发现的精度与效率.目前国内外主流方法为挖掘Mashup服务中隐含的功能信息,进一步采用特定聚类算法如K-means等进行聚类.然而Mashup服务文档通常为短文本,基于传统的挖掘算法如LDA无法有效处理短文本,导致聚类效果并不理想.针对这一问题,提出一种基于非负矩阵分解的TWE-NMF(nonnegative matrix factorization combining tags and word embedding)模型对Mashup服务进行主题建模.所提方法首先对Mashup服务规范化处理,其次采用一种基于改进的Gibbs采样的狄利克雷过程混合模型,自动估算主题的数量,随后将词嵌入和服务标签等信息与非负矩阵分解相结合,求解Mashup服务主题特征,并通过谱聚类算法将服务聚类.最后,对所提方法的性能进行了综合评价,实验结果表明,与现有的服务聚类方法相比,所提方法在准确率、召回率、F-measure、纯度和熵等评价指标方面都有显著提高. 展开更多
关键词 Mashup服务 非负矩阵分解 主题模型 词嵌入 服务聚类
下载PDF
优化科学知识图谱方法绘制全领域科学结构图谱 被引量:4
10
作者 陈挺 李国鹏 王小梅 《图书情报工作》 CSSCI 北大核心 2022年第21期107-119,共13页
[目的/意义]针对目前全领域科学知识图谱构建方法中存在的技术难点,结合网络嵌入模型、机器学习聚类、流形学习可视化算法等人工智能领域的方法与模型,提出一套全新发现科学结构的知识图谱构建方案,以完善科学结构发现与可视化布局,并... [目的/意义]针对目前全领域科学知识图谱构建方法中存在的技术难点,结合网络嵌入模型、机器学习聚类、流形学习可视化算法等人工智能领域的方法与模型,提出一套全新发现科学结构的知识图谱构建方案,以完善科学结构发现与可视化布局,并拓展科学知识图谱的分析应用场景。[方法/过程]引入基于深度学习的网络嵌入模型和聚类方法改进原有的网络社团划分聚类方法,利用流形学习降维可视化算法扩大数据处理能力,并设计由下至上分层可视化布局方法,提升可视化图谱的稳定性与细节揭示能力。[结果/结论]以科睿唯安公司的基本科学指标数据库(ESI)研究前沿中高被引论文作为分析数据集,使用新聚类算法得到1169个研究领域,通过改进的可视化布局算法形成全领域科学结构图谱。与前几期科学结构图谱相比,本文提出的方法支持更大规模的数据分析,对可视化细节揭示与稳定性也有大幅优化,可以更好地展示全领域科学研究宏观结构及内在关系,为全领域科学知识图谱的绘制与构建提供更可靠的方法和技术支持。 展开更多
关键词 科学图谱 科学结构 引文网络 网络嵌入 聚类 可视化
原文传递
基于呼叫详情记录的社会角色推测可视分析
11
作者 蔡梦杰 李学俊 +4 位作者 王桂娟 周锐 谭博友 赵韦鑫 吴亚东 《计算机技术与发展》 2023年第1期165-172,共8页
城市居民的社会角色感知对城市规划策略制定与城市安全方案设计具有重要的辅助价值,对于后疫情时代疫情的防控具有重要价值。知晓患者用户的角色,可以对用户的接触人群进行更好地分析,做好疫情防控。该文提出了一种结合基站语义和用户... 城市居民的社会角色感知对城市规划策略制定与城市安全方案设计具有重要的辅助价值,对于后疫情时代疫情的防控具有重要价值。知晓患者用户的角色,可以对用户的接触人群进行更好地分析,做好疫情防控。该文提出了一种结合基站语义和用户时空状态序列的交互式用户社会角色可视分析框架。首先,基于序列数据建模方法,提出了考虑序列顺序的基站嵌入模型Pos-Cell2Vec对基站语义信息进行识别;然后,提出一个基于轨迹序列嵌入的用户聚类方法,获得用户聚类结果,进而采用高维可视化方法对基站以及用户的聚类结果进行可视化;最后,基于多视图协同可视分析技术,设计并实现了基于海量通话数据的用户社会角色推测可视分析系统。结合现实数据案例分析结果发现,分析者能够通过该系统结合用户状态序列、用户的通话特征、移动特征以及基站信息,对用户的社会角色进行推测,目前可以通过系统和模型推测出司机、学生以及推销人员等角色。 展开更多
关键词 呼叫详情记录 社会角色 轨迹嵌入 群体行为模式 用户聚类 可视化分析
下载PDF
Study on Recognition Method of Similar Weather Scenes in Terminal Area
12
作者 Ligang Yuan Jiazhi Jin +2 位作者 Yan Xu Ningning Zhang Bing Zhang 《Computer Systems Science & Engineering》 SCIE EI 2023年第2期1171-1185,共15页
Weather is a key factor affecting the control of air traffic.Accurate recognition and classification of similar weather scenes in the terminal area is helpful for rapid decision-making in air trafficflow management.Curren... Weather is a key factor affecting the control of air traffic.Accurate recognition and classification of similar weather scenes in the terminal area is helpful for rapid decision-making in air trafficflow management.Current researches mostly use traditional machine learning methods to extract features of weather scenes,and clustering algorithms to divide similar scenes.Inspired by the excellent performance of deep learning in image recognition,this paper proposes a terminal area similar weather scene classification method based on improved deep convolution embedded clustering(IDCEC),which uses the com-bination of the encoding layer and the decoding layer to reduce the dimensionality of the weather image,retaining useful information to the greatest extent,and then uses the combination of the pre-trained encoding layer and the clustering layer to train the clustering model of the similar scenes in the terminal area.Finally,term-inal area of Guangzhou Airport is selected as the research object,the method pro-posed in this article is used to classify historical weather data in similar scenes,and the performance is compared with other state-of-the-art methods.The experi-mental results show that the proposed IDCEC method can identify similar scenes more accurately based on the spatial distribution characteristics and severity of weather;at the same time,compared with the actualflight volume in the Guangz-hou terminal area,IDCEC's recognition results of similar weather scenes are con-sistent with the recognition of experts in thefield. 展开更多
关键词 Air traffic terminal area similar scenes deep embedding clustering
下载PDF
A comparative analysis of text representation, classification and clustering methods over real project proposals
13
作者 Meltem Aksoy Seda Yanık Mehmet Fatih Amasyali 《International Journal of Intelligent Computing and Cybernetics》 EI 2023年第3期595-628,共34页
Purpose-When a large number of project proposals are evaluated to alocate available funds,grouping them based on their simiarites is benefciaL.Current approaches to group proposals are primarily based on manual matchi... Purpose-When a large number of project proposals are evaluated to alocate available funds,grouping them based on their simiarites is benefciaL.Current approaches to group proposals are primarily based on manual matching of similar topics,discipline areas and keywordls declared by project applicants.When the number of proposals increases,this task becomes complex and requires excessive time.This paper aims to demonstrate how to ffctively use the rich information in the titles and abstracts of Turkish project propsals to group them atmaially.Design/methodology/approach-This study proposes a model that effectively groups Turkish project proposals by combining word embedding,clustering and classification technigues.The proposed model uses FastText,BERT and term frequency/inverse document frequency(TF/IDF)word-embedding techniques to extract terms from the titles and abstracts of project proposals in Turkish.The extracted terms were grouped using both the clustering and classification techniques.Natural groups contained within the corpus were discovered using k-means,k-means++,k-medoids and agglomerative clustering algorithms,Additionally,this study employs classification approaches to predict the target class for each document in the corpus.To classify project proposals,var ious classifiers,including k nearest neighbors(KNN),support vector machines(SVM),artificial neural networks(ANN),cassftcation and regression trees(CART)and random forest(RF),are used.Empirical experiments were conducted to validate the effectiveness of the proposed method by using real data from the Istanbul Development Agency.Findings-The results show that the generated word embeddings an fftvely represent proposal texts as vectors,and can be used as inputs for dustering or casificatiomn algorithms.Using clustering algorithms,the document corpus is divided into five groups.In adition,the results demonstrate that the proposals can easily be categoried into predefmned categories using cassifiation algorithms.SVM-Linear achieved the highest predicti 展开更多
关键词 Project proposal selection Text mining Word embedding Text clustering Text classification
原文传递
Identification of High-Risk Scenarios for Cascading Failures in New Energy Power Grids Based on Deep Embedding Clustering Algorithms
14
作者 Xueting Cheng Ziqi Zhang +1 位作者 Yueshuang Bao Huiping Zheng 《Energy Engineering》 EI 2023年第11期2517-2529,共13页
At present,the proportion of new energy in the power grid is increasing,and the random fluctuations in power output increase the risk of cascading failures in the power grid.In this paper,we propose a method for ident... At present,the proportion of new energy in the power grid is increasing,and the random fluctuations in power output increase the risk of cascading failures in the power grid.In this paper,we propose a method for identifying high-risk scenarios of interlocking faults in new energy power grids based on a deep embedding clustering(DEC)algorithm and apply it in a risk assessment of cascading failures in different operating scenarios for new energy power grids.First,considering the real-time operation status and system structure of new energy power grids,the scenario cascading failure risk indicator is established.Based on this indicator,the risk of cascading failure is calculated for the scenario set,the scenarios are clustered based on the DEC algorithm,and the scenarios with the highest indicators are selected as the significant risk scenario set.The results of simulations with an example power grid show that our method can effectively identify scenarios with a high risk of cascading failures from a large number of scenarios. 展开更多
关键词 New energy power system deep embedding clustering algorithms cascading failures
下载PDF
An Improved Steganographic Scheme Using the Contour Principle to Ensure the Privacy of Medical Data on Digital Images
15
作者 R.Bala Krishnan D.Yuvaraj +4 位作者 P.Suthanthira Devi Varghese S.Chooralil N.Rajesh Kumar B.Karthikeyan G.Manikandan 《Computer Systems Science & Engineering》 SCIE EI 2023年第8期1563-1576,共14页
With the improvement of current online communication schemes,it is now possible to successfully distribute and transport secured digital Content via the communication channel at a faster transmission rate.Traditional ... With the improvement of current online communication schemes,it is now possible to successfully distribute and transport secured digital Content via the communication channel at a faster transmission rate.Traditional steganography and cryptography concepts are used to achieve the goal of concealing secret Content on a media and encrypting it before transmission.Both of the techniques mentioned above aid in the confidentiality of feature content.The proposed approach concerns secret content embodiment in selected pixels on digital image layers such as Red,Green,and Blue.The private Content originated from a medical client and was forwarded to a medical practitioner on the server end through the internet.The K-Means clustering principle uses the contouring approach to frame the pixel clusters on the image layers.The content embodiment procedure is performed on the selected pixel groups of all layers of the image using the Least Significant Bit(LSB)substitution technique to build the secret Content embedded image known as the stego image,which is subsequently transmitted across the internet medium to the server end.The experimental results are computed using the inputs from“Open-Access Medical Image Repositories(aylward.org)”and demonstrate the scheme’s impudence as the Content concealing procedure progresses. 展开更多
关键词 CONTOURING secret content embodiment least significant bit embedding medical data preservation secret content congregation pixel clustering
下载PDF
基于多视角自适应图正则的非负矩阵分解聚类
16
作者 林虹燕 杜元花 +1 位作者 周楠 田永强 《成都信息工程大学学报》 2023年第5期526-534,共9页
为充分利用各个视角数据内在几何结构关系,提出一种新的基于自适应图正则非负矩阵分解的多视角聚类。该算法在一个统一的框架内,通过各视角亲和矩阵自适应学习提取共识的亲和矩阵进行图嵌入来提取多视角数据共识局部结构信息。另外,通... 为充分利用各个视角数据内在几何结构关系,提出一种新的基于自适应图正则非负矩阵分解的多视角聚类。该算法在一个统一的框架内,通过各视角亲和矩阵自适应学习提取共识的亲和矩阵进行图嵌入来提取多视角数据共识局部结构信息。另外,通过非负矩阵分解来提取多视角数据全局重构信息。最终使各个视角的共识表达,既保持了数据多视角共识全局重构信息,也保持了数据多视角局部结构信息。该优化问题在考虑了所有数据的一致性和每个视角之间互补性的同时,引入了各个视角数据的局部结构信息,达到数据表达和聚类的效果。通过4组真实数据集的实验,结果表明所提出的方法与已有多视角聚类方法相比具有一定的优越性。 展开更多
关键词 多视角学习 拉普拉斯秩约束 图嵌入 非负矩阵分解 聚类
下载PDF
基于多语义复合表示模型的去离群点文本聚类 被引量:3
17
作者 顾永春 武娇 +3 位作者 金世举 顾兴全 尹雪婷 刘雅萱 《中国计量大学学报》 2021年第3期414-420,438,共8页
目的:将词语的多种语义信息融合,提出多语义复合文本表示模型和基于该模型的文本聚类算法。方法:首先,利用高斯混合模型构建词语的多语义空间,计算词语的不同语义概率权重;其次,运用所有的语义概率加权词嵌入复合形成文本向量;最后,借... 目的:将词语的多种语义信息融合,提出多语义复合文本表示模型和基于该模型的文本聚类算法。方法:首先,利用高斯混合模型构建词语的多语义空间,计算词语的不同语义概率权重;其次,运用所有的语义概率加权词嵌入复合形成文本向量;最后,借助文本向量的多语义结构识别文本数据中的离群点,通过剔除离群点提升K-means算法的聚类性能。结果:多语义复合文本向量能够有效地去除冗余,突出文本的语义结构特征;实验表明,与其他文本聚类算法相比,本文提出的算法能够提高约3.57%~44.88%的聚类性能。结论:基于多语义复合表示模型的去离群点文本聚类算法具有更优性能。 展开更多
关键词 词嵌入 文本表示 文本聚类 K均值聚类 离群点
下载PDF
基于用户轨迹及基站语义的城市活动模式可视分析 被引量:3
18
作者 张兰云 蒋宏宇 +2 位作者 赵韦鑫 张红英 吴亚东 《计算机应用研究》 CSCD 北大核心 2021年第6期1884-1888,1893,共6页
移动运营商搭建的基站能够记录智能终端的活动,蕴涵着用户的移动行为以及基站的语义信息。针对城市中基站语义以及活动模式难以获取的问题,提出一种基于用户轨迹的基站语义及城市活动模式可视分析方法。该方法首先根据终端用户的轨迹构... 移动运营商搭建的基站能够记录智能终端的活动,蕴涵着用户的移动行为以及基站的语义信息。针对城市中基站语义以及活动模式难以获取的问题,提出一种基于用户轨迹的基站语义及城市活动模式可视分析方法。该方法首先根据终端用户的轨迹构建基站序列,接着采用文本分析中的词嵌入技术对基站语义信息进行提取,对城市中的手机用户进行聚类以发现其移动模式。为了帮助用户对结果进行探索和分析,设计了基于用户轨迹以及基站语义的城市活动模式可视分析系统,能够根据用户的轨迹特征、基站的地域特征、用户访问基站的时空特征,对手机用户的行为以及城市的活动模式进行发现和解释。基于真实数据的实验结果表明,在系统用户的迭代交互中该方法能够帮助系统用户有效地结合基站轨迹及其基站语义信息,对城市居民行为模式以及城市整体的活动模式进行探索。 展开更多
关键词 用户轨迹 基站语义 词嵌入 用户聚类 城市活动模式 可视分析
下载PDF
联合知识图谱和预训练模型的中文关键词抽取方法 被引量:2
19
作者 姚奕 杨帆 《计算机科学》 CSCD 北大核心 2022年第10期243-251,共9页
关键词表征了文本的主题,是文本概念和主题的凝练。通过关键词,读者可以快速了解文档表达的主旨和思想,从而提升信息检索效率;此外,关键词抽取也可以为自动摘要、文本分类提供支撑。近年来,自动抽取关键词的研究引起了广泛关注,但如何... 关键词表征了文本的主题,是文本概念和主题的凝练。通过关键词,读者可以快速了解文档表达的主旨和思想,从而提升信息检索效率;此外,关键词抽取也可以为自动摘要、文本分类提供支撑。近年来,自动抽取关键词的研究引起了广泛关注,但如何精准地抽取文档的关键词仍是一个挑战。一方面,关键词是人们主观的认识,判断一个词是否是关键词本身具有主观性;另一方面,中文词汇往往具有丰富的语义信息,单纯依赖传统统计特征和主题特征难以准确提炼文本所表达的主旨思想。针对中文关键词抽取中存在的准确率低、信息冗余和信息缺失等问题,提出了一种联合知识图谱和预训练模型的无监督关键词抽取方法。该方法首先利用预训练模型进行主题聚类,并通过一种以句子为单位的聚类方法保证最终选取的关键词对全文内容的覆盖度;同时,通过知识图谱进行实体链接,以此实现精准分词及歧义消除;然后,根据主题信息构建语义词图,并以此为基础计算词语间的语义权重;最后,通过加权的PageRank算法进行关键词排序。在DUC 2001和CSL两个公开数据集和一个单独标注的CLTS数据集上,以预测结果的准确率、召回率及F1值为指标进行对比实验。实验结果表明,该模型相比多种基线方法,准确率均有所提升,在CLTS数据集上与传统统计方法 TF-IDF相比F1值提高了9.14%,与传统图方法 TextRank相比F1值提高了4.82%。 展开更多
关键词 关键词抽取 知识图谱 句嵌入 聚类 图算法 预训练模型
下载PDF
基于异质信息嵌入与RNN聚类参数预测的作者姓名消歧方法 被引量:3
20
作者 王若琳 牛振东 +4 位作者 蔺奇卡 朱一凡 邱萍 陆浩 刘东磊 《数据分析与知识发现》 CSSCI CSCD 北大核心 2021年第8期13-24,共12页
【目的】针对传统方法利用文本特征提取或文章与合著者之间的关系信息,导致高阶特征缺失的问题,提出学术文献领域下的姓名消歧方法,用于区分拥有相同姓名的多个学者。【方法】提出一种名为论文嵌入网络(PaperEmbNet)的统一特征提取框架... 【目的】针对传统方法利用文本特征提取或文章与合著者之间的关系信息,导致高阶特征缺失的问题,提出学术文献领域下的姓名消歧方法,用于区分拥有相同姓名的多个学者。【方法】提出一种名为论文嵌入网络(PaperEmbNet)的统一特征提取框架,为每个作者姓名构建学术异质信息网络,并融合内容信息和关系信息。在此基础上,设计一种基于注意力机制的循环神经网络聚类参数预测算法(AR4CPM),进行同名作者聚类个数的预测,并基于该参数,使用层次凝聚聚类算法实现消歧。【结果】在AMiner-AND数据集上的实验结果表明,所提方法在Macro-F1评分上相比次优模型最大提升4.75百分点,平均训练时间较对比方法短5~10 min。【局限】需在多语种环境下进一步验证。【结论】基于异质信息嵌入与RNN聚类参数预测的消歧方法,借助构建的学术异质信息网络充分捕获论文的内容和关系特征,在作者姓名消歧任务上验证了其有效性。 展开更多
关键词 姓名消歧 学术异质信息网络 图嵌入 聚类
原文传递
上一页 1 2 5 下一页 到第
使用帮助 返回顶部