期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
针对大规模动态图流三角形计数的边哈希分布式抽样算法
1
作者 何玉林 吴波 +2 位作者 吴定明 黄哲学 菲律普弗尼尔-维格 《计算机研究与发展》 EI CSCD 北大核心 2024年第8期1882-1903,共22页
三角形计数是大图分析的一个经典问题,近年的研究工作主要集中在针对静态流式图的三角形数量估计上,相关流式图抽样算法只能处理边的插入操作,无法处理边的删除操作;而现有的动态流式图抽样算法估计准确性又偏低.针对上述问题,提出了基... 三角形计数是大图分析的一个经典问题,近年的研究工作主要集中在针对静态流式图的三角形数量估计上,相关流式图抽样算法只能处理边的插入操作,无法处理边的删除操作;而现有的动态流式图抽样算法估计准确性又偏低.针对上述问题,提出了基于边哈希分配的分布式抽样(edge hashing assignmentbased distributed sampling,EHADS)算法,它是一个用于估计动态流式图中三角形数量的分布式流算法,可以快速准确地估计动态流式图中的全局三角形数量以及每个顶点的局部三角形数量.EHADS算法只对输入的图流进行1次处理,并在多台机器上对边进行抽样.与先进的单机流算法相比,EHADS算法具有2点优势:1)在相同样本容量的情况下,EHADS算法以更短的运行时间获得了更小的估计误差,估计全局三角形数量的误差平均降低了31.79%,估计局部三角形数量的误差平均降低了23.35%;2)EHADS算法能够提供流式图中三角形数量的无偏估计,并且严格的数学证明显示该无偏估计具有更小的方差. 展开更多
关键词 三角形计数 动态图流 边抽样 分布式流算法 边哈希分配
下载PDF
基于FLINK的滑动窗口内三角形计数算法研究 被引量:2
2
作者 王旭 杨晓春 《计算机科学》 CSCD 北大核心 2020年第10期83-90,共8页
三角形计数旨在计算图中全局三角形和局部三角形的数量,是图数据挖掘中的一类重要工作。三角形的数量被广泛应用于角色识别、推荐系统、社区发现、垃圾邮件和欺诈检测等领域。在以流形式给出的图中,边具有时间性,同时现实生活中的图存... 三角形计数旨在计算图中全局三角形和局部三角形的数量,是图数据挖掘中的一类重要工作。三角形的数量被广泛应用于角色识别、推荐系统、社区发现、垃圾邮件和欺诈检测等领域。在以流形式给出的图中,边具有时间性,同时现实生活中的图存在着大量的重复边。为充分利用图中的时间信息以挖掘网络知识,研究在多图流上计算滑动窗口内全局和局部三角形数量的问题,使用窗口机制同时研究多个窗口以利用隐含的时间关系获取更多信息。文中提出基于FLINK窗口操作的三角形计数算法和基于滑动窗口的三角形增量计数算法,以现有的边采样工作为基础,使用边集存储窗口历史数据实现一遍流计算,从而准确地计算面向多图流的滑动窗口内全局和局部三角形数量。基于FLINK窗口操作的三角形计数算法使用FLINK提供的窗口机制,基于滑动窗口的三角形增量计数算法,通过计算窗口滑入和滑出数据来实现窗口计数,避免了相邻两个窗口间重合边的大量重复计算,无缝地处理多个时间窗口,对于滑入和滑出数据中的重复数据,使用去重机制来进一步减小计算量。理论证明两种算法可以实现滑动窗口内三角形准确计数,并通过实验分析了窗口大小、滑动距离、数据分布和数据流速等因素对窗口处理时间的影响。与TRIEST算法相比,当窗口较小时,基于FLINK窗口操作的三角形计数算法和基于滑动窗口的三角形增量计数算法速度更快;当窗口较大时,保证了计算结果的准确性。 展开更多
关键词 三角形计数 滑动窗口 FLINK 图流挖掘 准确流算法
下载PDF
跨域环境下图流三角计数算法GTC
3
作者 曹春泽 马德龙 袁野 《计算机应用》 CSCD 北大核心 2023年第7期2040-2048,共9页
现有的分布式三角计数算法假设所有计算节点位于同一地理位置,然而现实中它们可能位于跨洲际的多个数据中心中。跨域分布的数据中心使用广域网连接,具有网络带宽异质、通信费用高昂、分布不均等特点,而现有分布式算法无法适用于跨域环... 现有的分布式三角计数算法假设所有计算节点位于同一地理位置,然而现实中它们可能位于跨洲际的多个数据中心中。跨域分布的数据中心使用广域网连接,具有网络带宽异质、通信费用高昂、分布不均等特点,而现有分布式算法无法适用于跨域环境。同时,现有研究较多采用随机采样、淘汰边等策略,忽略了三角形的形成具有时间局部性的特点。因此,研究了跨域环境中真实图流的三角计数问题并提出跨域三角计数(GTC)算法。首先针对现有边分发策略导致数据传输量过高的问题,提出一种跨域边分发策略,以结合通信的时间收益和数据收益建立收益公式,并使用点对点通信代替广播边;然后对于点对点通信在跨域环境中导致的三角形重复计数问题,提出终边计算规则,以确保无重复计数;最后基于时间加权采样算法提出时间加权三角计数算法,以利用三角形的时间局部性特点采样。在5个图流上把GTC与CoCoS(Conditional Counting and Sampling)、Tri-Fly进行对比的结果表明:GTC在通信数据量上比CoCoS减少了17%,比Tri-Fly减少了44%;在误差率上GTC比Tri-Fly减小了53%,略低于CoCoS;在算法运行时间上GTC比Tri-Fly减少了34%,略高于CoCoS。可见,GTC在保证较高准确率与较短算法运行时间的情况下,能有效减少通信数据量。 展开更多
关键词 跨域 图流 三角计数 近似计算 采样
下载PDF
复杂网络中基于采样的近似三角计数方法研究
4
作者 黄取治 张军朝 《计算机科学》 CSCD 北大核心 2015年第11期188-190,227,共4页
复杂网络中的三角计数可以用于分析网络的同质性和传递性。为了提高复杂网络中三角计数的性能,提出了一种基于采样的近似三角计数方法。首先,以一定的采样概率对网络中的边进行采样从而得到一个子网络,并在该子网络中统计三角的个数。其... 复杂网络中的三角计数可以用于分析网络的同质性和传递性。为了提高复杂网络中三角计数的性能,提出了一种基于采样的近似三角计数方法。首先,以一定的采样概率对网络中的边进行采样从而得到一个子网络,并在该子网络中统计三角的个数。其次,依据采样的概率思想,应用子网络中的三角个数估计原网络中的三角个数。最后,对采样方法的均值和方差进行了理论分析,并给出了由采样方法得到的加速比。理论分析与实验表明,与传统的节点迭代方法相比,提出的方法在保证高准确性的前提下大大提高了算法的运行效率,因而更适用于大规模网络中基于三角计数的相关应用。 展开更多
关键词 复杂网络 采样 三角计数 同质性 近似算法
下载PDF
微博中基于统计特征与双向投票的垃圾用户发现 被引量:11
5
作者 丁兆云 周斌 +1 位作者 贾焰 汪祥 《计算机研究与发展》 EI CSCD 北大核心 2013年第11期2336-2348,共13页
传统微博中垃圾用户发现主要依靠用户的显示统计特征.针对微博中关注网络的有向特性,给出了有向网络中局部三角形数量统计算法DirTriangleC,结合用户博文数量和局部三角形比例发现隐式垃圾用户;针对统计特征方法对垃圾用户误报和漏报的... 传统微博中垃圾用户发现主要依靠用户的显示统计特征.针对微博中关注网络的有向特性,给出了有向网络中局部三角形数量统计算法DirTriangleC,结合用户博文数量和局部三角形比例发现隐式垃圾用户;针对统计特征方法对垃圾用户误报和漏报的缺点,提出了基于统计特征与双向投票算法AttriBiVote,利用用户信任的双向传播与其邻居节点的统计特征共同决定用户类别.真实的Twitter数据集上验证了DirTriangleC和AttriBiVote算法的有效性,结果表明DirTriangleC算法能够发现约83.7%的"完全非活跃"状态的隐式垃圾用户,相对依靠显示统计特征方法增加了约2倍数量的疑似垃圾用户;同时AttriBiVote算法发现垃圾用户的数量和准确性均高于依靠统计特征的垃圾用户发现方法;最后实验分析了AttriBiVote算法的时间开销. 展开更多
关键词 垃圾用户 信任传播 三角形统计 微博 社会网络
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部