基于频繁序列挖掘的文件系统缓存算法设计被引量：2

File system caching algorithm based on frequent sequence mining

下载PDF

导出

摘要传统缓存算法存在命中率低、交换率高等问题,且现有缓存算法在分布式大数据存储系统中并不适用,为此提出了一种基于频繁序列挖掘的自适应缓存策略。该方法使用数据挖掘算法挖掘历史访问窗口内的频繁序列,将频繁序列模糊合并后构建匹配模式集合以供查询。当新的访问来临时,将固定访问长度内的子序列与匹配模式集合进行匹配,然后根据匹配结果预取数据,同时结合修改后的S4LRU(4-segmented least recently used)数据结构进行缓存数据换出。在公开的大数据处理trace集上进行了仿真实验,实验结果表明,在不同的缓存大小下,提出算法与现有典型缓存算法相比,平均命中率提高了0.327倍,平均交换率降低了0.33倍,同时具有低开销和高时效的特点。此结果表明,该方法较传统替换算法而言是一个更为有效的缓存策略。 Traditional cache algorithms have problems such as low hit rate and high exchange rate. And the existing caching algorithm is not applicable in the distributed big data storage system. This paper proposed an adaptive caching strategy based on frequent sequence mining. This method used a data mining algorithm to mine the frequent sequences in the historical access window, and merged the frequent sequences to construct a set of matching patterns for query. When a new access coming, matched the subsequence within the fixed access length with the matching pattern set, and then prefetched the data according to the matching result, and combined with the modified S4 LRU(4-segmented least recently used) data structure for cache data exchange out. This paper conducted simulation experiments on the public big data processing trace set. The experimental results show that, under different cache sizes, compared with the existing typical cache algorithms, the proposed algorithm increases the average hit rate by 0.327 times and the average exchange rate reduces by 0.33 times, at the same time has the characteristics of low overhead and high time efficiency. This result shows that the proposed method is a more effective caching strategy than the traditional replacement algorithm.

作者杜科星张小芳张晓赵晓南 Du Kexing;Zhang Xiaofang;Zhang Xiao;Zhao Xiaonan b(College of Software,Northwestern Polytechnical University,Xi’an 710072,China;College of Computer,Northwestern Polytechnical University,Xi’an 710072,China)

机构地区西北工业大学软件学院西北工业大学计算机学院

出处《计算机应用研究》 CSCD 北大核心 2022年第3期831-835,共5页 Application Research of Computers

基金国家重点研发计划资助项目(2018YFB1004401) 北京市自然科学基金——海淀原始创新联合基金资助项目(L192027) 陕西省重点产业链项目(2021ZDLGY03-02,2021ZDLGY03-08)。

关键词缓存算法频繁序列挖掘分布文件系统优化 caching algorithm frequent sequence mining distributed file system optimization

分类号 TP3115 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献3

1陈友旭..分布式文件系统中元数据管理优化[D].中国科学技术大学,2019:
2钱能武,郭卫斌,范贵生.基于关联规则挖掘的分布式小文件存储方法[J].华东理工大学学报（自然科学版）,2016,42(5):708-714. 被引量：8
3于跃..基于Hadoop平台的并行化分布式关联规则挖掘算法研究[D].吉林大学,2017:

二级参考文献2

1鲍东星,李晓明.一种基于近似LRU算法的高缓方案[J].计算机工程,2007,33(9):272-274. 被引量：4
2陶利民,黄林鹏.Cherry:一种无须子集检查的闭合频繁集挖掘算法[J].软件学报,2008,19(2):379-388. 被引量：6

共引文献7

1刘君.基于Hadoop的海量小文件存储优化方法[J].厦门理工学院学报,2017,25(3):34-39. 被引量：1
2肖利群,杨开林.移动平台终端信息存储数据类型识别仿真[J].计算机仿真,2017,34(8):395-398. 被引量：3
3李玉涛,殷笑茹,马彬.气象云盘综合应用系统的设计与实现[J].计算机应用与软件,2018,35(9):38-43. 被引量：1
4王子炫,魏力,张育平.基于磁光虚拟存储系统的文件调度算法[J].计算机与现代化,2019(5):7-12. 被引量：1
5徐敏,胡聪,王萍,张翠翠,王鹏.基于软件定义存储的小文件性能优化研究[J].信息技术,2021,45(4):35-39. 被引量：1
6梁四香.浅析推荐系统的分类[J].科学技术创新,2021(32):66-68.
7丁世来,陈克澎,葛智君,李浩波,舒宁.多源试验数据重构与融合存储技术研究[J].电子产品可靠性与环境试验,2022,40(1):11-15. 被引量：4

同被引文献25

1罗惠隆.OTT持续解放视频产业新服务与竞合模式频现[J].卫星电视与宽带多媒体,2012(8):32-37. 被引量：3
2古福.OTT模式:广电野心膨胀[J].互联网周刊,2012(16):44-45. 被引量：3
3金梦玉,西晨.我国OTT TV的定位与转向——基于OTT TV概念、特性和国内外发展现状的考察[J].现代电视技术,2013(12):118-123. 被引量：3
4郑明钊,张建强.基于微服务的大平台系统架构演进探讨[J].软件,2017,38(12):165-169. 被引量：23
5栾书鹏,占亿民,冒海波,陈杰.TVOS应用商店系统建设项目[J].有线电视技术,2019,26(2):44-46. 被引量：1
6周骑骏,王鹏,汪卫.DSI:一种基于动态分段的时间序列查询索引[J].计算机工程,2020,46(2):88-95. 被引量：4
7陈雪,胡玉平.基于均衡数据放置策略的分布式网络存储编码缓存方案[J].计算机应用研究,2020,37(4):1194-1199. 被引量：3
8包翔,刘桂锋.基于特征包的数字图书馆图像检索系统框架设计及实证研究[J].图书馆杂志,2020,39(8):57-65. 被引量：5
9王欣,杜宝贵.国际科技政策研究进展与趋势——基于文献计量分析[J].科技管理研究,2020,40(23):48-56. 被引量：9
10顾芒芒,吴铭程.基于Spring Cloud实现任务调度微服务化的设计与实现[J].工业控制计算机,2021,34(3):117-119. 被引量：13

引证文献2

1宋舰,邓文科,徐崖洲.基于微服务化的智能电视足迹模块运营系统设计与开发[J].电视技术,2022,46(4):69-72.
2邓彬.基于分布式缓存的科技文献信息动态检索系统设计[J].电子设计工程,2024,32(7):87-91.

1孟海燕,王磊.高中生化学考试作答跳转模式序列挖掘的个案研究[J].化学教学,2022(2):78-82.
2李端超,王尉,张谢,肖家锴,陈家静.面向智慧能源的供需平衡数据可视化挖掘方法[J].信息技术,2022,46(2):161-166. 被引量：2
3陈新,石丽丽.坚守新闻理念创新党史传播--咸宁日报党史学习教育报道的实践与思考[J].新闻战线,2022(1):85-87.
4龚建锋.基于数据挖掘的云安全评估模型研究[J].电脑与电信,2021(11):95-98. 被引量：1
5王斌,杨志鹏,张文轩,王婧,汪海瑛.基于动车组3C装置的接触网缺陷诊断及分析方法研究[J].铁路技术创新,2021(6):75-82. 被引量：4
6林善乾.核心素养培育的历史中考复习策略[J].文理导航,2022(7):73-75.
7孙胜男.谈初中历史教学对学生“时空观”的培养[J].教育界,2021(51):92-94. 被引量：1
8于建韬.智慧旅游管理系统的分析与应用[J].佳木斯职业学院学报,2022,38(3):155-157. 被引量：5
9郭梦晓,林资政.澳门都市更新与活化研究--以风顺堂区为例[J].城市建筑空间,2022,29(1):183-185. 被引量：2
10陈景琪,丁凌.基于模式挖掘的智能楼宇能源消耗量预测方法[J].电子设计工程,2022,30(4):134-137. 被引量：2

计算机应用研究

2022年第3期

浏览历史

内容加载中请稍等...

基于频繁序列挖掘的文件系统缓存算法设计被引量：2

参考文献3

二级参考文献2

共引文献7

同被引文献25

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于频繁序列挖掘的文件系统缓存算法设计 被引量：2

参考文献3

二级参考文献2

共引文献7

同被引文献25

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于频繁序列挖掘的文件系统缓存算法设计被引量：2