-
题名优先关联的Web日志数据逼真生成算法
被引量:2
- 1
-
-
作者
丘志鹏
肖如良
张锐
-
机构
福建师范大学软件学院
福建省公共服务大数据挖掘与应用工程研究中心
-
出处
《计算机系统应用》
2017年第3期126-133,共8页
-
基金
福建省科技计划重大项目(2016H6007)
-
文摘
字段关联的构建方法是Web数据逼真生成中的困难问题.提出一种基于MIC的字段优先关联的Web数据逼真生成算法.该算法与现有的方法完全不同:首先,提取真实Web日志数据集中相应字段间的MIC系数;然后,结合字段的重尾特性,采用SE分布对字段的重尾性进行建模;最后,建立字段关联模型,模拟出真实数据集中的字段间依赖性,从而逼真生成目标数据集.实验表明,生成的数据集能够保持合理的字段间的均衡性以及节点间的相似性.
-
关键词
字段关联
数据生成
MIC系数
重尾
-
Keywords
fields' relevance
data generation
maximal information coefficient
heavy tail
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-
-
题名从423字段看CNMARC书目格式中的数据关联
被引量:12
- 2
-
-
作者
王松林
-
机构
南京政治学院上海校区军事信息管理系
-
出处
《图书馆学刊》
2013年第2期1-4,共4页
-
文摘
针对《对合订题名文献著录方法的比较分析》一文中关于合订文献直接做CNMARC书目格式423字段的观点是一完全错误的做法,以及CNMARC书目格式423字段完全是一多余字段的论述予以回复,并呼吁国内编目界的同仁要重视CNMARC书目格式中的数据关联(含系统内的数据关联和系统间的数据关联)问题。
-
关键词
合订文献CNMARC书目格式423字段数据关联
-
分类号
G254.31
[文化科学—图书馆学]
-