期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
Web大数据环境下的不一致跨源数据发现 被引量:24
1
作者 余伟 李石君 +4 位作者 杨莎 胡亚慧 刘晶 丁永刚 王骞 《计算机研究与发展》 EI CSCD 北大核心 2015年第2期295-308,共14页
Web中不同数据源之间的数据不一致是一个普遍存在的问题,严重影响了互联网的可信度和质量.目前数据不一致的研究主要集中在传统数据库应用中,对于种类多样、结构复杂、快速变化、数量庞大的跨源Web大数据的一致性研究还很少.针对跨源We... Web中不同数据源之间的数据不一致是一个普遍存在的问题,严重影响了互联网的可信度和质量.目前数据不一致的研究主要集中在传统数据库应用中,对于种类多样、结构复杂、快速变化、数量庞大的跨源Web大数据的一致性研究还很少.针对跨源Web数据的多源异构特性和Web大数据的5V特征,将从站点结构、特征数据和知识规则3个方面建立统一数据抽取算法和Web对象数据模型;研究不同类型的Web数据不一致特征,建立不一致分类模型、一致性约束机制和不一致推理代数运算系统;从而在跨源Web数据一致性理论体系的基础上,实现通过约束规则检测、统计偏移分析的Web不一致数据自动发现方法,并结合这两种方法的特点,基于Hadoop MapReduce架构提出了基于层次概率判定的Web不一致数据的自动发现算法.该框架在Hadoop平台上对多个B2C电子商务大数据进行实验,并与传统架构和其他方法进行了比较,实验结果证明该方法具有良好的精确性和高效性. 展开更多
关键词 web大数据 web数据挖掘 数据一致性 web数据管理 数据质量评估 跨源数据分析
下载PDF
Web大数据环境下的相似重复数据清理 被引量:14
2
作者 王闪 谭良 《计算机工程与设计》 北大核心 2017年第3期646-651,共6页
为对Web大数据环境下的相似重复冗余数据进行清理,降低数据存储与管理的时间和成本,提出Web大数据相似重复数据清理方法。对Web数据进行预处理,提出相似哈希的实现算法计算各数据信息的相似度,对于满足特定阈值的相似数据信息,保留其中... 为对Web大数据环境下的相似重复冗余数据进行清理,降低数据存储与管理的时间和成本,提出Web大数据相似重复数据清理方法。对Web数据进行预处理,提出相似哈希的实现算法计算各数据信息的相似度,对于满足特定阈值的相似数据信息,保留其中一个及其副本,其余数据信息保存该数据信息的地址。使用该方法在Hadoop平台上对多个网站的Web数据进行实验,实验结果表明,该方法具有良好的精确性及数据缩减效果。 展开更多
关键词 web大数据 重复数据删除 数据清理 相似哈希 数据质量评估
下载PDF
大数据环境下的电子商务商品实体同一性识别 被引量:11
3
作者 胡亚慧 李石君 +4 位作者 余伟 杨莎 甘琳 王凯 方其庆 《计算机研究与发展》 EI CSCD 北大核心 2015年第8期1794-1805,共12页
怎样从多源异构的、自治独立的、多样化的、不一致的电子商务数据中找出同一商品实体是当前面临的主要挑战.通过分析不同平台的数据特征,首先建立基于商品属性?值的索引模型,构造商品属性-值的全局模式图并进行模式集成,形成模式统一、... 怎样从多源异构的、自治独立的、多样化的、不一致的电子商务数据中找出同一商品实体是当前面临的主要挑战.通过分析不同平台的数据特征,首先建立基于商品属性?值的索引模型,构造商品属性-值的全局模式图并进行模式集成,形成模式统一、质量高效的商品信息数据;而后基于层次概率模型对商品的同一性进行多层相似度量;最终完成商品实体识别,并归一化输出满足同一性的商品集和关联属性并进行排序.基于Hadoop平台对3个B2C电子商务数据源中的商品进行了实验,并与传统方法和产品进行了比较,实验结果证明了本框架的可行性、精确性和高效性. 展开更多
关键词 web大数据 电子商务 层次概率模型 商品 HADOOP
下载PDF
湖南省城镇空间时空压缩特征及其可视化表达——基于时空图分析模型 被引量:11
4
作者 周恺 钱芳芳 邹宇 《地理科学进展》 CSCD 北大核心 2014年第12期1666-1675,共10页
本文构建了一个基于"时间-空间图(Time-Space Map)"的技术方法模型,用于分析交通网络建设给地理空间带来的时空压缩效应。现有基于可达性评价模型的"空间格局分析法"只能描述网络整体效率变化,而"等时圈分析法... 本文构建了一个基于"时间-空间图(Time-Space Map)"的技术方法模型,用于分析交通网络建设给地理空间带来的时空压缩效应。现有基于可达性评价模型的"空间格局分析法"只能描述网络整体效率变化,而"等时圈分析法"局限于节点分析,两者都无法完整展现区域时空压缩。本文集成了网络大数据抓取技术、统计分析技术和可视化技术,通过绘制"时空图"实现区域时空压缩的可视化。首先,该方法利用网络大数据抓取技术,通过网络地图路径导航服务获取距离数据矩阵;然后,运用多尺度分析方法(Multidimensional Scaling),用通行时间(距离)取代欧氏距离计算求得最佳拟合空间,并对拟合误差进行估算和检验。最后,将拟合空间与地理空间在三维空间中叠加,观察和分析拟合空间的拉伸、延展、扭曲效果,总结区域时空压缩整体特点。在此基础上,以湖南省为案例绘制出了各地县级城市在现状公路网联系下的通行距离和通行时间时空图。研究验证了时空图在区域时空压缩格局可视化上的有效性和直观性,并在解读时空图集聚、偏移和皱起的基础上,提出改善省内公路网络可达性均衡的政策建议。 展开更多
关键词 时间—空间图 多维尺度变换方法 大数据 交通可达性 时空压缩 可视化 湖南
原文传递
基于Web大数据挖掘的证券价格波动实时影响研究 被引量:8
5
作者 杨莎 余伟 +2 位作者 李石君 曹晶晶 刘晶 《计算机科学》 CSCD 北大核心 2015年第4期166-171,共6页
随着Web大数据的发展,互联网中海量、快捷的信息为证券市场变化预测提供了丰富的数据支撑,如何利用大数据分析技术进行实时可靠的证券市场价格变化预测成为重要的科学问题。从证券市场价格变化的核心价值问题研究出发,分析了股票价值所... 随着Web大数据的发展,互联网中海量、快捷的信息为证券市场变化预测提供了丰富的数据支撑,如何利用大数据分析技术进行实时可靠的证券市场价格变化预测成为重要的科学问题。从证券市场价格变化的核心价值问题研究出发,分析了股票价值所反映的基本面要求,建立了影响股票价值内涵和价格表现的10项准确可度量的特征因素:经济周期、财政政策、利率变动、汇率变动、物价变动、通货膨胀、政治政策、行业变化、经营状况、上下游影响等。在此基础上,构造互联网中信息内容与各个特征因素的提取方法、变化关系和影响模型,提出了针对大盘、行业、个股的互联网信息指标来反映Web数据对其的支撑程度,最终实现了基于Web大数据的综合特征因素度量来预测证券市场的方法。实验表明,该方法具有良好的可行性,将带来明显的学术和商业价值。 展开更多
关键词 数据挖掘 股票价格预测 web大数据
下载PDF
基于Simhash的大规模文档去重改进算法研究 被引量:8
6
作者 王诚 王宇成 《计算机技术与发展》 2019年第2期115-119,共5页
针对大规模文档去重算法Simhash存在的缺点和不足,提出一种改进的Simhash算法。首先从多个维度综合计算文档的相似度,包括文档内容、文档关键字、文档的标签、文档的引用文献等方面,定义一个新的公式用于计算文档相似度。其次改进Simhas... 针对大规模文档去重算法Simhash存在的缺点和不足,提出一种改进的Simhash算法。首先从多个维度综合计算文档的相似度,包括文档内容、文档关键字、文档的标签、文档的引用文献等方面,定义一个新的公式用于计算文档相似度。其次改进Simhash算法计算文档特征的方法,通过TF-IDF技术和单词的主题相关性综合计算单词的权重,TF-IDF技术用于计算一个关键词在一个文档集中的一篇文档的重要性,将专业术语词汇的长度统计函数作为判断单词主题相关性的依据。最后在检索步骤中采用哈希到桶的思想,此时出现分布不均匀的情况,为此设定一个阈值,当超过阈值时,对桶内的元素进行二次哈希,可以减少候选对的数量并且使分布更加均匀。实验结果表明,改进后的算法可以明显提高原Simhash算法的效率和准确率。 展开更多
关键词 web大数据 Simhash 近似文本检测 多维度 二次哈希
下载PDF
基于网络大数据的公众感知城市声环境研究 被引量:4
7
作者 肖禾 何小波 +4 位作者 金贤锋 何志明 曾攀 王馨怡 黄潇莹 《环境监测管理与技术》 CSCD 2020年第5期18-22,共5页
尝试基于网络大数据建立区域性公众意见收集及制图方法,分析城市声环境的时空变化特征及噪声来源组成。研究表明,公众对城市声环境的反馈意见集中在城市内部的成熟地区,随着向城市外部延伸而降低,热点地区在空间分布上呈现年纪间变化的... 尝试基于网络大数据建立区域性公众意见收集及制图方法,分析城市声环境的时空变化特征及噪声来源组成。研究表明,公众对城市声环境的反馈意见集中在城市内部的成熟地区,随着向城市外部延伸而降低,热点地区在空间分布上呈现年纪间变化的特征。定量化识别公众认为的城市3大噪声来源,包括工地施工(74.45%)、生产加工(13.94%)、机器运行(3.29%)。公众对夜晚城市声环境更加敏感,感知的夜间噪声占比(85.26%)显著高于白天,在22:00公众感知噪声量快速升高并达到峰值。 展开更多
关键词 城市声环境 网络大数据 公众参与 地理信息 重庆
下载PDF
Hadoop平台下加权马氏距离的Web大数据分析研究 被引量:2
8
作者 王艳洁 范存群 《电视技术》 2018年第11期67-71,共5页
Web大数据具有数据量大、数据异构性强、挖掘难度大等问题,针对如何提高Web大数据聚类分析准确性并保证数据分析的时效性,本文提出一种基于Hadoop平台和加权马氏距离的Web大数据分析方法。该方法在基于Hadoop平台架构上首先对Web大数据... Web大数据具有数据量大、数据异构性强、挖掘难度大等问题,针对如何提高Web大数据聚类分析准确性并保证数据分析的时效性,本文提出一种基于Hadoop平台和加权马氏距离的Web大数据分析方法。该方法在基于Hadoop平台架构上首先对Web大数据进行预处理和数据切片,然后通过计算得到方差贡献率并作为马氏距离计算的权重,最后通过加权马氏距离计算对数据判定聚类。仿真实验表明,所提方法可以有效地保证Web大数据聚类分析的准确性并具有较高的时效性。 展开更多
关键词 HADOOP平台 web大数据 加权马氏距离 数据处理 方差贡献率 判定聚类
下载PDF
Web大数据系统数据源选择
9
作者 刘正涛 王建东 《计算机科学与探索》 CSCD 北大核心 2018年第3期360-369,共10页
如何从数量众多的Web数据源集合中选择数量合适的数据源,使得在满足特定查询需求的前提下尽可能地减少访问数据源的数量,是Web大数据系统集成中的关键问题之一。提出了一个两阶段数据源选择方案:第一阶段通过各个数据源模式与中间模式... 如何从数量众多的Web数据源集合中选择数量合适的数据源,使得在满足特定查询需求的前提下尽可能地减少访问数据源的数量,是Web大数据系统集成中的关键问题之一。提出了一个两阶段数据源选择方案:第一阶段通过各个数据源模式与中间模式的相似度选择与查询相关度高的数据源,通过计算依赖数据源的质量来选取质量较好的数据源;第二阶段基于最大熵理论计算数据源之间的重复率,设计实现了一个查询最小代价模型动态选择数据源算法。最后在实验平台上对算法进行了评估,实验表明该算法具有较高的效率与扩展性。 展开更多
关键词 web 大数据 数据源选择 数据源质量 数据源依赖
下载PDF
Web大数据环境下的P-信息聚合及动态分离
10
作者 尤垂桔 邱锦明 《武夷学院学报》 2018年第6期69-74,共6页
针对Web大数据环境下数据来源分散、数据量大、类型多样、噪声大、价值密度低等特征,利用P-集理论,给出Web信息元的聚合度量,提出P-信息聚合体的概念,对P-信息聚合体的性质进行讨论,给出了P-信息聚合体的生成算法,对Web大数据进行主题聚... 针对Web大数据环境下数据来源分散、数据量大、类型多样、噪声大、价值密度低等特征,利用P-集理论,给出Web信息元的聚合度量,提出P-信息聚合体的概念,对P-信息聚合体的性质进行讨论,给出了P-信息聚合体的生成算法,对Web大数据进行主题聚合,提高Web大数据的利用效率及应用价值。 展开更多
关键词 web大数据 P-集合 P-信息聚合体
下载PDF
Web网络大数据的聚类中心调度技术研究 被引量:8
11
作者 肖铮 董祥千 赵文革 《现代电子技术》 北大核心 2017年第24期25-27,共3页
针对传统调度方法一直存在调度精度不准确的问题,提出一种Web网络大数据的聚类中心调度技术的研究方案。针对Web网络大数据重新建立调度模型有效的对数据进行识别,优化聚类中心的K-means算法,解决对大数据调度能力差的问题,提高聚类中... 针对传统调度方法一直存在调度精度不准确的问题,提出一种Web网络大数据的聚类中心调度技术的研究方案。针对Web网络大数据重新建立调度模型有效的对数据进行识别,优化聚类中心的K-means算法,解决对大数据调度能力差的问题,提高聚类中心的大数据调度能力,最后使用建立调度模型完成在Web网络大数据环境下的聚类中心数据调度。设计对比仿真试验,通过实验数据可以有效地证明Web网络大数据的聚类中心调度技术的有效性。 展开更多
关键词 web网络大数据 聚类中心 调度技术 数据识别 数据调度
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部