期刊文献+
共找到9篇文章
< 1 >
每页显示 20 50 100
大数据环境下Web数据源质量评估方法研究 被引量:19
1
作者 赵星 李石君 +3 位作者 余伟 杨莎 丁永刚 胡亚慧 《计算机工程》 CAS CSCD 北大核心 2017年第2期48-56,共9页
在大数据环境下Web数据资源的开放性和多源性使得不同互联网平台提供的数据质量参差不齐,严重影响人们从互联网中有效准确地获取信息。为此,提出一种Web数据源质量评估方法。建立面向多源互联网平台的统一数据模型和数据质量标准模型,... 在大数据环境下Web数据资源的开放性和多源性使得不同互联网平台提供的数据质量参差不齐,严重影响人们从互联网中有效准确地获取信息。为此,提出一种Web数据源质量评估方法。建立面向多源互联网平台的统一数据模型和数据质量标准模型,给出针对大数据全样本数据分析的质量标准度量和表示方法,并通过多维数据质量的综合评估实现Web数据源质量的统一度量。实验结果表明,该方法能全面度量互联网平台的数据质量,为用户提供准确高效的质量评价结果。 展开更多
关键词 大数据 web数据源 数据质量评估 全样本分析 MAPREDUCE框架
下载PDF
Web数据源选择技术 被引量:16
2
作者 万常选 邓松 +3 位作者 刘喜平 廖国琼 刘德喜 江腾蛟 《软件学报》 EI CSCD 北大核心 2013年第4期781-797,共17页
在Web数据集成的过程中,如何从大量的Web数据源集合中选择合适数量的数据源,使得在满足特定查询需求的前提下尽可能地减少所需访问的数据源数量,同时保持返回数据结果的高质量,成为Web数据集成中的一个热点问题.以近十几年的研究实践为... 在Web数据集成的过程中,如何从大量的Web数据源集合中选择合适数量的数据源,使得在满足特定查询需求的前提下尽可能地减少所需访问的数据源数量,同时保持返回数据结果的高质量,成为Web数据集成中的一个热点问题.以近十几年的研究实践为背景,介绍Web数据源选择的研究沿革及现状,并对Web数据源选择方法进行了归类.分别讨论了基于相关性的和基于质量的数据源选择的研究动机、研究方法和研究成果等,并对相关研究的目标、关键技术、优点和缺点进行了对比分析;最后展望了Web数据源选择未来的研究方向. 展开更多
关键词 数据集成 web数据源 文本 结构化与半结构化 源摘要
下载PDF
基于HITS的冲突Deep Web数据多真值发现算法 被引量:5
3
作者 王继奎 李少波 《计算机工程》 CAS CSCD 北大核心 2016年第9期158-162,共5页
目前多数真值发现算法建立在真值唯一的基础上,无法处理多真值的情况。为此,针对冲突Deep Web数据的多真值发现问题,借鉴HITS算法思想,定义视图权威度与视图描述可信度,两者相互影响。在此基础上,定义视图链接关系图,提出多真值迭代发... 目前多数真值发现算法建立在真值唯一的基础上,无法处理多真值的情况。为此,针对冲突Deep Web数据的多真值发现问题,借鉴HITS算法思想,定义视图权威度与视图描述可信度,两者相互影响。在此基础上,定义视图链接关系图,提出多真值迭代发现算法MTF。当算法收敛时,权威度最大的视图就是真值。在Book-Authors数据集上进行实验,结果表明,与基准算法VOTE相比,MTF算法的精确度大幅提高。 展开更多
关键词 web数据源 数据模型 可信度 视图 真值发现
下载PDF
交通事故点相关道路线形Web数据获取 被引量:1
4
作者 南春丽 史潇 裴勃丽 《应用科技》 CAS 2017年第6期36-40,共5页
目前交通数据存在信息孤岛问题,基础数据不公开,科研人员一般通过现场实测的方式获取。为了方便研究人员采集数据以及扩大样本量,论文给出了一种Web数据获取方法。交通事故与道路线形相关性研究需要分别获取事故点文字信息和相关道路线... 目前交通数据存在信息孤岛问题,基础数据不公开,科研人员一般通过现场实测的方式获取。为了方便研究人员采集数据以及扩大样本量,论文给出了一种Web数据获取方法。交通事故与道路线形相关性研究需要分别获取事故点文字信息和相关道路线形空间数据,然后整合。采用Deep Web数据采集方法,获取交通事故点文字描述。针对国内地图中文语义识别较好但坐标加密,国外开源平台中文语义识别较弱但数据公开的特点,给出了将两者优点相结合的方法,通过建立国内地图和国外开源平台坐标映射关系,调用地图和平台接口,获取事故点相关道路数据。根据自动机理论,建立了状态可选的自动机模型,便于从异构的事故点相关数据源中提取道路线形数据。通过获取北京市交通事故Web数据,验证了方法的正确性和实用性,道路线形拟合结果与实际基本一致,符合线形研究的基本要求。 展开更多
关键词 数据处理 web数据获取 交通事故 道路线形 语义识别 异构数据 开源平台 自动机模型
下载PDF
两种Web数据源动态连接方法的比较 被引量:1
5
作者 童红兵 《江西科技师范学院学报》 2003年第5期135-136,共2页
介绍了利用OLEDB、ODBC连接Web数据源的两种方法,系统分析比较两种连接方法优缺点。
关键词 web数据源 ADO OLE-DB ODBC 动态连接方法 数据库 数据访问 数据接口
下载PDF
A Dynamic XML-NS View Based Approach for the Extensible Integration of Web Data Sources
6
作者 WUWei LUZheng-ding LIRui-xuan WANGZhi-gang 《Wuhan University Journal of Natural Sciences》 EI CAS 2004年第5期647-651,共5页
We propose a three-step technique to achieve this purpose. First, we utilize a collection of XML namespaces organized into hierarchical structure as a medium for expressing data semantics. Second, we define the format... We propose a three-step technique to achieve this purpose. First, we utilize a collection of XML namespaces organized into hierarchical structure as a medium for expressing data semantics. Second, we define the format of resource descriptor for the information source discovery scheme so that we can dynamically register and/or deregister the Web data sources on the fly. Third, we employ an inverted-index mechanism to identify the subset of information sources that are relevant to a particular user query. We describe the design, architecture, and implementation of our approach—IWDS, and illustrate its use through case examples. Key words integration - heterogeneity - Web data source - XML namespace CLC number TP 311.13 Foundation item: Supported by the National Key Technologies R&D Program of China(2002BA103A04)Biography: WU Wei (1975-), male, Ph.D candidate, research direction: information integration, distribute computing 展开更多
关键词 INTEGRATION HETEROGENEITY web data source XML namespace
下载PDF
基于XML和ASP的Web信息集成方法研究 被引量:4
7
作者 缪刘俊 《南通工学院学报(自然科学版)》 2003年第1期62-66,共5页
文章介绍了基于XML和ASP的Web信息集成技术,并就Web信息集成的几个重要问题进行了阐述。随着Web搜索引擎和数据挖掘的迅速发展,该技术将会得到更大的发展。
关键词 XML ASP web 信息集成 搜索引擎 数据挖掘 可扩展标识语言 网络 数据管理
下载PDF
使用双层分类器在垂直搜索中自动识别交互式查询接口
8
作者 王琳 王行甫 杜云开 《小型微型计算机系统》 CSCD 北大核心 2016年第6期1138-1142,共5页
一框式检索功能普遍提供于各类互联网信息门户的首页,由于需要交互式操作以及返回页面仅包含与用户所提交关键字相关的查询结果等原因,较少受到传统搜索引擎的关注.但是在垂直搜索中,若能够有效利用远程服务器自带的站内检索功能,将在... 一框式检索功能普遍提供于各类互联网信息门户的首页,由于需要交互式操作以及返回页面仅包含与用户所提交关键字相关的查询结果等原因,较少受到传统搜索引擎的关注.但是在垂直搜索中,若能够有效利用远程服务器自带的站内检索功能,将在显著降低本地计算资源和带宽消耗的同时,提高查全和查准率.提出并实现了一种用于在主题相关的页面采集过程中自动定位交互式查询接口的双层分类器.针对8个不同领域主题的规模化实验显示,该分类器能够准确过滤非相关域名和非可查表单,实现搜索接口的有效识别. 展开更多
关键词 垂直搜索 查询接口识别 表单特征分类 HTML解析 支持向量分类 决策树
下载PDF
基于领域特征和用户查询取样的Deep Web数据源描述方法
9
作者 袁国华 寇晶晶 李芳 《图书情报工作》 CSSCI 北大核心 2017年第15期138-145,共8页
[目的/意义]数据源描述(又称数据源摘要)是Deep Web集成检索领域存在的关键问题之一,数据源描述的质量直接影响着集成检索系统的检索效率和效果。本文提出一种基于领域特征和用户查询取样的数据源描述方法,以期为非合作环境下资源集成... [目的/意义]数据源描述(又称数据源摘要)是Deep Web集成检索领域存在的关键问题之一,数据源描述的质量直接影响着集成检索系统的检索效率和效果。本文提出一种基于领域特征和用户查询取样的数据源描述方法,以期为非合作环境下资源集成应用与研究提供参考和借鉴。[方法/过程]该方法为异构非合作型数据源的离线取样方法,通过分析数据源和用于查询的领域主题属性,依次构建领域特征词集、初始特征词集和高频特征词集,并最终获得以高频特征词查询取样的数据源描述信息。结合流行的CORI算法,深入分析基于推理网络的用户查询与数据源描述的相关度计算方法,并基于此方法设计基于Lemur工具集的集成检索系统,验证了上述方法的有效性。[结果/结论]所提方法在查全率和查准率方面均得到很好的表现。与其他方法相比,该方法在样本数据自动更新和运维管理方面具有明显成本优势和实用价值。 展开更多
关键词 深层网络 数据源描述 查询取样 推理网络
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部