期刊文献+
共找到128篇文章
< 1 2 7 >
每页显示 20 50 100
高安全等级安全操作系统的隐蔽通道分析 被引量:31
1
作者 卿斯汉 《软件学报》 EI CSCD 北大核心 2004年第12期1837-1849,共13页
总结隐蔽通道分析的30年研究进展,根据理论研究与工程实践,说明隐蔽通道及其分析的本质与内涵,指出隐蔽通道分析方法在实际系统中的重要应用,并展望这一领域的若干热点研究方向.
关键词 安全操作系统 隐蔽通道分析 信息流 存储通道 定时通道
下载PDF
面向 G I S 数据共享的概念模型设计研究 被引量:13
2
作者 陈常松 何建邦 《遥感学报》 EI CSCD 1999年第3期230-235,共6页
  G I S 数据共享的主要问题是数据的语义共享。在数据共享的保障基础———技术基础、标准化体系及政策法规体系中,标准化工作最为直接,而其中面向数据共享的概念模型的设计又是最基础性的工作之一。面向数据共享的概念模型设计...   G I S 数据共享的主要问题是数据的语义共享。在数据共享的保障基础———技术基础、标准化体系及政策法规体系中,标准化工作最为直接,而其中面向数据共享的概念模型的设计又是最基础性的工作之一。面向数据共享的概念模型设计的主要任务是寻求一种规范化、标准化的约束法则来保障数据的共享,为了保障数据共享的安全性,所设计的概念模型应能提供用于共享的抽象概念,这些抽象概念所描述的是地理概念而非纯空间概念,并应能提供语义抽象机制。采用语义数据模型的方法,提出利用地理特征这一概念作为建模的基本概念。通过一个实例对其应用进行了初步探讨。 展开更多
关键词 数据共享 语义共享 概念模型 GIS
下载PDF
面向服务的知识发现体系结构研究与实现 被引量:16
3
作者 杨立 左春 王裕国 《计算机学报》 EI CSCD 北大核心 2005年第4期445-457,共13页
知识发现服务(Knowledge Discovery Service,KDS)作为一种数据、计算、语义密集型的高层服务应用,用户通常需要具备非常全面的知识才能正确使用.如何实现一个面向最终用户的、智能的、有质量保证的 KDS架构面临很多困难.现有的研究提出... 知识发现服务(Knowledge Discovery Service,KDS)作为一种数据、计算、语义密集型的高层服务应用,用户通常需要具备非常全面的知识才能正确使用.如何实现一个面向最终用户的、智能的、有质量保证的 KDS架构面临很多困难.现有的研究提出了利用数据挖掘本体和预测执行时间的方法来帮助用户选择正确并且高质量的 KDS.但是数据挖掘本体只是对数据挖掘的方法进行枚举,无法保证服务的质量,而预测执行时间的方法不能体现KDS本身的特点,因而难以获得满意的服务效果.为了更有效地辅助最终用户在面向服务的体系结构(Service OrientedArchitecture,SOA)上自助地实现知识发现应用,该文提出了一种新的面向服务的知识发现体系结构——SOA4KD,将用户的知识发现需求分为内容需求和质量需求,并提出了扩展的知识发现任务本体 EKDTO,以自然语言的方式进行用户意图获取;在考虑到KDS的服务特性的前提下,充分分析了KDS自身的特点,提出了KDS质量本体KDSQO,采用元学习来进行选择最适合的KDS.相对于目前的体系结构,提出了为最终用户提供高质量知识发现服务的一些新方法和技术,为面向服务的知识发现系统设计与实现提供了一个新的参考模型. 展开更多
关键词 知识发现 面向服务的体系结构 自然语言界面 质量 本体 元学习
下载PDF
大数据的语义、特征与本质 被引量:32
4
作者 黄欣荣 《长沙理工大学学报(社会科学版)》 2015年第6期5-11,共7页
大数据是一个热门词汇,但大数据究竟是什么?目前学术界和产业界都比较模糊。从混乱的语义中做出语义分析,并从基本特征、哲学本质中进一步揭示大数据的涵义,这些工作对大数据技术的发展以及大众对大数据的理解都具有重要的意义。
关键词 大数据 语义 特征 本质
下载PDF
时态变量“Now”语义及相应时态关系运算 被引量:18
5
作者 叶小平 汤庸 《软件学报》 EI CSCD 北大核心 2005年第5期838-845,共8页
讨论了时态变量“Now”的基本语义,即Now不仅可以表示当前时间,还能表示过去时间和将来时间.在语义分析的基础上,讨论了带变量时态关系运算中需要解决的基本问题,即变量Now值的确定问题,研究了相应时态关系数据操作,建立了带变量时态关... 讨论了时态变量“Now”的基本语义,即Now不仅可以表示当前时间,还能表示过去时间和将来时间.在语义分析的基础上,讨论了带变量时态关系运算中需要解决的基本问题,即变量Now值的确定问题,研究了相应时态关系数据操作,建立了带变量时态关系代数系统. 展开更多
关键词 时态变量语义 时间变量值确定 带变量时态关系代数系统
下载PDF
我国法律文本中的“数据”:语义、规范及其谱系 被引量:24
6
作者 张红 《比较法研究》 CSSCI 北大核心 2022年第5期61-74,共14页
我国既有法律文本中的“数据”具有对客观事物的记录、现代信息技术中的符号、现代信息技术的专称三种语义类型。法律文本中的“数据”词性不明、内涵不清、外延不定,使数据规范对数据要素市场培育发展之保障功能无法充分彰显。通过辨... 我国既有法律文本中的“数据”具有对客观事物的记录、现代信息技术中的符号、现代信息技术的专称三种语义类型。法律文本中的“数据”词性不明、内涵不清、外延不定,使数据规范对数据要素市场培育发展之保障功能无法充分彰显。通过辨析数据与数字、数据与信息技术、数据与信息的法律内涵,原“数据”的“本然之理”,“数据”定义应为以数字、文本、音像、信息技术符号或其他形态为载体对客观事物的记录。数据法治的价值目标与数据生命周期理论是构建数据法治谱系的思考范式,梳理数据法治谱系的重要维度可以展现不同阶段数据法治的规制脉络。 展开更多
关键词 数据 法律文本 语义 法治谱系
原文传递
基于局部主题判定与抽取的多文档文摘技术 被引量:10
7
作者 秦兵 刘挺 李生 《自动化学报》 EI CSCD 北大核心 2004年第6期905-910,共6页
提出了一个通过对同一主题的多文档集合内局部主题的判定和抽取生成多文档文摘的方法.首先在对多文档集合中句子依存分析和语义分析的基础上进行相似度计算,将相似句子经过聚类形成多文档集合内不同的局部主题,然后进行每个局部主题... 提出了一个通过对同一主题的多文档集合内局部主题的判定和抽取生成多文档文摘的方法.首先在对多文档集合中句子依存分析和语义分析的基础上进行相似度计算,将相似句子经过聚类形成多文档集合内不同的局部主题,然后进行每个局部主题中质心句的抽取和排序,生成多文挡文摘.该方法实现了文摘长度随文档内容自动确定,从而保证了文摘中包含的信息的全面和简洁.最后文中还给出了多文档文摘的评价方法和实验结果,文摘的平均精确率和平均压缩率分别为71.4%和25.2%. 展开更多
关键词 多文档文摘 局部主题 聚类
下载PDF
卫生信息标准化:从整理数据元到构建语义模型 被引量:18
8
作者 刘丹红 王霞 +1 位作者 徐勇勇 杨喆 《中国卫生信息管理杂志》 2012年第4期7-12,共6页
以数据采集、汇总和统计分析为主要目的的卫生信息标准化始于数据项的整理,是在特定应用背景上为数据建立统一、规范的定义和表示。为了实现信息共享和语义互操作,数据标准化需要在通用背景上构建语义模型,通过建立类的层次结构、定义... 以数据采集、汇总和统计分析为主要目的的卫生信息标准化始于数据项的整理,是在特定应用背景上为数据建立统一、规范的定义和表示。为了实现信息共享和语义互操作,数据标准化需要在通用背景上构建语义模型,通过建立类的层次结构、定义类的属性、规范数据类型,提炼出通用的数据元素,并在模型的框架下,制定出脱离特定应用背景的标准化数据定义和表示方法。这种标准化方法有利于建立和完善卫生信息标准体系,可促进数据标准的有序性、稳定性、可维护性和标准化工作的可持续性。我国卫生信息标准化可在总结和借鉴的基础上,逐步将重点从形式(具体的数据)转移到内容(抽象的语义),实现从整理数据到规范语义的过渡。 展开更多
关键词 标准化 卫生信息 数据元 语义 信息模型
下载PDF
训诂学与解释学之比较——兼及训诂学当代发展的途径 被引量:14
9
作者 杜敏 《陕西师范大学学报(哲学社会科学版)》 CSSCI 北大核心 2003年第6期38-44,共7页
西方解释学与中国训诂学有共同的起因。在历史发展中,解释学于当代成为流行的哲学思潮,而训诂学却面临时代的挑战。二者的差异在于解释学更善于更新,不断扩大学科影响。训诂学应不断更新观念,运用科学方法,走多向的现代化发展之路。
关键词 解释学 训诂学 古典文献 语义学
下载PDF
不平衡数据挖掘在分布式数据库中的应用 被引量:11
10
作者 张滨 《控制工程》 CSCD 北大核心 2018年第7期1179-1183,共5页
为了提高数据库的访问能力和信息检索能力,需要对分布式实时数据库中的不平衡类数据进行有效挖掘,针对当前的Web索引挖掘算法精度较低的问题,提出一种基于语义指向性数据聚类的不平衡类数据挖掘方法,首先进行了分布式实时数据库的存储... 为了提高数据库的访问能力和信息检索能力,需要对分布式实时数据库中的不平衡类数据进行有效挖掘,针对当前的Web索引挖掘算法精度较低的问题,提出一种基于语义指向性数据聚类的不平衡类数据挖掘方法,首先进行了分布式实时数据库的存储机制和数据结构分析,然后进行不平衡类数据的时间序列拟合,采用滤波降噪算法进行干扰信息和冗余信息滤除,采用语义特征提取和指向性数据聚类方法实现数据挖掘和聚类处理。最后进行仿真实验分析,结果表明,采用该数据挖掘算法具有较高的精度,抗干扰能力较强,提高了对分布式实时数据库的访问和安全管理能力。 展开更多
关键词 分布式实时数据 数据挖掘 语义 特征提取
下载PDF
基于多源数据的旅游者视觉行为模式与感知评估方法 被引量:10
11
作者 李渊 郭晶 陈一平 《地球信息科学学报》 CSCD 北大核心 2022年第10期2004-2020,共17页
用户生成内容(User Generated Content,UGC)作为感知旅游地物质空间的新型地理大数据,以使用者的视角描绘了旅游地的客观环境,是探索旅游目的地感知的重要途径。然而,传统的旅游研究对旅行摄影照片处理能力有限,深度学习图像语义分割技... 用户生成内容(User Generated Content,UGC)作为感知旅游地物质空间的新型地理大数据,以使用者的视角描绘了旅游地的客观环境,是探索旅游目的地感知的重要途径。然而,传统的旅游研究对旅行摄影照片处理能力有限,深度学习图像语义分割技术的发展,为挖掘旅游者视觉行为模式,探索旅游地环境感知提供了有力支持。本研究提出了整合在线旅行照片大数据与问卷调查小数据的旅游者视觉行为模式与感知评估框架,并将其应用于鼓浪屿案例。首先将744条旅游轨迹,聚类为6类视觉行为模式,并可视化与时空分析;其次基于全卷积网络算法,量化22507张旅行照片语义,探索不同视觉模式的旅游者关注要素的空间分异;最后通过照片语义与场景感知问卷调查的相关性分析和多重线性回归模型,评估旅游地整体视觉感知满意度,并提出相应的空间优化建议。研究表明:①鼓浪屿旅游者视觉行为模式聚类为单点游、海岛风光游、环岛游、街巷空间游、遗产建筑游和全岛游6类;②不同视觉行为模式的旅游者视觉兴趣区存在空间集聚现象,视觉空间转移遵循地理邻近效应;③相关性分析与模型结果表明,旅游者偏好空间开敞度较高的区域,感知满意度越低的区域摄影行为越少,是环境提升的重点;④出行时间和成本效率最大化、建成环境、心理环境与社会环境是影响旅游者视觉感知的主要因素。本研究延伸了人工智能技术在旅游者视觉感知研究中的应用,为旅游地空间优化提供参考。 展开更多
关键词 UGC数据 视觉行为模式 感知评估 旅行摄影 轨迹聚类 深度学习 场景语义 鼓浪屿
原文传递
数据交换中的数据格式转换 被引量:1
12
作者 郝亚南 陈少飞 李天柱 《河北大学学报(自然科学版)》 CAS 2003年第2期215-220,共6页
随着Web应用的迅速发展 ,如何进行Web上各系统之间的数据交换成为一个十分重要的问题 .其中的核心是Web上的各种数据格式之间的相互转换 .本文以XML作为数据交换的中介 ,从语法和语义 2个角度出发 ,分析和比较了现有Web上的HTML ,Word及... 随着Web应用的迅速发展 ,如何进行Web上各系统之间的数据交换成为一个十分重要的问题 .其中的核心是Web上的各种数据格式之间的相互转换 .本文以XML作为数据交换的中介 ,从语法和语义 2个角度出发 ,分析和比较了现有Web上的HTML ,Word及PDF的数据格式以及它们同XML之间的相互转换技术 . 展开更多
关键词 格式交换 XML HTML WORD PDF 语法 语义
下载PDF
Tag clustering algorithm LMMSK: improved K-means algorithm based on latent semantic analysis 被引量:7
13
作者 Jing Yang Jun Wang 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 2017年第2期374-384,共11页
With the wide application of Web-2.0 and social software, there are more and more tag-related studies and applications. Because of the randomness and the personalization in users' tagging, tag research continues t... With the wide application of Web-2.0 and social software, there are more and more tag-related studies and applications. Because of the randomness and the personalization in users' tagging, tag research continues to encounter data space and semantics obstacles. With the min-max similarity (MMS) to establish the initial centroids, the traditional K-means clustering algorithm is firstly improved to the MMSK-means clustering algorithm, the superiority of which has been tested; based on MMSK-means and combined with latent semantic analysis (LSA), here secondly emerges a new tag clustering algorithm, LMMSK. Finally, three algorithms for tag clustering, MMSK-means, tag clustering based on LSA (LSA-based algorithm) and LMMSK, have been run on Matlab, using a real tag-resource dataset obtained from the Delicious Social Bookmarking System from 2004 to 2009. LMMSK's clustering result turns out to be the most effective and the most accurate. Thus, a better tag-clustering algorithm is found for greater application of social tags in personalized search, topic identification or knowledge community discovery. In addition, for a better comparison of the clustering results, the clustering corresponding results matrix (CCR matrix) is proposed, which is promisingly expected to be an effective tool to capture the evolutions of the social tagging system. © 2017 Beijing Institute of Aerospace Information. 展开更多
关键词 Application programs data mining MATLAB semantics Social networking (online) WEBSITES
下载PDF
基于深度学习和同生矩阵的SAR图像纹理特征检索方法 被引量:8
14
作者 彭金喜 苏远歧 薛笑荣 《计算机科学》 CSCD 北大核心 2019年第B06期196-199,204,共5页
由于合成孔径雷达图像(SAR)存在相干斑噪声,采用传统的SAR图像解译工作相当复杂,且传统SAR图像检索方法获得的图像纹理精度和视觉效果不佳。由于SAR图像包含的信号和噪声分布以及纹理信息非常丰富,为了提高SAR图像的检索效率,根据图像... 由于合成孔径雷达图像(SAR)存在相干斑噪声,采用传统的SAR图像解译工作相当复杂,且传统SAR图像检索方法获得的图像纹理精度和视觉效果不佳。由于SAR图像包含的信号和噪声分布以及纹理信息非常丰富,为了提高SAR图像的检索效率,根据图像的视觉特征提出一种图像检索方法,以改善图像的视觉效果,方便人工直觉观察纹理特征信息;由此,采用深度学习方法,结合模糊理论和神经网络的优点来改善图像处理的性能。首先,根据图像像素单元的统计特征和模糊神经网络语义,提出了一种高效的基于图像纹理特征和深度语义分析的方法,对图像纹理风格优势进行数据语义匹配归类;然后,根据语义特征的特性提出一种检索方法。首先,利用深度数据语义聚类提取SAR图像的纹理特征,然后根据同生矩阵方法对SAR图像进行特征分析;最后,利用深度方法对SAR图像的纹理特征和滤波后的灰度组成的矢量进行检索,进而对图像单元归类。实验结果表明,该方法在SAR图像检索方面能取得较好的效果,且视觉效果和分析效率得到较好的提高,便于分析和应用;而且该方法能抑制相干斑噪声,同时提高SAR图像纹理特征的视觉效果。 展开更多
关键词 合成孔径雷达 图像检索 纹理特征 深度神经网络 共生矩阵 数据语义
下载PDF
基于语义网络的方案设计过程表达与推理 被引量:3
15
作者 叶志刚 邹慧君 +3 位作者 胡松 郭为忠 周双林 黄高义 《上海交通大学学报》 EI CAS CSCD 北大核心 2003年第5期663-667,共5页
从基于机械运动方案设计的表达方法必须能支持概念设计全过程的思想出发 ,提出计算机辅助概念设计系统必须能够表达设计方案、产生方案、产生多个方案和确定最优方案 .根据方案表达方法应具备的基本功能要求 ,选用语义网络技术表达设计... 从基于机械运动方案设计的表达方法必须能支持概念设计全过程的思想出发 ,提出计算机辅助概念设计系统必须能够表达设计方案、产生方案、产生多个方案和确定最优方案 .根据方案表达方法应具备的基本功能要求 ,选用语义网络技术表达设计方案过程、工艺动作、机构及其相互间的关系 ,通过对设计方案中机构时间配合及其影响的表达和调整实现了方案设计运动循环图表达的计算机辅助化 .利用基于语义网络表示的不确定性推理技术构造待求问题的语义网络片断 ,通过已有设计实例与设计要求的属性值与属性值、属性值与属性值域、属性值域与属性值域三者的匹配比较构造贴近度计算公式 ,并对工业平缝机中的挑线机构进行了机构选型 .实例证明了该模型的正确。 展开更多
关键词 语义网络 方案设计 贴近度 运动循环图
下载PDF
结合POI数据的道路自动选取方法 被引量:8
16
作者 徐智邦 王中辉 +3 位作者 闫浩文 武芳 段晓旗 孙立 《地球信息科学学报》 CSCD 北大核心 2018年第2期159-166,共8页
人们对道路重要性的认知与道路周边设施有重要关系,针对现有地图综合道路选取方法中对语义特征考虑不足的问题,将POI数据引入到道路的语义特征分析中,提出一种综合考虑道路空间特征和语义特征的道路综合自动选取方法。首先,结合POI位置... 人们对道路重要性的认知与道路周边设施有重要关系,针对现有地图综合道路选取方法中对语义特征考虑不足的问题,将POI数据引入到道路的语义特征分析中,提出一种综合考虑道路空间特征和语义特征的道路综合自动选取方法。首先,结合POI位置数据构造了道路语义特征度量的3个新参量:设施点密度、重要设施比率和专题设施比率;然后,与道路长度、连接值、总深度值、平均线密度等反映道路几何、拓扑和分布特征的度量参量一起,通过归一化和熵值法赋权进行整合计算,得到道路重要性值;最后,综合考虑道路重要性值、道路stroke构成和stroke连通度的约束条件进行道路的分步选取。实验结果表明,该方法在保留主要道路、保持道路分布疏密特征和道路连通性的同时,较好地顾及了道路的语义特征信息。 展开更多
关键词 道路自动选取 POI数据 语义特征 地图综合
原文传递
面向高校多源异构数据环境的元数据集成方法 被引量:8
17
作者 冯勇 张丽颖 +1 位作者 顾兆旭 马技 《辽宁大学学报(自然科学版)》 CAS 2019年第2期135-141,共7页
高校信息化建设已由各类应用开发为主的数字化校园阶段发展到以系统整合为主的智慧校园阶段,当前工作难点在于多源异构数据集成的存储成本、传输成本均较高,且对网络带宽有很高的要求.考虑使用本体和元数据所蕴含的丰富语义信息可以极... 高校信息化建设已由各类应用开发为主的数字化校园阶段发展到以系统整合为主的智慧校园阶段,当前工作难点在于多源异构数据集成的存储成本、传输成本均较高,且对网络带宽有很高的要求.考虑使用本体和元数据所蕴含的丰富语义信息可以极大降低数据集成成本,提出了一种面向高校多源异构数据环境的元数据集成方法.该方法首先构建局部本体,在局部本体基础上生成高校领域本体,同时抽取局部元数据;然后在高校领域本体的指导下对局部元数据进行集成,得到全局元数据;最后,在高校实际环境中进行了实例分析.分析结果表明所提方法切实可行,用元数据集成替代数据集成能够避免大量数据的存储和传输,有效降低数据集成的成本. 展开更多
关键词 数据集成 语义 本体 元数据 异构
下载PDF
基于本体的网络地理空间数据集成 被引量:8
18
作者 赵彦庆 肖如林 《地球信息科学学报》 CSCD 北大核心 2012年第5期584-591,共8页
随着地理数据深度、广度和复杂度的不断增加,如何集成这些在结构、语法及语义上高度异质性的需求越来越迫切。尽管XML在一定程度上解决了结构异质性问题,OGC标准规范解决了语法异质性问题,但语义异质性问题仍然成为分布式环境下地理空... 随着地理数据深度、广度和复杂度的不断增加,如何集成这些在结构、语法及语义上高度异质性的需求越来越迫切。尽管XML在一定程度上解决了结构异质性问题,OGC标准规范解决了语法异质性问题,但语义异质性问题仍然成为分布式环境下地理空间数据集成与互操作的最大障碍。本文提出了一种基于本体的网络地理空间数据集成方法:以本体思想对数据进行语义组织;结合OGC网络服务标准规范对数据进行服务语义发布;利用支持双向映射的混合本体模式来解决全局本体与各应用本体之间的冲突,实现数据的语义集成。通过海洋海岸带土地利用数据集成试验表明,本文方法不仅能够克服数据间语义异质性问题,并在很大程度上屏蔽了数据底层集成的复杂环节,使得数据集成过程简单、高效。 展开更多
关键词 地理空间数据 集成 本体 语义 语义映射 WFS
原文传递
Healthcare data analytics:using a metadata annotation approach for integrating electronic hospital records 被引量:7
19
作者 Boyi Xu Ke Xu +3 位作者 LiuLiu Fu Ling Li Weiwei Xin Hongming Cai 《Journal of Management Analytics》 EI 2016年第2期136-151,共16页
The data in electronic medical records(EMR)are complex in structure.They are independent,yet related to each other.In order to improve information access through the use of EMR,annotating work on these data is necessa... The data in electronic medical records(EMR)are complex in structure.They are independent,yet related to each other.In order to improve information access through the use of EMR,annotating work on these data is necessary.The annotation on metadata,the resource data which contain a meta-model of the database,is the basis of the annotating work if a semi-automated or an automated annotating approach which aims at making the database more accessible is expected.In this study,a method has been proposed to transform the terms which cannot be matched directly by changing them literally but maintaining their semantics,and then annotating them indirectly.After the transforming work,a refinement method which is reducible to phrase sense disambiguation(PSD)is employed to ensure accuracy.A pilot study on a hospital database has been conducted to test the accuracy and effectiveness of the proposed method. 展开更多
关键词 healthcare data analytics metadata annotation linked open data semantics phrase sense disambiguation
原文传递
基于多视角的多类型错误全面检测方法 被引量:3
20
作者 彭锦峰 申德荣 +1 位作者 寇月 聂铁铮 《软件学报》 EI CSCD 北大核心 2023年第3期1049-1064,共16页
随着信息化社会的发展,数据的规模越发庞大,数据的种类也越发丰富.时至今日,数据已经成为国家和企业的重要战略资源,是科学化管理的重要保障.然而,随着社会生活产生的数据日益丰富,大量的脏数据也随之而来,数据质量问题油然而生.如何准... 随着信息化社会的发展,数据的规模越发庞大,数据的种类也越发丰富.时至今日,数据已经成为国家和企业的重要战略资源,是科学化管理的重要保障.然而,随着社会生活产生的数据日益丰富,大量的脏数据也随之而来,数据质量问题油然而生.如何准确而全面地检测出数据集中所包含的错误数据,一直是数据科学中的痛点问题.尽管已有许多传统方法被广泛用于各行各业,如基于约束与统计的检测方法,但这些方法通常需要丰富的先验知识与昂贵的人力和时间成本.受限于此,这些方法往往难以准确而全面地检测数据.近年来,许多新型错误检测方法利用深度学习技术,通过时序推断、文本解析等方式取得了更好检测效果,但它们通常只适用于特定的领域或特定的错误类型,面对现实生活中的复杂情况,泛用性不足.基于上述情况,结合传统方法与深度学习技术的优点,提出了一个基于多视角的多类型错误全面检测模型CEDM.首先,从模式的角度,结合现有约束条件,在属性、单元和元组层面进行多维度的统计分析,构建出基础检测规则;然后,通过词嵌入捕获数据语义,从语义的角度分析属性相关性、单元关联性与元组相似性,进而基于语义关系,从多个维度上更新、扩展基础规则;最终,联合多个视角对多种类型的错误进行全面检测.在多个真实数据集与合成数据集上进行了实验,结果表明,该方法优于现有的错误检测方法,并且能够适用于多种错误类型与多种领域,具有更高的泛用性. 展开更多
关键词 数据质量 错误检测 多视角 数据语义
下载PDF
上一页 1 2 7 下一页 到第
使用帮助 返回顶部