期刊文献+
共找到24篇文章
< 1 2 >
每页显示 20 50 100
人口名录库及其在人口普查中的应用 被引量:12
1
作者 孟杰 沈文静 《统计与信息论坛》 CSSCI 北大核心 2018年第10期90-97,共8页
在人口普查工作中更广泛地使用行政记录,不仅是中国国家统计局"十三五"时期统计改革发展规划纲要的重要内容,更是当前国外人口普查工作的前沿趋势。解析其它国家的可复制经验发现,人口普查中使用行政记录的关键在于如何充分... 在人口普查工作中更广泛地使用行政记录,不仅是中国国家统计局"十三五"时期统计改革发展规划纲要的重要内容,更是当前国外人口普查工作的前沿趋势。解析其它国家的可复制经验发现,人口普查中使用行政记录的关键在于如何充分利用不同来源的行政记录构造和应用人口名录库。为此,首先解析人口名录库的构造过程及其中的技术细节,如行政记录的选择、行政记录的统计化编辑以及多源行政记录的整合。其次,探究人口名录库应用于中国人口普查的思路和方法,包括普查年人口总数估计、无回答处理和完善普查住户地址信息等。 展开更多
关键词 人口名录库 人口普查 记录链接模型 三系统估计量 无回答
下载PDF
近似重复记录的自适应距离度量检测 被引量:2
2
作者 黄健斌 姬红兵 孙鹤立 《西安电子科技大学学报》 EI CAS CSCD 北大核心 2007年第2期331-336,共6页
提出了一种结合自适应字符串距离度量的记录相似度学习方法,用于多源Web数据集成中的重复记录检测.该方法首先使用最大熵分类器标注记录对中字段间的关联类型;然后根据每个字段对的关联类型,为其选择合适的距离函数;最后使用支持向量机... 提出了一种结合自适应字符串距离度量的记录相似度学习方法,用于多源Web数据集成中的重复记录检测.该方法首先使用最大熵分类器标注记录对中字段间的关联类型;然后根据每个字段对的关联类型,为其选择合适的距离函数;最后使用支持向量机通过组合多字段上的相似度来检测其中的重复记录对.在不同领域的数据集上的实验结果表明,该方法能够提高重复记录检测的精度,且具有良好的噪声数据抑制能力. 展开更多
关键词 近似重复记录检测 记录链接 实体匹配 数据集成
下载PDF
基于非定长编码和滑动窗口的隐私保护记录链接方法
3
作者 叶晓东 赵迎迎 +2 位作者 孙永奇 赵思聪 刘真 《计算机工程》 CAS CSCD 北大核心 2024年第2期154-164,共11页
隐私保护记录链接(PPRL)是一种跨不同数据库高效识别同一实体对象对应的记录而不泄露记录所代表实体对象的敏感或机密信息的方法。布隆过滤器(BF)广泛应用于PPRL,其将记录中的敏感信息进行编码并使用字符q-gram实现近似匹配。但是,BF编... 隐私保护记录链接(PPRL)是一种跨不同数据库高效识别同一实体对象对应的记录而不泄露记录所代表实体对象的敏感或机密信息的方法。布隆过滤器(BF)广泛应用于PPRL,其将记录中的敏感信息进行编码并使用字符q-gram实现近似匹配。但是,BF编码容易遭受密码分析攻击,且由于对q-gram位置不敏感,会导致记录匹配的精确率较低。提出一种基于非定长编码和滑动窗口的PPRL方法,其采用的非定长编码记录生成方式不仅使记录具有位置敏感性,而且通过对有效位前后添加随机位数组隐藏了实体的位数组频率信息,从而能够有效防御频率攻击。此外,设计一种基于滑动窗口的记录链接方式,先通过快速过滤筛除大量不匹配的记录,再使用双向滑动窗口的精确匹配策略对剩余记录进行匹配,提高隐私保护记录的匹配效率。在公开数据集上的实验结果表明,相比BF方法,该方法在编码速度上快100倍左右,其同时具有更高的匹配精度,在跨数据库PPRL方面的安全性也更强。 展开更多
关键词 布隆过滤器 字符串比较 隐私保护 记录链接 安全实体对齐
下载PDF
实体解析技术综述与展望 被引量:5
4
作者 朱灿 曹健 《计算机科学》 CSCD 北大核心 2015年第3期8-12,18,共6页
实体解析是数据清理、数据集成、数据挖掘等技术中关键的一步,是数据质量的保障。介绍了实体解析含义、背景起源以及算法基础。列举并解释了实体解析发展过程中的经典算法,包括成对实体解析、集合实体解析、大数据的实体解析、复杂数据... 实体解析是数据清理、数据集成、数据挖掘等技术中关键的一步,是数据质量的保障。介绍了实体解析含义、背景起源以及算法基础。列举并解释了实体解析发展过程中的经典算法,包括成对实体解析、集合实体解析、大数据的实体解析、复杂数据上的实体解析等,以及它们的特点和局限性,分享了在新的应用环境下衍生出来的针对不同需求的新的实体解析算法。最后展望了实体解析领域当前的研究热点以及发展方向。 展开更多
关键词 实体解析 记录链接 集合数据 复杂数据 大数据
下载PDF
Linking temporal records 被引量:3
5
作者 Pei LI Xin Luna DONG +1 位作者 Andrea MAURINO Divesh SRIVASTAVA 《Frontiers of Computer Science》 SCIE EI CSCD 2012年第3期293-312,共20页
Many data sets contain temporal records which span a long period of time; each record is associated with a time stamp and describes some aspects of a real-world en- tity at a particular time (e.g., author information... Many data sets contain temporal records which span a long period of time; each record is associated with a time stamp and describes some aspects of a real-world en- tity at a particular time (e.g., author information in DBLP). In such cases, we often wish to identify records that describe the same entity over time and so be able to perform interest- ing longitudinal data analysis. However, existing record link- age techniques ignore temporal information and fall short for temporal data. This article studies linking temporal records. First, we ap- ply time decay to capture the effect of elapsed time on entity value evolution. Second, instead of comparing each pair of records locally, we propose clustering methods that consider the time order of the records and make global decisions. Ex- perimental results show that our algorithms significantly out- perform traditional linkage methods on various temporal data sets. 展开更多
关键词 temporal data record linkage data integration
原文传递
Hospitalized prevalence and 5-year mortality for IBD:Record linkage study 被引量:3
6
作者 Lori A Button Stephen E Roberts +3 位作者 Michael J Goldacre Ashley Akbari Sarah E Rodgers John G Williams 《World Journal of Gastroenterology》 SCIE CAS CSCD 2010年第4期431-438,共8页
AIM:To establish the hospitalized prevalence of severe Crohn's disease(CD) and ulcerative colitis(UC) in Wales from 1999 to 2007;and to investigate long-term mortality after hospitalization and associations with s... AIM:To establish the hospitalized prevalence of severe Crohn's disease(CD) and ulcerative colitis(UC) in Wales from 1999 to 2007;and to investigate long-term mortality after hospitalization and associations with social deprivation and other socio-demographic factors.METHODS:Record linkage of administrative inpatient and mortality data for 1467 and 1482 people hospitalised as emergencies for ≥ 3d for CD and UC,respectively.The main outcome measures were hospitalized prevalence,mortality rates and standardized mortality ratios for up to 5 years follow-up after hospitalization.RESULTS:Hospitalized prevalence was 50.1 per 100 000 population for CD and 50.6 for UC.The hospitalized prevalence of CD was significantly higher(P < 0.05) in females(57.4) than in males(42.2),and was highest in people aged 16-29 years,but the prevalence of UC was similar in males(51.0) and females(50.1),and increased continuously with age.The hospital-ized prevalence of CD was slightly higher in the most deprived areas,but there was no association between social deprivation and hospitalized prevalence of UC.Mortality was 6.8% and 14.6% after 1 and 5 years follow-up for CD,and 9.2% and 20.8% after 1 and 5 years for UC.For both CD and UC,there was little discernible association between mortality and social deprivation,distance from hospital,urban/rural residence and geography.CONCLUSION:CD and UC have distinct demographic profiles.The higher prevalence of hospitalized CD in more deprived areas may reflect higher prevalence and higher hospital dependency. 展开更多
关键词 Crohn’s disease Ulcerative colitis PREVALENCE MORTALITY record linkage
下载PDF
An Automatic Threshold Selection Using ALO for Healthcare Duplicate Record Detection with Reciprocal Neuro-Fuzzy Inference System
7
作者 Ala Saleh Alluhaidan Pushparaj +4 位作者 Anitha Subbappa Ved Prakash Mishra P.V.Chandrika Anurika Vaish Sarthak Sengupta 《Computers, Materials & Continua》 SCIE EI 2023年第3期5821-5836,共16页
ESystems based on EHRs(Electronic health records)have been in use for many years and their amplified realizations have been felt recently.They still have been pioneering collections of massive volumes of health data.D... ESystems based on EHRs(Electronic health records)have been in use for many years and their amplified realizations have been felt recently.They still have been pioneering collections of massive volumes of health data.Duplicate detections involve discovering records referring to the same practical components,indicating tasks,which are generally dependent on several input parameters that experts yield.Record linkage specifies the issue of finding identical records across various data sources.The similarity existing between two records is characterized based on domain-based similarity functions over different features.De-duplication of one dataset or the linkage of multiple data sets has become a highly significant operation in the data processing stages of different data mining programmes.The objective is to match all the records associated with the same entity.Various measures have been in use for representing the quality and complexity about data linkage algorithms,and many other novel metrics have been introduced.An outline of the problem existing in themeasurement of data linkage and de-duplication quality and complexity is presented.This article focuses on the reprocessing of health data that is horizontally divided among data custodians,with the purpose of custodians giving similar features to sets of patients.The first step in this technique is about an automatic selection of training examples with superior quality from the compared record pairs and the second step involves training the reciprocal neuro-fuzzy inference system(RANFIS)classifier.Using the Optimal Threshold classifier,it is presumed that there is information about the original match status for all compared record pairs(i.e.,Ant Lion Optimization),and therefore an optimal threshold can be computed based on the respective RANFIS.Febrl,Clinical Decision(CD),and Cork Open Research Archive(CORA)data repository help analyze the proposed method with evaluated benchmarks with current techniques. 展开更多
关键词 Duplicate detection healthcare record linkage dataset pre-processing reciprocal neuro-fuzzy inference system and ant lion optimization fuzzy system
下载PDF
Hash-Indexing Block-Based Deduplication Algorithm for Reducing Storage in the Cloud
8
作者 D.Viji S.Revathy 《Computer Systems Science & Engineering》 SCIE EI 2023年第7期27-42,共16页
Cloud storage is essential for managing user data to store and retrieve from the distributed data centre.The storage service is distributed as pay a service for accessing the size to collect the data.Due to the massiv... Cloud storage is essential for managing user data to store and retrieve from the distributed data centre.The storage service is distributed as pay a service for accessing the size to collect the data.Due to the massive amount of data stored in the data centre containing similar information and file structures remaining in multi-copy,duplication leads to increase storage space.The potential deduplication system doesn’t make efficient data reduction because of inaccuracy in finding similar data analysis.It creates a complex nature to increase the storage consumption under cost.To resolve this problem,this paper proposes an efficient storage reduction called Hash-Indexing Block-based Deduplication(HIBD)based on Segmented Bind Linkage(SBL)Methods for reducing storage in a cloud environment.Initially,preprocessing is done using the sparse augmentation technique.Further,the preprocessed files are segmented into blocks to make Hash-Index.The block of the contents is compared with other files through Semantic Content Source Deduplication(SCSD),which identifies the similar content presence between the file.Based on the content presence count,the Distance Vector Weightage Correlation(DVWC)estimates the document similarity weight,and related files are grouped into a cluster.Finally,the segmented bind linkage compares the document to find duplicate content in the cluster using similarity weight based on the coefficient match case.This implementation helps identify the data redundancy efficiently and reduces the service cost in distributed cloud storage. 展开更多
关键词 Cloud computing DEDUPLICATION hash indexing relational content analysis document clustering cloud storage record linkage
下载PDF
一种基于隐私保护下的多方记录链接方法 被引量:3
9
作者 韩姝敏 申德荣 +2 位作者 聂铁铮 寇月 于戈 《软件学报》 EI CSCD 北大核心 2017年第9期2281-2292,共12页
多方隐私保护下的记录链接(privacy-preserving record linkage,简称PPRL)是在隐私保护下,从多个数据源中找出代表现实世界中同一实体的过程.该过程除了最终匹配结果被数据源之间共享外,其他信息均未被泄露.随着数据量的日益增大和现实... 多方隐私保护下的记录链接(privacy-preserving record linkage,简称PPRL)是在隐私保护下,从多个数据源中找出代表现实世界中同一实体的过程.该过程除了最终匹配结果被数据源之间共享外,其他信息均未被泄露.随着数据量的日益增大和现实世界数据质量问题的存在(如拼写错误、顺序颠倒等),多方PPRL方法的可扩展性和容错性面临挑战.目前,已有的大部分多方PPRL方法都是精确匹配方法,不具有容错性.还有少部分多方PPRL近似方法具有容错性,但在处理存在质量问题的数据时,由于容错性差和时间代价过大,并不能有效地找出数据源间的共同实体.因此,提出一种结合布隆过滤、安全合计、动态阈值、检查机制和改进的Dice相似度函数的多方PPRL近似方法.首先,利用布隆过滤将各数据源中的每条记录信息转换成由0和1组成的位数组.然后,计算每个对应位置bit 1所占的比率,并利用动态阈值和检查机制来判定匹配成功的位置.最后,通过改进的Dice相似度函数计算出记录间的相似度,进而判断记录间是否匹配成功.实验结果表明:所提出的方法具有较好的可扩展性,并且在保证查准率的同时,比已有的多方近似PPRL方法具有更高的容错性. 展开更多
关键词 记录链接 隐私保护 布隆过滤 动态阈值 检查机制 改进的Dice相似度函教
下载PDF
行政记录整合的贝叶斯分层记录链接模型及应用 被引量:3
10
作者 丁东洋 周丽莉 《统计与信息论坛》 CSSCI 北大核心 2016年第7期30-35,共6页
记录链接的技术问题与统计理论密切相关,尤其是在建立记录链接分类规则时需要构建统计模型,识别关键变量以完成数据匹配。在贝叶斯框架下构建分层模型整合行政记录,通过多元回归可以实现匹配错误率的估计,而且一对一限制下的记录链接允... 记录链接的技术问题与统计理论密切相关,尤其是在建立记录链接分类规则时需要构建统计模型,识别关键变量以完成数据匹配。在贝叶斯框架下构建分层模型整合行政记录,通过多元回归可以实现匹配错误率的估计,而且一对一限制下的记录链接允许通过模块反映记录信息的来源变化,基于MCMC模拟的后验分布计算方便,有助于提高数据整合效率。 展开更多
关键词 记录链接 贝叶斯方法 分层模型
下载PDF
异构网络中实体匹配算法综述 被引量:2
11
作者 李娜 金冈增 +2 位作者 周晓旭 郑建兵 高明 《华东师范大学学报(自然科学版)》 CAS CSCD 北大核心 2018年第5期41-55,共15页
互联网、物联网和云计算技术的不断融合,使得各行各业信息化程度越来越高,但同时也带来了数据碎片化的问题.数据碎片化的海量性、异构性、隐私性、相依性和低质性等特征,导致了数据可用性较差,利用这些数据难以挖掘出准确而完整的信息.... 互联网、物联网和云计算技术的不断融合,使得各行各业信息化程度越来越高,但同时也带来了数据碎片化的问题.数据碎片化的海量性、异构性、隐私性、相依性和低质性等特征,导致了数据可用性较差,利用这些数据难以挖掘出准确而完整的信息.为了更有效地利用数据,实体匹配、融合和消歧变得尤为重要.主要对异构网络中实体匹配算法进行了综述,对实体相似度度量和数据预处理技术进行了梳理;特别针对海量数据,概述了可扩展实体匹配方法的研究进展,综述了运用监督学习和非监督学习两类技术的实体匹配算法. 展开更多
关键词 数据融合 实体匹配 记录链接 实体解析
下载PDF
上海市出生婴儿死亡风险分析 被引量:2
12
作者 江莉莉 宋桂香 杨青 《中国儿童保健杂志》 CAS 2010年第3期237-239,共3页
:【目的】建立婴儿出生、死亡联合档案,分析导致婴儿死亡的危险因素,为制订相应的预防控制措施提供依据。【方法】应用婴儿出生、死亡记录共同建立婴儿出生死亡联合档案的方法,对2004--2007年出生的婴儿1年内的死亡情况进行了分析... :【目的】建立婴儿出生、死亡联合档案,分析导致婴儿死亡的危险因素,为制订相应的预防控制措施提供依据。【方法】应用婴儿出生、死亡记录共同建立婴儿出生死亡联合档案的方法,对2004--2007年出生的婴儿1年内的死亡情况进行了分析。【结果】2004--2007年上海市的婴儿死亡风险在3.14‰~4.09%之间,新生儿死亡风险高于后期婴儿死亡风险。出生体重越低,婴儿死亡风险越高,但当婴儿出生体重达到或超过4500g时,婴儿死亡风险不降反有所上升。同时,婴儿出生体重越低,在新生儿期死亡的比例越高。【结论】匹配婴儿出生、死亡档案的方法可以帮助发现婴儿死亡的危险因素。婴儿的出生体重是影响婴儿生存状况的重要因素。 展开更多
关键词 出生死亡档案匹配 出生体重 婴儿死亡风险
原文传递
Perinatal and early life risk factors for inflammatory bowel disease 被引量:2
13
作者 Stephen E Roberts Clare J Wotton +2 位作者 John G Williams Myfanwy Griffith Michael J Goldacre 《World Journal of Gastroenterology》 SCIE CAS CSCD 2011年第6期743-749,共7页
AIM:To investigate associations between perinatal risk factors and subsequent inflammatory bowel disease (IBD) in children and young adults.METHODS:Record linked abstracts of birth registrations,maternity,day case and... AIM:To investigate associations between perinatal risk factors and subsequent inflammatory bowel disease (IBD) in children and young adults.METHODS:Record linked abstracts of birth registrations,maternity,day case and inpatient admissions in a defined population of southern England.Investigation of 20 perinatal factors relating to the maternity or the birth:maternal age,Crohn's disease (CD) or ulcerative colitis (UC) in the mother,maternal social class,marital status,smoking in pregnancy,ABO blood group and rhesus status,pre-eclampsia,parity,the infant's presentation at birth,caesarean delivery,forceps delivery,sex,number of babies delivered,gestational age,birthweight,head circumference,breastfeeding and Apgar scores at one and five minutes.RESULTS:Maternity records were present for 180 children who subsequently developed IBD.Univariate analysis showed increased risks of CD among children of mothers with CD (P=0.011,based on two cases of CD in both mother and child) and children of mothers who smoked during pregnancy.Multivariate analysis confirmed increased risks of CD among children of mothers who smoked (odds ratio=2.04,95% CI=1.06-3.92) and for older mothers aged 35+ years (4.81,2.32-9.98).Multivariate analysis showed that there were no significant associations between CD and 17 other perinatal risk factors investigated.It also showed that,for UC,there were no significant associations with the perinatal factors studied.CONCLUSION:This study shows an association between CD in mother and child;and elevated risks of CD in children of older mothers and of mothers who smoked. 展开更多
关键词 Crohn's disease Ulcerative colitis Perinatal risk factors record linkage
下载PDF
多方强隐私保护记录链接方法 被引量:1
14
作者 佟丹妮 申德荣 +3 位作者 韩姝敏 聂铁铮 寇月 于戈 《计算机科学与探索》 CSCD 北大核心 2019年第3期394-407,共14页
链接跨组织数据库中表示同一实体的记录,同时保护存储在这些数据库中实体的隐私,是安全有效地整合多源数据资源的核心技术之一。然而,已有隐私保护记录链接(privacy-preserving record linkage,PPRL)技术中的分块方法不能同时保证高查... 链接跨组织数据库中表示同一实体的记录,同时保护存储在这些数据库中实体的隐私,是安全有效地整合多源数据资源的核心技术之一。然而,已有隐私保护记录链接(privacy-preserving record linkage,PPRL)技术中的分块方法不能同时保证高查全率和高查准率,强隐私性的匹配方法存在时间代价过大的不足,且对多于两个数据库间的匹配研究很少。针对上述问题,提出了一种多方强隐私保护记录链接方法(multi-partystrong-privacy-preserving record linkage,MP-SPPRL)。首先,提出了一种局部敏感哈希(locality sensitiveHashing,LSH)结合后缀分块的二次分块方法,并引入分块分散度调节两次分块,在保证MP-SPPRL高查全率的前提下有效地提高了查准率;接着,利用滑动窗口合并分块生成候选记录组,保证MP-SPPRL的容错率;然后,采用基于同态加密的Hamming距离计算方法,设计了一种适用于大型数据的基于安全多方计算(securemulti-party computation,SMC)的可伸缩多方记录匹配算法,通过缩减加密记录数量和提前终止不可能匹配的候选记录组的距离计算,显著降低了匹配的时间代价,提高了MP-SPPRL的效率;最后,通过大量实验验证了MP-SPPRL的高查全率、高查准率和高效性。 展开更多
关键词 记录链接 隐私保护 二次分块 记录匹配
下载PDF
Conditions of Non-Unique Identifiers in Record Linkage Using Japanese Cohort Dataset
15
作者 Michikazu Nakai Kunihiro Nishimura Yoshihiro Miyamoto 《Journal of Data Analysis and Information Processing》 2015年第4期103-111,共9页
The applications of unique identifiers such as name, home address and social security number to link different datasets have been commonly used and well-published. Also, the theoretical concepts of probabilistic algor... The applications of unique identifiers such as name, home address and social security number to link different datasets have been commonly used and well-published. Also, the theoretical concepts of probabilistic algorithm in record linkage have been well-defined in the literature. However, few studies have reported the applications of its probabilistic algorithm using non-unique identifiers. In this paper, we investigate several variables (weight, height, waist, age, sex, smoking and alcohol habit) as non-unique identifiers using Japanese cohort dataset with three-year baseline of 1989-1991 to observe how effectively these identifiers can be used and what influence those may have on record linkage. Moreover, we modify the conditions of these identifiers and estimate the sensitivity, specificity and accuracy for comparison. We further investigate this by using extended ten-year baseline of 1989-1999 as well. As a result, we conclude that the combination of age, sex, weight and height predicts better estimation with regards to the sensitivity, specificity and accuracy than other combinations in both men and women in case of using three-year baseline, whereas the combination of age, sex and height predicts better in both men and women in case of using ten-year baseline. 展开更多
关键词 record linkage Probabilistic Algorithm Identifiers EPIDEMIOLOGY JAPANESE COHORT
下载PDF
Disk based pay-as-you-go record linkage
16
作者 Chenchen Sun Derong Shen 《Frontiers of Computer Science》 SCIE EI CSCD 2022年第4期227-229,共3页
1Introduction Record linkage(RL)groups_records corresponding to the same entities in datasets,and is a long-standing topic in data management and mining communities[1-2].In big data era,real-time data applications bec... 1Introduction Record linkage(RL)groups_records corresponding to the same entities in datasets,and is a long-standing topic in data management and mining communities[1-2].In big data era,real-time data applications become popular,and callfor payas-you-go RL(PRL),which produces as many match pairs as possible in very limited time(much shorter than the overall RLruntime). 展开更多
关键词 record linkage MINING
原文传递
关系数据库中实体解析研究综述 被引量:1
17
作者 高广尚 张智雄 《现代图书情报技术》 CSSCI 2015年第7期37-47,共11页
【目的】分析关系数据库中实体解析技术的研究现状和未来研究方向。【方法】从实体解析的精度和效率两方面展开系统研究。精度方面基于增量式、统计方法和相关信息;效率方面基于分块、字符串相似和其他方法。【结果】最大化实体解析精... 【目的】分析关系数据库中实体解析技术的研究现状和未来研究方向。【方法】从实体解析的精度和效率两方面展开系统研究。精度方面基于增量式、统计方法和相关信息;效率方面基于分块、字符串相似和其他方法。【结果】最大化实体解析精度和解析效率是实体解析技术研究的主要目标,但在数据源的动态演化、异构性和非精确字符串匹配等方面的研究仍面临重大挑战。【局限】仅从实体解析过程中的精度和效率方面进行探讨,对解析模型本身的特点和局限性关注不足。【结论】本研究有助于更全面了解关系数据库中实体解析的过程、研究现状和未来研究方向。 展开更多
关键词 实体解析 记录链接 关系数据库
原文传递
基于实体演化的记录链接算法 被引量:1
18
作者 刘宏 申德荣 +2 位作者 寇月 聂铁铮 于戈 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2017年第6期991-1003,共13页
实体识别(Entity Resolution)是指判断一个或多个数据源中两个不同记录是否描述相同实体,它有时也被称作记录连接(Record Linkage),在数据集成中被用于数据清洗(Data Clean)、去重(Deduplication)和相似连接(Similarity Joins)等集成操... 实体识别(Entity Resolution)是指判断一个或多个数据源中两个不同记录是否描述相同实体,它有时也被称作记录连接(Record Linkage),在数据集成中被用于数据清洗(Data Clean)、去重(Deduplication)和相似连接(Similarity Joins)等集成操作中.实体识别技术可被广泛应用于人口普查、引文识别、Web搜索、数据清洗以及剽窃检验等诸多领域.然而,在真实世界中,实体的属性会随着时间的变化而变化,两条记录的属性值不同不能表明这两条记录对应不同的实体,具有相同的属性值的两条记录也不能表明对应相同的实体.时间记录链接就是匹配描述同一实体的带有时间戳的记录.已有的解决时间记录链接的方法依赖于时间模型来捕捉实体的演化,但是已有的时间模型在预测实体的演化时,实体匹配准确率不高,而聚类计算复杂度较高.为此提出了更加细致的捕捉实体演化的模型和新的两阶段的快速聚类算法.通过在三个真实数据集上的实验结果表明,提出的时间模型可以更加细致地捕捉实体的演化,提出的聚类算法能更快速而准确的聚类描述同一实体的记录,提高了识别的准确率和效率. 展开更多
关键词 实体演化 记录链接 时间模型 聚类算法
下载PDF
基于ISD1420的船舶用大功率语音报警器的设计
19
作者 李英俊 金珧龙 崔春淑 《延边大学学报(自然科学版)》 CAS 2008年第3期226-230,共5页
利用ISD1420语音录放芯片和AT89C2051单片机设计船舶用大功率语音报警器.该报警器采用弹性录音方式,提高了内存利用率,且操作简单,使用方便.该报警器还采用了L4960单片开关电源,在12~40 V宽电压范围内稳定工作,并具有几十个报警器联动... 利用ISD1420语音录放芯片和AT89C2051单片机设计船舶用大功率语音报警器.该报警器采用弹性录音方式,提高了内存利用率,且操作简单,使用方便.该报警器还采用了L4960单片开关电源,在12~40 V宽电压范围内稳定工作,并具有几十个报警器联动同步工作功能. 展开更多
关键词 ISD1420 语音录放 船舶 大功率 弹性录音 联动
下载PDF
TrigSigs:一种有效的非结构化记录关联合并算法
20
作者 吴羽 盛振华 +1 位作者 寿黎但 陈刚 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2010年第12期2284-2290,2308,共8页
为了解决从网络数据源提取的非结构化数据的处理问题,提出一种基于触发对的聚类算法TrigSigs,利用触发对挖掘非结构化数据中隐含属性间的关联关系作为辨别实体的标志.该算法能够聚集对辨别实体起到关键作用的特征组合,过滤噪音词汇,并... 为了解决从网络数据源提取的非结构化数据的处理问题,提出一种基于触发对的聚类算法TrigSigs,利用触发对挖掘非结构化数据中隐含属性间的关联关系作为辨别实体的标志.该算法能够聚集对辨别实体起到关键作用的特征组合,过滤噪音词汇,并且根据辨别实体的分辨力,为每个特征词汇赋予合理的权重,使记录的特征向量对辨别实体更具代表性,最终提高聚类结果的细粒度,很好地解决了非结构化数据的记录关联合并问题.实验结果表明:该算法可以过滤绝大部分噪音词汇,并且根据词汇的分辨力合理分配权重,使最终聚类结果的准确率有很大的提升. 展开更多
关键词 记录关联合并 非结构化数据 触发对 属性关联度 信息分布集中度
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部