-
题名面向实体解析的无监督聚类方法综述
被引量:7
- 1
-
-
作者
高广尚
-
机构
桂林理工大学现代企业管理研究中心
桂林理工大学商学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2018年第7期11-19,65,共10页
-
基金
国家自然科学基金(No.71761008)
广西高校人文社会科学重点研究基地基金(No.16YB010)
-
文摘
旨在从无监督聚类角度分析实体解析过程的机制。从特定类型、经典算法角度研究了无监督聚类的思路;从经典算法改进、演化分析角度研究了无监督增量聚类的思路;最后,对无监督聚类研究下一步需要解决的问题进行了展望。无监督聚类技术不仅能很好地解决传统实体解析过程中存在的聚类效率和质量问题,而且还能利用已有的聚类结果对快速演化的数据进行增量解析,进而进一步满足大数据环境下亟需的增量解析需求。没有深入分析无监督聚类算法的评价指标,尽管面向实体解析的无监督聚类方法有诸多优势,但仍然面临着准确性和可扩展性等挑战。
-
关键词
实体解析
无监督聚类
无监督增量聚类
-
Keywords
entity resolution(er)
unsupervised clustering
unsupervised incremental clustering
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名基于概率软逻辑模型的实体解析
被引量:2
- 2
-
-
作者
宫云宝
甘亮
黄九鸣
-
机构
国防科学技术大学计算机学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2017年第8期188-192,199,共6页
-
文摘
在马尔科夫逻辑网(MLN)的实体解析算法中任意闭原子采用硬约束,导致推理及权重学习过程较难收敛到最优解,降低解析精度及执行效率。为此,提出一种将概率软逻辑(PSL)模型应用到实体解析中的方法,该模型中闭原子采用软约束,易于进行知识推理与权重学习。阐述PSL模型基本理论,通过实体关系、实体属性、本体约束构造PSL模型的逻辑规则,描述实体解析的匹配过程,根据PSL模型的推理机制实现实体解析的决策过程。实验结果表明,与基于MLN的实体解析算法相比,该方法可大幅提高实体解析的准确率、F1值及执行效率。
-
关键词
实体解析
概率软逻辑
马尔科夫逻辑网
实体关系
实体属性
本体约束
-
Keywords
entity resolution (er)
Probabilistic Soft Logic (PSL)
Markov Logic Network (MLN)
entity relationship
entity attribute
ontology constraints
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名电力领域应急预案的流式实体识别
被引量:1
- 3
-
-
作者
张波
党德鹏
-
机构
山西大学现代教育技术中心
-
出处
《电力学报》
2015年第3期258-262,共5页
-
基金
国家自然科学基金(60940032
61073034)
+2 种基金
教育部新世纪优秀人才支持计划(NCET-10-0239)
国家科技支撑计划重大项目(2006BAK01A07)
国家科技支撑计划重点项目(2006BAC18B06)
-
文摘
随着电力系统发展的愈发迅速,在将网络中电力系统应急预案进行集成时,形成了应急预案数据流。如何有效存储及优化应急预案的流数据库,成为了电力领域研究热点。结合流数据及应急预案特点,对应急预案流数据采用时段计数处理机制,提出流式实体识别(ER)算法及其结合哈希与多线程的改进算法,建立新型的应急预案二级存储管理模型。为电力领域应急预案流数据的进一步研究提供平台基础。
-
关键词
应急预案
数据集成
流数据
实体识别
-
Keywords
emergency plan
data integration
streaming data
entity resolution(er)
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名一种基于标签传播的数据分块算法
- 4
-
-
作者
冉德彤
游宏梁
-
机构
中国国防科技信息中心
-
出处
《计算机工程》
CAS
CSCD
北大核心
2017年第9期51-55,61,共6页
-
文摘
数据分块有助于降低大规模数据中实体分辨的计算复杂度,但现有算法存在效能和效率难以平衡的问题。为此,在标签传播的基础上设计数据分块算法,以实现两者的平衡。根据记录间相同词项的数量估计记录相似度,通过标签传播算法发现潜在相似重复记录,降低时间复杂度。在通用测试数据中的实验结果表明,该算法能有效提高F-Measure值,减少运行时间,实现大规模数据中的数据分块。
-
关键词
数据质量
数据清洗
实体分辨
相似重复记录
数据分块
标签传播算法
-
Keywords
data quality
data cleaning
entity resolution(er)
approximately duplicated record
data blocking
Label Propagation Algorithm(LPA)
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-