摘要
分析专利数据清洗需求,提出专利数据清洗步骤和框架,包括数据导入、规范、字段拆分、机构清洗、数据标引等环节,对可利用的开源工具进行对比分析并以OpenRefine为例开展实践研究。
The paper analyzes patent data cleaning requirements,proposes patent data cleaning procedures and frameworks including data input,standards,field split,organization cleaning,data indexing and other sections,carries out contrastive analysis on available open source tools and makes a practical study by using OpenRefine as an example.
作者
钟华
李艳梅
安新颖
ZHONG Hua;LI Yanmei;AN Xinying(Institute of Medical Information,Chinese Academy of Medical Sciences,Beijing 100020,China)
出处
《医学信息学杂志》
CAS
2019年第5期60-64,共5页
Journal of Medical Informatics
基金
中国医学科学院中央级公益性科研院所基本科研业务费“科技创新环境下医学科研机构科技成果转化能力评价研究”(项目编号:2017PT63004)
中国医学科学院医学与健康科技创新工程“医学科技创新评价与卫生服务体系构建研究”(项目编号:2016-I2M-3-018)
关键词
专利分析
开源工具
数据清洗
patent analysis
open source tools
data cleaning