基于Selenium的中药数据集构建

Construction of Traditional Chinese Medicine Data Set Based on Selenium

下载PDF

导出

摘要为了帮助药学实现智能化,解决药学领域缺失有效的数据集的困境。本文提出了构建一个中药数据集,同时为应对数据获取过程中存在的障碍,本文提出基于Selenium构建中药数据集。值得提出的是,在数据标注过程中,本文引入一种人在环路(human-in-the-loop)的数据标注方式。本文提出一个包含6112张图片的中药识别数据集,使用这种半自动的标注模式能自动标注多达64%的数据。经过抽样检测,标注错误率仅为1.4%。 In order to help pharmacy achieve intelligence and solve the plight of the lack of effective data sets in the field of pharmacy.This article proposes to construct a traditional Chinese medicine data set.At the same time,in order to deal with the obstacles in the data acquisition process,this article proposes to construct a traditional Chinese medicine data set based on Selenium.It is worth mentioning that in the process of data labeling,this article introduces a human-in-theloop data labeling method.This paper proposes a traditional Chinese medicine identification data set containing 6112 pictures.Using this semi-automatic labeling mode can label up automatically to 64%of the data.After sampling and testing,the labeling error rate is only 1.4%.

作者吴楠娄洁吕娟 WU Nan;LOU Jie;LV Juan(Yunnan Medical Health College,Kunming,650101;Medical School,Yunnan College of Business Management,Kunming,650106)

机构地区云南医药健康职业学院云南经济管理学院医学院

出处《办公自动化》 2021年第21期15-17,共3页 Office Informatization

基金云南医药健康职业学院科学研究基金项目(2020Y004)

关键词 SELENIUM 中药数据集人在环路(human-in-the-loop) Selenium traditional Chinese medicine data set human-in-the-loop

分类号 R2-03 [医药卫生—中医学] TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献4

1黄孝伦,王东.以Selenium+Chrome为核心的数据采集系统设计[J].计算机技术与发展,2020,30(9):216-220. 被引量：7
2史昊天..网络搜索引擎搜索策略及算法研究[D].天津工业大学,2018:
3侯震,童惟依,邓靖飞,李扬,王青.基于新媒体的医学舆情平台构建研究[J].医学信息学杂志,2021,42(4):65-69. 被引量：1
4何苗,张蕴.基于Selenium框架的定向网络数据获取的设计与实现[J].工业控制计算机,2020,33(6):45-47. 被引量：3

二级参考文献38

1张鹏,赵动员,梅蕾.移动社交网络信息传播研究述评与展望[J].情报科学,2020,38(2):170-176. 被引量：9
2彭轲,廖闻剑.基于浏览器服务的网络爬虫[J].硅谷,2009,2(4). 被引量：7
3李勇,韩亮.主题搜索引擎中网络爬虫的搜索策略研究[J].计算机工程与科学,2008,30(3):4-6. 被引量：37
4何利益,邱勇刚.互联网特定领域信息搜集系统设计[J].信息安全与通信保密,2008,30(10):55-56. 被引量：1
5刘淑梅,夏亮,许南山.主题搜索引擎网络爬虫搜索策略的研究与实现[J].计算机系统应用,2010,19(3):49-52. 被引量：13
6汲业,陈燕,杨健,慕蓉.生活服务领域垂直搜索引擎的设计与实现[J].计算机工程,2010,36(24):24-26. 被引量：8
7详解网络爬虫与Web安全[J].计算机与网络,2012,38(12):38-39. 被引量：3
8黄宇鹏,袁畅,郝志峰,蔡瑞初,肖晓军,卢宇.一种分布式的舆情分析系统架构[J].电信科学,2013,29(7):66-71. 被引量：4
9陈萧宇,黄震,刘譞哲,黄罡,张颖.Scratch：一个基于Chrome浏览器的用户操作捕捉与回放工具[J].计算机科学,2014,41(11):112-117. 被引量：5
10陈红玲,郎六琪,刘立勋,司玉娟.远程医疗监护诊断异构系统的集成实现[J].计算机测量与控制,2014,22(12):3929-3931. 被引量：4

共引文献8

1朱明超,宋晖.多任务数据采集系统的设计与实现[J].新一代信息技术,2021,4(10):8-12.
2李健.基于Gecko浏览器内核的谷歌翻译爬虫[J].现代计算机,2021,27(18):32-37.
3马天鸣,梁琛.Selenium在电话自动拨测系统中的应用[J].计算机技术与发展,2021,31(10):141-145.
4陈广智,曾霖,刘伴晨,曾天佑,魏欣欣.基于Python的电商网站服装数据的爬取与分析[J].计算机技术与发展,2022,32(7):46-51. 被引量：5
5王帅.基于Selenium框架的反爬虫程序设计与实现[J].信息记录材料,2023,24(6):86-88. 被引量：3
6郑志建,俞发仁,魏晓微,赵泳,胡长生.基于Python的职位网站爬取设计与实现[J].计算机与网络,2024,50(1):24-27.
7张松.财务RPA技术在水利企业运营管理中的应用分析[J].治淮,2024(4):82-84. 被引量：1
8李令臣.基于RPA的预配舱单“数字员工”系统的设计与实现[J].计算机应用文摘,2024,40(10):74-76.

1吴婷婷,余自成.人工神经网络技术在药学领域应用的研究进展[J].中国临床药学杂志,2021,30(1):72-76. 被引量：6
2范起雁,周倩.基于Selenium技术的大学生精神需求现状分析研究[J].现代信息科技,2021,5(23):27-29.
3龙学磊,田萌,徐英,王虹.网络爬虫在科技文献检索中的应用[J].现代信息科技,2021,5(24):150-152. 被引量：1
4Wei CHEN,Tianye ZHANG,Haiyang ZHU,Xumeng WANG,Yunhai WANG.Perspectives on cross-domain visual analysis of cyber-physical-social big data[J].Frontiers of Information Technology & Electronic Engineering,2021,22(12):1559-1564. 被引量：4
5陈国有,刘金成,刘志宝,吕鹏举,关庆,于春月.基于虚拟仿真技术的中药植物入药部分识别实训平台设计[J].微型电脑应用,2022,38(4):11-14.

办公自动化

2021年第21期

浏览历史

内容加载中请稍等...

基于Selenium的中药数据集构建

参考文献4

二级参考文献38

共引文献8

相关作者

相关机构

相关主题

浏览历史