期刊文献+
共找到42篇文章
< 1 2 3 >
每页显示 20 50 100
面向医疗文本的实体及关系标注平台的构建及应用 被引量:14
1
作者 张坤丽 赵旭 +3 位作者 关同峰 尚柏羽 李羽蒙 昝红英 《中文信息学报》 CSCD 北大核心 2020年第6期36-44,共9页
医疗文本数据是推行智慧医疗的重要数据基础,而医疗文本为半结构或非结构化数据,难以对其直接进行应用。对医疗文本中所包含的实体及实体关系进行标注是文本结构化的重要手段,也是命名实体识别、关系自动抽取研究的基础。传统的人工标... 医疗文本数据是推行智慧医疗的重要数据基础,而医疗文本为半结构或非结构化数据,难以对其直接进行应用。对医疗文本中所包含的实体及实体关系进行标注是文本结构化的重要手段,也是命名实体识别、关系自动抽取研究的基础。传统的人工标注方法费力费时,已难以适应大数据发展的需求。该文以构建中文医学知识图谱的任务为驱动,构建了半自动化实体及关系标注平台。该平台融合多种算法,能够实现文本预标注、进度控制、质量把控和数据分析等多种功能。利用该平台,进行了医学知识图谱中实体和关系标注,结果表明该平台能够在文本资源建设中控制标注过程,保证标注质量,提高标注效率。同时该平台也被应用于其他文本标注任务,表明该平台具有较好的任务移植性。 展开更多
关键词 文本标注 标注平台 实体标注 关系标注 数据分析
下载PDF
面向知识发现的中文电子病历标注方法研究 被引量:13
2
作者 胡佳慧 方安 +2 位作者 赵琬清 杨晨柳 任慧玲 《数据分析与知识发现》 CSSCI CSCD 北大核心 2019年第7期123-132,共10页
【目的】研究基于中文电子病历的标注方法,提升临床文本分析与处理能力,促进临床知识发现。【方法】提出中文电子病历标注思路,并构建可视化交互平台,基于电子病历文本的字与词特征,综合利用自然语言处理和机器学习方法开展临床命名实... 【目的】研究基于中文电子病历的标注方法,提升临床文本分析与处理能力,促进临床知识发现。【方法】提出中文电子病历标注思路,并构建可视化交互平台,基于电子病历文本的字与词特征,综合利用自然语言处理和机器学习方法开展临床命名实体识别实证研究。【结果】获得700份标注病历语料,基于Pipeline的标注方法总体F值达0.8772,较基于原始标注病历数据集的命名实体识别效果提升32.9%。【局限】由于电子病历包含与隐私相关的敏感信息,本研究基于开放评测数据开展实验研究,语料库大小受限。【结论】本研究所提出的中文电子病历标注方法和所构建的标注平台适用于临床文本处理,能够促进医学临床文本资源的知识关联化。 展开更多
关键词 中文电子病历 文本标注 自然语言处理 机器学习 知识发现
原文传递
AUTOCAD与Arc/Info GIS文本数据的转换及GIS文本数据库的建立 被引量:6
3
作者 叶慧芳 胡小伍 《地矿测绘》 2004年第4期19-21,共3页
  在简要介绍AUTOCAD与Acr/Info数据转换原理及AUTOCAD文本数据存储结构和数据录入特点的基础上,针对AUTOCAD与Arc/Info二者文本数据转换过程中存在的问题,根据各自数据存储规律建立数据转换方法,实现从AUTOCAD到Arc/InfoGIS的数据自...   在简要介绍AUTOCAD与Acr/Info数据转换原理及AUTOCAD文本数据存储结构和数据录入特点的基础上,针对AUTOCAD与Arc/Info二者文本数据转换过程中存在的问题,根据各自数据存储规律建立数据转换方法,实现从AUTOCAD到Arc/InfoGIS的数据自动转换,提高了数据的转换精度和效率,转换后的数据能够面向GIS。 展开更多
关键词 ARC/INFO AUTOCAD 编码 文本注记 数据转换
下载PDF
命名实体识别在数字人文中的应用--基于ETL的实现 被引量:6
4
作者 朱武信 夏翠娟 《图书馆论坛》 CSSCI 北大核心 2020年第5期16-20,共5页
近年上海图书馆通过数字人文搭建多个知识服务平台,通过关联数据,以知识图谱、GIS等展示方式提供服务。基于关联数据的专业服务对基础数据提出新要求,如数据本体化须具体到人名、地名、时间等实体;数据保留关联性,以关联数据形式存储。... 近年上海图书馆通过数字人文搭建多个知识服务平台,通过关联数据,以知识图谱、GIS等展示方式提供服务。基于关联数据的专业服务对基础数据提出新要求,如数据本体化须具体到人名、地名、时间等实体;数据保留关联性,以关联数据形式存储。在新的数据要求与数据量日益增加的背景下,传统通过人力来加工数据的方法,或提取简单的实体,无法满足需求。为此,研发命名实体识别工具,以上图关联数据为词典,结合HANLP技术,实现文本的实体挖掘。工具投入使用后,可对数据批量进行实体识别,改进了数据处理流程,缩短了数据加工周期。 展开更多
关键词 命名实体识别 关联数据 数字人文 文本标注
下载PDF
数字人文视域中的古籍文本标注方法研究——以MARKUS为例 被引量:6
5
作者 于亚秀 李欣 《大数据》 2022年第6期15-25,共11页
文本标注是文本分析挖掘中的重要一步,面对大规模古籍资源,人工标注无法满足人文研究需求,且古籍语法结构和语言特点特殊,现代文本标注技术很难直接用于古籍研究。在分析人文研究者进行古籍文本标注中面临的难点和痛点的基础上,提出普... 文本标注是文本分析挖掘中的重要一步,面对大规模古籍资源,人工标注无法满足人文研究需求,且古籍语法结构和语言特点特殊,现代文本标注技术很难直接用于古籍研究。在分析人文研究者进行古籍文本标注中面临的难点和痛点的基础上,提出普适性的古籍标注标准流程,给出基于MARKUS的文本标注模型,并通过具体实践,探索基于该模型的古籍文本标注方法,旨在助推借助数字人文工具改变古籍人文研究方式,拓宽研究规模的应用深度。 展开更多
关键词 数字人文 古籍 文本标注 MARKUS
下载PDF
面向烟草领域的文本标注语料库构建
6
作者 王永胜 刘亚丽 +6 位作者 宗国浩 王迪 王锐 王金棒 李丰霖 贾楠 冯伟华 《烟草科技》 CAS CSCD 北大核心 2024年第6期99-106,共8页
为快速获取烟草科技文献中的知识信息,通过交互式迭代学习的烟草知识实体标注与识别方法,构建了面向烟草领域的文本标注语料库,设计了适用于烟草领域的文本标注规范,并利用BERT+CRF(Bidirectional Encoder Representations from Transfo... 为快速获取烟草科技文献中的知识信息,通过交互式迭代学习的烟草知识实体标注与识别方法,构建了面向烟草领域的文本标注语料库,设计了适用于烟草领域的文本标注规范,并利用BERT+CRF(Bidirectional Encoder Representations from Transformers+Conditional Random Field)深度学习网络模型实现了烟草命名实体的识别和预标注,结合人工校对扩充了原始语料的规模,优化了模型性能。结果表明:语料标注一致性F1标注达92.4%;BERT+CRF模型识别能力优于常用的CRF、BiLSTM+CRF命名实体识别模型。该技术可为提升烟草领域文本分析和知识挖掘能力提供支持。 展开更多
关键词 烟草 文本标注 语料库 文本分析 知识服务
下载PDF
历史文本的词汇标记及应用 被引量:4
7
作者 项洁 胡其瑞 《数字人文研究》 2021年第1期48-64,共17页
历史文本是历史学研究的基础素材,通过对文本内容的爬网,历史学家将文本中有意义的信息整理、拼凑并脉络化.历史学是一门研究人在时间中的活动轨迹的学科,在加入地理空间的概念之后,历史文本将变得更加立体.跳脱以往在纸本数据中的线性... 历史文本是历史学研究的基础素材,通过对文本内容的爬网,历史学家将文本中有意义的信息整理、拼凑并脉络化.历史学是一门研究人在时间中的活动轨迹的学科,在加入地理空间的概念之后,历史文本将变得更加立体.跳脱以往在纸本数据中的线性阅读,对信息时代的历史文本,通过技术的协助增添词汇标记,再利用对标记词汇的分析与可视化,鸟瞰并掌握历史文本中隐含的脉络.通过探讨历史文本中人物、时间、地名与对象词汇标记对历史研究的意义,描述各种标记的目的与特性,尤其指出词汇标记不只是辨识词汇,还需要达到"消歧"与"聚合"的功能.同时介绍两个自动标记工具——"码库思古籍半自动标记平台"(MARKUS)和"批次标记工具"(CT Tool).这两个工具使得大量快速标记人、时、地、物成为可能.透过实际的研究成果案例,说明如何运用标记过的文本;透过时间、人物、地理与对象词汇标记的实际效益,说明历史文本中的词汇标记及其在历史研究中的应用.最后讨论事件标记的问题,指出事件标记与其他词汇标记本质上的不同. 展开更多
关键词 词汇标记 数字人文 历史文本 DocuSky MARKUS
原文传递
女大学生学习效能感:两种评价标准及其协调 被引量:3
8
作者 池丽萍 辛自强 《中华女子学院学报》 2006年第5期20-24,共5页
通过对33名女大学生的访谈,考察其对学习的认知及其学习效能感。在对所获文本信息进行了深入分析和诠释后得到以下结果:(1)由于大学学习方式的灵活多样性,导致了学习效能评价中出现了内部评价标准和外部评价标准的分离,引发认知失调;(2... 通过对33名女大学生的访谈,考察其对学习的认知及其学习效能感。在对所获文本信息进行了深入分析和诠释后得到以下结果:(1)由于大学学习方式的灵活多样性,导致了学习效能评价中出现了内部评价标准和外部评价标准的分离,引发认知失调;(2)被访女大学生通过三种途径协调两种评价标准之间的矛盾:重新界定“学习”,引申出两种学习观;对较差的学习成绩进行积极归因;引入新的协调认知的因素——兴趣。据此研究结果,建议适当鼓励女大学生自学并考察课下学习的效果,有效地将学习成绩和学生自我评价的学习能力统一起来,减少两种评价标准的矛盾。 展开更多
关键词 女大学生 学习效能感 学习观 文本诠释
下载PDF
基于Web的众包文本标注平台构建与应用 被引量:3
9
作者 项威 刘文卓 王邦 《计算机应用》 CSCD 北大核心 2022年第S01期1-6,共6页
针对现有文本标注工具中缺乏复杂类型标注功能和众包质量检测方法等问题,构建了一个基于Web的众包文本标注平台。一方面,平台采用浏览器/服务器(B/S)的开发架构和前后端分离的开发方式,实现了复杂类型文本标注的需求,提供序列标注、单... 针对现有文本标注工具中缺乏复杂类型标注功能和众包质量检测方法等问题,构建了一个基于Web的众包文本标注平台。一方面,平台采用浏览器/服务器(B/S)的开发架构和前后端分离的开发方式,实现了复杂类型文本标注的需求,提供序列标注、单标签标注、量级标签标注、多层次标签标注和嵌套文本标注等场景的文本标注功能;另一方面,还提出了一种基于监督数据的多数投票一致性检测方法,在随机注入的监督数据上计算标注参与者的标注能力,作为多数投票的权重,进行真值推断得到最终的标注结果。最后,进行了系统功能测试、系统性能测试和浏览器兼容性测试,测试结果表明该系统能够满足复杂类型文本标注的需求,所提出的一致性检测方法能够筛选出高质量的标注内容反馈给用户。提供了一个高效便捷的众包文本标注平台,以构建高质量的文本语料库,助力自然语言处理(NLP)相关任务的研究,并已部署在服务器上,互联网用户可直接通过浏览器访问。 展开更多
关键词 文本标注 自然语言处理 众包 WEB 一致性检测
下载PDF
Protégé文本标注工具在药物知识表示中的应用及其比较 被引量:3
10
作者 韦雯倩 南蓬 +4 位作者 陈燕 张晓艳 李轩 刘雷 李作峰 《复旦学报(自然科学版)》 CAS CSCD 北大核心 2009年第1期142-147,152,共7页
通过对药物基本信息的特征分析,使用Prot啨g啨软件构建药物本体,分别使用基于Protégé-Frames和Protégé-OWL的文本标注工具Knowtator和iAnnotate对临床药物指南文档进行标注,以达到药物基本信息的结构化,同时比较分... 通过对药物基本信息的特征分析,使用Prot啨g啨软件构建药物本体,分别使用基于Protégé-Frames和Protégé-OWL的文本标注工具Knowtator和iAnnotate对临床药物指南文档进行标注,以达到药物基本信息的结构化,同时比较分析了两个标注工具在生物医学信息学应用中的差异. 展开更多
关键词 药物本体 临床药物指南 PROTÉGÉ 文本标注
原文传递
Web环境合同管理系统中电子签名的设计与实现 被引量:3
11
作者 白丹 《机电产品开发与创新》 2016年第1期58-60,64,共4页
论文根据2005年4月我国《电子签名法》的实施,针对Web环境合同管理系统中数据流转的安全问题提出了一个解决方案。该方案基于.NET平台,采用ZSOffice中间件的数据抽取自动化技术和手机短信动态验证码技术等,实现了Web环境下Word文件中电... 论文根据2005年4月我国《电子签名法》的实施,针对Web环境合同管理系统中数据流转的安全问题提出了一个解决方案。该方案基于.NET平台,采用ZSOffice中间件的数据抽取自动化技术和手机短信动态验证码技术等,实现了Web环境下Word文件中电子印章/数字签名功能和文字批注功能,解决了在网络合同流转过程中签名带来的安全隐患问题,实现了合同流转过程中数据的安全性。目前该技术已成功应用在中国铁建电气化局集团第二工程有限公司的合同管理自动化办公系统中。 展开更多
关键词 ZSOffice中间件 电子签名 文字批注 手机动态验证码技术
下载PDF
面向问题意图识别的深度主动学习方法 被引量:2
12
作者 付煜文 马志柔 +3 位作者 刘杰 白琳 薄满辉 叶丹 《中文信息学报》 CSCD 北大核心 2021年第4期92-99,109,共9页
深度学习已经在许多自然语言处理任务中达到了最高水平的性能,但是这种方法通常需要大量的标注数据。该文围绕问题意图识别语料标注问题,结合深度学习和主动学习技术,实现了语料标注成本的降低。主动学习需要不断迭代地再训练,计算成本... 深度学习已经在许多自然语言处理任务中达到了最高水平的性能,但是这种方法通常需要大量的标注数据。该文围绕问题意图识别语料标注问题,结合深度学习和主动学习技术,实现了语料标注成本的降低。主动学习需要不断迭代地再训练,计算成本非常高,为加速这个进程,该文提出了一种适合问题意图识别任务的轻量级架构,使用双层CNN结构组成的深度学习模型。同时为更好地评估样本的价值,设计了一种结合样本的信息性、代表性与多样性的多准则主动学习方法。最终在民航客服语料下进行实验,实验结果表明该方法可减少约50%的标注工作量,同时在公开数据集TREC问题分类语料上验证了该方法的通用性。 展开更多
关键词 主动学习 文本标注 意图识别
下载PDF
AutoCAD在公路路线绘图中的应用——利用AutoCAD绘制公路缓和曲线及里程桩的标注和文字注解 被引量:2
13
作者 米桂杰 《企业技术开发》 2010年第3期48-48,93,共2页
近年来AutoCAD技术飞速发展,在公路设计中的应用十分广泛,文章就绘制公路缓和曲线及里程桩的标注和加文字注解等几方面进行阐述。
关键词 AUTOCAD 绘制缓和曲线 里程桩标注 文字注解
下载PDF
GIS控件中注记功能的实现和扩展
14
作者 孙喜梅 《地理空间信息》 2008年第6期31-33,共3页
注记功能在地理信息系统及其应用系统的开发利用中是非常重要的一个部分。注记使地图更加有效地进行信息传输,注记设计好坏直接影响着地图成图的质量以及对地理信息的理解。随着组件式开发技术的蓬勃发展,GIS的开发设计有了长足的进步。... 注记功能在地理信息系统及其应用系统的开发利用中是非常重要的一个部分。注记使地图更加有效地进行信息传输,注记设计好坏直接影响着地图成图的质量以及对地理信息的理解。随着组件式开发技术的蓬勃发展,GIS的开发设计有了长足的进步。以MO为代表的组件式开发模式在GIS中得到广泛应用。利用MO和VB集成进行地理信息系统注记开发,高质量地实现了MO的文字、符号、鼠标提示等自动注记功能。 展开更多
关键词 GIS COMGIS 注记功能 文字注记 集成开发
下载PDF
语言标注框架评述与对比分析
15
作者 罗程多 赵耀 《网络新媒体技术》 2019年第3期63-66,22,共5页
数据驱动是当前机器学习和人工智能技术的一大特征。高质量、大规模的标注数据集是领域技术发展的根基。在自然语言处理领域,标注数据的质量和数量直接决定了某个语言处理任务是否标准化,方法模型能否在公平条件下被评估和比较。而语言... 数据驱动是当前机器学习和人工智能技术的一大特征。高质量、大规模的标注数据集是领域技术发展的根基。在自然语言处理领域,标注数据的质量和数量直接决定了某个语言处理任务是否标准化,方法模型能否在公平条件下被评估和比较。而语言数据的人工标注是一个十分繁琐和复杂的过程,其中涉及诸如标注质量、标注管理、标注效率等诸多问题。为了解决这些问题,研究者提出了大量语言标注的工具和框架。本文介绍了语言标注的基本理论和技术,并对主流的两个语言标注框架GATE和UIMA进行评述和比较。 展开更多
关键词 语言标注 文本标注 标注框架
下载PDF
融合语义与图像的大规模图像集检索算法 被引量:1
16
作者 解姗姗 神显豪 《重庆理工大学学报(自然科学)》 CAS 北大核心 2019年第7期178-186,共9页
目前的大数据图像检索算法大多仅支持单一的关键词或者图像查询,为此提出了一种语义与图像概率融合的社交媒体图像检索算法。该算法提取图像的空间位置特征与颜色特征,并提取文字标注信息,将两种特征基于概率进行融合。为了解决图像标... 目前的大数据图像检索算法大多仅支持单一的关键词或者图像查询,为此提出了一种语义与图像概率融合的社交媒体图像检索算法。该算法提取图像的空间位置特征与颜色特征,并提取文字标注信息,将两种特征基于概率进行融合。为了解决图像标注缺失与标注噪声的问题,设计了新的主题模型,根据共生的标注信息与视觉特征提取图像的语义主题。主题模型中基于视觉特征生成的最近主题能够有效地增强图像与文字标注之间的相关性。此外,主题模型能够有效地补全缺失的文字标注信息,同时删除噪声标注。基于不同规模的数据集进行了仿真实验,结果显示:该算法支持单一的关键词查询、图像查询以及两者的组合查询,并实现了较高的检索准确率。 展开更多
关键词 社交图像 图像视觉特征 主题模型 文字标注 半监督学习 图像检索
下载PDF
梁思成与《营造法式注释》——纪念梁思成先生诞辰120周年 被引量:1
17
作者 王贵祥 《建筑史学刊》 2021年第2期31-45,共15页
宋李诫《营造法式》在很长时期内,是一部无人能懂的天书。中国营造学社为这部书的研究制定了计划,梁思成等先生加盟学社后,先从清式营造法入手,撰写出版了《清式营造则例》,为研究中国古代建筑之初步。进而探索宋式建筑,从辽、宋及唐代... 宋李诫《营造法式》在很长时期内,是一部无人能懂的天书。中国营造学社为这部书的研究制定了计划,梁思成等先生加盟学社后,先从清式营造法入手,撰写出版了《清式营造则例》,为研究中国古代建筑之初步。进而探索宋式建筑,从辽、宋及唐代建筑遗例开始,经十数年实例考察与探究,完成《中国建筑史》。后进一步展开《营造法式》研究,在十分艰难的外部条件下,梁思成先生仍在辞世之前基本完成《营造法式注释》上下册基础文本。上卷初版于1982年,全书出版于2001年,为世人学习古代典籍《营造法式》,奠定了具有重大突破性的研究基础。 展开更多
关键词 梁思成 《营造法式》 版本校核 实例勘合 文本注释
下载PDF
毛泽东阶级分析法的逻辑起点及其诠释范式——《中国社会各阶级的分析》的文本学解读 被引量:1
18
作者 王浩斌 王飞南 《太原理工大学学报(社会科学版)》 2008年第1期9-12,共4页
"马克思主义的文本视域"、"中国传承文化视域"以及"现实的社会实践视域"之间的视域融合,构成了《中国社会各阶级的分析》文本解读语境中毛泽东阶级分析法的逻辑起点;对《中国社会各阶级的分析》进行深入... "马克思主义的文本视域"、"中国传承文化视域"以及"现实的社会实践视域"之间的视域融合,构成了《中国社会各阶级的分析》文本解读语境中毛泽东阶级分析法的逻辑起点;对《中国社会各阶级的分析》进行深入的文本学解读可以发现,毛泽东的阶级分析法中内蕴着一种科学解读马克思主义的诠释范式即实践诠释范式。 展开更多
关键词 毛泽东 阶级分析法 逻辑起点 文本学解读
下载PDF
科技创新政策文本本体设计与标注应用研究
19
作者 翁梦娟 宋宁远 《情报探索》 2020年第2期42-49,共8页
[目的/意义]旨在为提升政策文本的自动化处理程度提供参考。[方法/过程]在梳理已有政策本体及其构建方式基础上,提出由词汇语义主导的自下而上的本体构建方法,运用本体构建工具Protégé5.5.0构建科技创新政策文本本体,对部分... [目的/意义]旨在为提升政策文本的自动化处理程度提供参考。[方法/过程]在梳理已有政策本体及其构建方式基础上,提出由词汇语义主导的自下而上的本体构建方法,运用本体构建工具Protégé5.5.0构建科技创新政策文本本体,对部分政策内容进行标注并可视化。[结果/结论]该本体适用于科技创新政策文本的结构化语义抽取,能够在一定程度上揭示科技创新政策的结构化语义特征。 展开更多
关键词 科技创新政策 文本本体 本体构建 文本标注
下载PDF
利用AutoLISP程序提高水泥厂建筑设计效率
20
作者 施增新 《水泥工程》 CAS 2017年第3期74-76,共3页
设计绘图的参数化和文字标注的智能化是提高设计效率的有效途径。在AutoACD的平台上,针对水泥厂建筑设计的特点,笔者对水泥厂建筑设计中常用图形和文字标注开发了一些AutoLISP程序。在提建筑设计效率的同时,也对提高设计质量有帮助。现... 设计绘图的参数化和文字标注的智能化是提高设计效率的有效途径。在AutoACD的平台上,针对水泥厂建筑设计的特点,笔者对水泥厂建筑设计中常用图形和文字标注开发了一些AutoLISP程序。在提建筑设计效率的同时,也对提高设计质量有帮助。现将部分程序的功能作一简要介绍。 展开更多
关键词 参数化 智能化 AUTOLISP程序 水泥厂建筑 文字标注
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部