-
题名面向互联网资源的医学命名实体识别研究
被引量:6
- 1
-
-
作者
田家源
杨东华
王宏志
-
机构
哈尔滨工业大学计算机科学与技术学院
哈尔滨工业大学基础与交叉科学研究院
-
出处
《计算机科学与探索》
CSCD
北大核心
2018年第6期898-907,共10页
-
基金
国家自然科学基金Nos.61472099
61772157
国家科技支撑计划No.2015BAH10F01~~
-
文摘
医学信息提取的第一步在于命名实体识别,然而公开医学语料的缺乏使得这项工作困难重重。已有的研究大都建立在少量人工标注的文本之上,不具备很好的推广性。互联网作为大量数据的聚集地,可以从中进行医学知识的提取。针对互联网资源规模大,结构化程度低,缺乏标注等特点,提出了一种迭代式框架来对其加以利用。使用融合通用模型和领域词典的方法对文本进行标注,缓解了领域不同带来的精度降低问题。使用在线方法来构建模型,避免了迭代中对模型进行整体重构。在命名实体识别模型中融入了词法特征、词缀特征、词长特征等,提高了模型的识别能力。提出了一种启发式的模型压缩方法,增强模型的可用性。实验结果表明,所提出的策略是有效的。
-
关键词
命名实体识别
互联网资源
迭代框架
平均感知器
-
Keywords
named entity recognition
Internet resources
iterative framework
average perceptron
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名结构片断和运行日志相结合的流程设计推荐
被引量:2
- 2
-
-
作者
宇菲
郭立鹏
张亮
-
机构
复旦大学计算机科学技术学院上海数据科学重点实验室
-
出处
《小型微型计算机系统》
CSCD
北大核心
2017年第4期664-670,共7页
-
基金
国家自然科学基金项目(60873115)资助
教育部-中国移动科研基金项目(MCM20123011)资助
+2 种基金
上海市科技发展基金项目(13dz2260200
13511504300)资助
国家"八六三"高技术研究发展计划项目(2012AA02A602)资助
-
文摘
广泛且持久的业务运作造就了业务大数据背景,大量的业务运作历史记录信息可被利用,互联网时期企业唾手可得的运行日志和参考流程模型给当今企业流程建模带来了新的机遇.如何利用这些机遇尚缺乏有效的支撑技术,流程挖掘和流程检索仅可靠单一的来源、静态的标准、全局化粒度缓解上述矛盾,且不能体现流程设计这种活动创造性本质.提出一种用平均感知机综合历史执行日志和参考模型片段的设计时模型推荐方法.其特点是兼顾了日志数据和流程模型,并将设计这种人类所特有的创造性和对现实环境的适应性结合进流程建模过程中.在三个不同类型的数据集上的实验表明,本方法具有更好的人类行为贴近度:真实的生物信息学实验流程(实验准确度53.69%)、相关工作对比数据集(+42.35%)、Pro M仿真工具PLG生成的大规模数据(比只考虑流程时+9.46%,比只考虑日志时+5.94%),证实了通过抽取多重特征的平均感知机的流程设计时即时推荐技术可有效地辅助流程业务建模.
-
关键词
业务流程建模
运行日志
平均感知机
流程片段
-
Keywords
business modelling
running log
average perceptron
workflow fragments
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名结合全局特征的命名实体属性值抽取
被引量:5
- 3
-
-
作者
刘倩
伍大勇
刘悦
程学旗
庞琳
-
机构
中国科学院计算技术研究所网络数据科学与技术重点实验室
中国科学院大学
国家计算机网络应急技术处理协调中心
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2016年第4期941-948,共8页
-
基金
国家"九七三"重点基础研究发展计划基金项目(2012CB316303
2014CB340401)
+1 种基金
国家自然科学基金重点项目(61232010)
国家科技支撑计划基金项目(2012BAH39B02)~~
-
文摘
关注非结构化文本中命名实体属性值的抽取问题.当前主流有监督属性值抽取方法仅使用局部特征,抽取效果有限,开展了利用文本全局特征改善属性值抽取的研究.通过适用于中文属性值抽取的全局特征,用局部特征以外的有价值信息提高抽取效果.据此,提出结合全局特征的感知机学习算法,该算法能够方便地融合文本全局特征,并将全局特征和局部特征统一结合到模型学习过程中,使模型具有更好的特征表示能力.实验结果表明,所提出方法的整体抽取效果高于仅使用局部特征的CRF模型和平均感知机模型.该方法适用于开放领域的属性值获取,具有较好的泛化能力.
-
关键词
实体属性
属性值抽取
命名实体
全局特征
平均感知机
-
Keywords
entity attribute
attribute-value extraction
named entity
global feature
averaged perceptron
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于级联重排序的汉语音字转换
被引量:1
- 4
-
-
作者
李鑫鑫
王轩
姚霖
关键
-
机构
哈尔滨工业大学深圳研究生院计算机应用研究中心
深圳互联网多媒体应用技术工程实验室
移动互联网应用安全产业公共服务平台
-
出处
《自动化学报》
EI
CSCD
北大核心
2014年第4期624-634,共11页
-
基金
国家科技部重大科技专项(2011ZX03002-004-01)
深圳市基础研究重点项目(JC201104210032A
JC201005260112A)资助~~
-
文摘
N元语言模型是解决汉字音字转换问题最常用的方法.但在解析过程中,每一个新词的确定只依赖于前面的邻近词,缺乏长距离词之间的句法和语法约束.我们引入词性标注和依存句法等子模型等来加强这种约束关系,并采用两个重排序方法来利用这些子模型提供的信息:1)线性重排序方法,采用最小错误学习方法来得到各个子模型的权重,然后产生候选词序列的概率;2)采用平均感知器方法对候选词序列进行重排序,能够利用词性、依存关系等复杂特征.实验结果显示,两种方法都能有效地提高词N元语言模型的性能.而将这两种方法进行级联,即首先采用线性重排序方法,然后把产生的概率作为感知器重排序方法的初始概率时性能取得最优.
-
关键词
汉语音字转换
重排序
最小错误学习
感知器方法
-
Keywords
Chinese pinyin-to-character conversion, reranking approach, minimum error learning, averaged perceptron
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-