在生物医学文本挖掘领域,化学药物命名实体识别具有重要意义.目前的主流方法是基于条件随机场(conditional random fields,CRF)的方法,但是该方法需要大量的人工特征,并且存在实体标签的全文非一致性问题.针对此问题,提出一种基于注意(A...在生物医学文本挖掘领域,化学药物命名实体识别具有重要意义.目前的主流方法是基于条件随机场(conditional random fields,CRF)的方法,但是该方法需要大量的人工特征,并且存在实体标签的全文非一致性问题.针对此问题,提出一种基于注意(Attention)机制的深度学习方法.该方法首先从海量生物文本中学习词向量,然后利用双向长短期记忆网络(BiLSTM)学习字符向量,随后将词向量和字符向量再经过另一个BiLSTM以获得词的上下文表示,然后再利用Attention机制获得词在全文范围下的上下文表示,最后利用CRF层得到整篇文章的标签序列.实验结果表明:相比之前的研究方法,提高了在同一篇文章中实体识别的一致性,并在BioCreative IV评测中的CHEMDNER数据集上取得了更好的结果(F值为90.77%).展开更多
近年来,网络媒体微博的迅速发展,为命名实体的识别研究提供了一种全新的载体.针对中文微博文本短、表达不清、网络化严重等特点,论文提出了一种规则与统计相结合的中文微博命名实体识别方法.该方法首先利用中文微博的主题标签对处理后...近年来,网络媒体微博的迅速发展,为命名实体的识别研究提供了一种全新的载体.针对中文微博文本短、表达不清、网络化严重等特点,论文提出了一种规则与统计相结合的中文微博命名实体识别方法.该方法首先利用中文微博的主题标签对处理后的数据进行筛选,然后再选取合适的特征模板,并利用条件随机场模型(Conditional random fields,CRF)进行实体识别.为了满足实验要求,该文将传统网页爬虫方法与API接口采集方法相结合进行微博数据采集.实验结果表明,该方法能够有效提高中文微博命名实体的识别效果.展开更多
文摘在生物医学文本挖掘领域,化学药物命名实体识别具有重要意义.目前的主流方法是基于条件随机场(conditional random fields,CRF)的方法,但是该方法需要大量的人工特征,并且存在实体标签的全文非一致性问题.针对此问题,提出一种基于注意(Attention)机制的深度学习方法.该方法首先从海量生物文本中学习词向量,然后利用双向长短期记忆网络(BiLSTM)学习字符向量,随后将词向量和字符向量再经过另一个BiLSTM以获得词的上下文表示,然后再利用Attention机制获得词在全文范围下的上下文表示,最后利用CRF层得到整篇文章的标签序列.实验结果表明:相比之前的研究方法,提高了在同一篇文章中实体识别的一致性,并在BioCreative IV评测中的CHEMDNER数据集上取得了更好的结果(F值为90.77%).
文摘近年来,网络媒体微博的迅速发展,为命名实体的识别研究提供了一种全新的载体.针对中文微博文本短、表达不清、网络化严重等特点,论文提出了一种规则与统计相结合的中文微博命名实体识别方法.该方法首先利用中文微博的主题标签对处理后的数据进行筛选,然后再选取合适的特征模板,并利用条件随机场模型(Conditional random fields,CRF)进行实体识别.为了满足实验要求,该文将传统网页爬虫方法与API接口采集方法相结合进行微博数据采集.实验结果表明,该方法能够有效提高中文微博命名实体的识别效果.