在命名实体识别任务中,运用词典匹配的方法能够添加丰富的文本特征,但匹配到的词组信息多使用静态归一化的方法,缺乏自动推理能力。提出了基于动态词典匹配的语义增强中文命名实体识别方法。对输入句子中的字符,在词典中进行动态词组匹...在命名实体识别任务中,运用词典匹配的方法能够添加丰富的文本特征,但匹配到的词组信息多使用静态归一化的方法,缺乏自动推理能力。提出了基于动态词典匹配的语义增强中文命名实体识别方法。对输入句子中的字符,在词典中进行动态词组匹配,利用神经网络对词组加权,结合word2vec与ALBERT得到字符的增强特征表示;在序列建模层运用BiLSTM对字符的word2vec向量与字符增强特征进行模型训练;在标签推理层运用条件随机场(Conditional Random Field,CRF)识别命名实体。在中文Resume和Weibo数据集上进行实验,验证结果表明,该方法比传统方法具有更好的效果。展开更多
文摘新事件检测(new event detection,简称NED)的目标是从一个或多个新闻源中检测出报道一个新闻话题的第一个新闻.初步实验发现,在对不同类别的新闻报道进行新事件检测时,其不同类型的词元往往具有不同的敏感程度.而传统方法往往将所有的词元等同看待.重点研究在新事件检测模型中,对于不同词元的权重设定问题.提出利用统计方法优化不同类别新闻对于不同词性词元的权重参数;提出利用已有新闻簇信息动态更新词元权重的方法,采用在新闻之间(而非新闻与新闻簇之间)计算相似度的形式,发挥两种比较形式的优点.在Linguistic Data Consortium(LDC)公共数据集TDT2与TDT3上进行实验,实验结果表明,这两种改进方法的效果明显,性能与同类系统相比有显著提升.
文摘在命名实体识别任务中,运用词典匹配的方法能够添加丰富的文本特征,但匹配到的词组信息多使用静态归一化的方法,缺乏自动推理能力。提出了基于动态词典匹配的语义增强中文命名实体识别方法。对输入句子中的字符,在词典中进行动态词组匹配,利用神经网络对词组加权,结合word2vec与ALBERT得到字符的增强特征表示;在序列建模层运用BiLSTM对字符的word2vec向量与字符增强特征进行模型训练;在标签推理层运用条件随机场(Conditional Random Field,CRF)识别命名实体。在中文Resume和Weibo数据集上进行实验,验证结果表明,该方法比传统方法具有更好的效果。