针对现有电力系统中智能客服机器人语义理解能力不足、关键词定位不准等问题,提出基于条件随机场(conditional random field,CRF)的命名实体识别(named entity recognition,NER)算法。根据实际的电力服务问答数据集,构建领域专用知识库...针对现有电力系统中智能客服机器人语义理解能力不足、关键词定位不准等问题,提出基于条件随机场(conditional random field,CRF)的命名实体识别(named entity recognition,NER)算法。根据实际的电力服务问答数据集,构建领域专用知识库,对语料进行分词与自动标注,并提取出"(地点,故障,解决方案)"的命名实体三元组。在标注后的问答语料数据集上对识别模型进行训练,可以对语料中与3类命名实体关联的关键词进行定位,实现对3类实体的识别并自动构建三元组。在测试语料上的实验结果表明,该算法相对现有方法有效提高了对位置、故障和解决方案3类实体的识别准确率,分别达到了96.44%、92.04%和95.12%。展开更多
CLP2010(CIPS-SIGHAN Joint Conference on Chinese Language Processing)的人名消歧评测的任务是个聚类问题:对给定的一组文档,按照文档中出现的指定查询词所指向的人进行聚类。由于是用"字"串匹配的方法从新华社的语料库中...CLP2010(CIPS-SIGHAN Joint Conference on Chinese Language Processing)的人名消歧评测的任务是个聚类问题:对给定的一组文档,按照文档中出现的指定查询词所指向的人进行聚类。由于是用"字"串匹配的方法从新华社的语料库中抽出所有含有该查询词的文档。所以对于这个任务,首要问题是判定查询词是否是人名,是完整人名还是人名的一部分。为此该文实现了一个基于多实体识别系统整合和启发式规则的后处理方法的人名识别系统,从而实现对文档中的人名,特别是查询词所涉及的人名的识别。在CLP2010的评测方给的训练集上的实验表明,查询词涉及的人名的识别正确率达到98.89%。展开更多
为在模型训练期间保留更多信息,用预训练词向量和微调词向量对双向长短期记忆网络(Bi-LSTM)神经模型进行扩展,并结合协同训练方法来应对医疗文本标注数据缺乏的情况,构建出改进模型CTD-BLSTM(Co-Training Double word embedding conditi...为在模型训练期间保留更多信息,用预训练词向量和微调词向量对双向长短期记忆网络(Bi-LSTM)神经模型进行扩展,并结合协同训练方法来应对医疗文本标注数据缺乏的情况,构建出改进模型CTD-BLSTM(Co-Training Double word embedding conditioned Bi-LSTM)用于医疗领域的中文命名实体识别.实验表明,与原始BLSTM与BLSTM-CRF相比,CTD-BLSTM模型在语料缺失的情况下具有更高的准确率和召回率,能够更好地支持医疗领域知识图谱的构建以及知识问答系统的开发.展开更多
文摘针对现有电力系统中智能客服机器人语义理解能力不足、关键词定位不准等问题,提出基于条件随机场(conditional random field,CRF)的命名实体识别(named entity recognition,NER)算法。根据实际的电力服务问答数据集,构建领域专用知识库,对语料进行分词与自动标注,并提取出"(地点,故障,解决方案)"的命名实体三元组。在标注后的问答语料数据集上对识别模型进行训练,可以对语料中与3类命名实体关联的关键词进行定位,实现对3类实体的识别并自动构建三元组。在测试语料上的实验结果表明,该算法相对现有方法有效提高了对位置、故障和解决方案3类实体的识别准确率,分别达到了96.44%、92.04%和95.12%。
文摘CLP2010(CIPS-SIGHAN Joint Conference on Chinese Language Processing)的人名消歧评测的任务是个聚类问题:对给定的一组文档,按照文档中出现的指定查询词所指向的人进行聚类。由于是用"字"串匹配的方法从新华社的语料库中抽出所有含有该查询词的文档。所以对于这个任务,首要问题是判定查询词是否是人名,是完整人名还是人名的一部分。为此该文实现了一个基于多实体识别系统整合和启发式规则的后处理方法的人名识别系统,从而实现对文档中的人名,特别是查询词所涉及的人名的识别。在CLP2010的评测方给的训练集上的实验表明,查询词涉及的人名的识别正确率达到98.89%。