【目的】梳理深度学习模型在术语识别中的研究现状与面临挑战。【文献范围】在中国知网和Web of Science中,分别以主题=“术语识别”+“术语抽取”、主题=“(extract terms OR term recognition OR technology detection OR relation cl...【目的】梳理深度学习模型在术语识别中的研究现状与面临挑战。【文献范围】在中国知网和Web of Science中,分别以主题=“术语识别”+“术语抽取”、主题=“(extract terms OR term recognition OR technology detection OR relation classification)AND deep learning AND ner”作为检索式进行检索,共筛选73篇文献进行述评。【方法】对基于深度学习的术语识别一般框架、模型的选择及各模型的优缺点、未来发展趋势进行综述。【结果】基于深度学习的术语识别方法可划分为使用单一神经网络模型、复合神经网络模型和结合深度学习模型的术语识别三大类。从方法使用来看,以BiLSTM-CRF为核心及延伸的模型是术语识别的主流方法;BERT及BERT的优化模型是近年来的研究热点;在特定领域倾向于使用多任务模型代替神经网络模型;迁移学习以及主动学习的应用成为新的研究方向。【局限】仅对已有研究的不同模型及训练结果进行结构化分析,缺少对不同模型在同一数据集上的训练效果对比,待未来进一步研究。【结论】基于深度学习的术语识别未来可在术语标注模式、融合术语的多维特征、小数据集或零数据集的术语识别技术、跨领域模型泛化、结果可解释性和完善评价方法等方面深入研究。展开更多
提出ATValue(Advanced TValue and Fieldhood Integration)术语抽取法。为提高术语抽取质量,在TValue五属性的基础上,提出领域度。通过相关性分析获得六属性组合值AValue,最后识别AValue高于术语可信度的词串来选择候选术语。能源行业...提出ATValue(Advanced TValue and Fieldhood Integration)术语抽取法。为提高术语抽取质量,在TValue五属性的基础上,提出领域度。通过相关性分析获得六属性组合值AValue,最后识别AValue高于术语可信度的词串来选择候选术语。能源行业的实验结果表明:ATValue术语抽取法的F值约比TValue术语抽取法高出2个百分点,原因在于ATValue的领域度测算了词串中各种单词对领域的贡献。展开更多
文摘【目的】梳理深度学习模型在术语识别中的研究现状与面临挑战。【文献范围】在中国知网和Web of Science中,分别以主题=“术语识别”+“术语抽取”、主题=“(extract terms OR term recognition OR technology detection OR relation classification)AND deep learning AND ner”作为检索式进行检索,共筛选73篇文献进行述评。【方法】对基于深度学习的术语识别一般框架、模型的选择及各模型的优缺点、未来发展趋势进行综述。【结果】基于深度学习的术语识别方法可划分为使用单一神经网络模型、复合神经网络模型和结合深度学习模型的术语识别三大类。从方法使用来看,以BiLSTM-CRF为核心及延伸的模型是术语识别的主流方法;BERT及BERT的优化模型是近年来的研究热点;在特定领域倾向于使用多任务模型代替神经网络模型;迁移学习以及主动学习的应用成为新的研究方向。【局限】仅对已有研究的不同模型及训练结果进行结构化分析,缺少对不同模型在同一数据集上的训练效果对比,待未来进一步研究。【结论】基于深度学习的术语识别未来可在术语标注模式、融合术语的多维特征、小数据集或零数据集的术语识别技术、跨领域模型泛化、结果可解释性和完善评价方法等方面深入研究。
文摘提出ATValue(Advanced TValue and Fieldhood Integration)术语抽取法。为提高术语抽取质量,在TValue五属性的基础上,提出领域度。通过相关性分析获得六属性组合值AValue,最后识别AValue高于术语可信度的词串来选择候选术语。能源行业的实验结果表明:ATValue术语抽取法的F值约比TValue术语抽取法高出2个百分点,原因在于ATValue的领域度测算了词串中各种单词对领域的贡献。