期刊文献+
共找到41篇文章
< 1 2 3 >
每页显示 20 50 100
理论术语抽取的深度学习模型及自训练算法研究 被引量:39
1
作者 赵洪 王芳 《情报学报》 CSSCI CSCD 北大核心 2018年第9期923-938,共16页
理论术语的抽取是大规模文献内容分析和跨学科知识转移深度揭示的基础。作为一种特定类型的命名实体,理论术语涉及的学科多、文献规模大、特征复杂,也缺乏大规模的成熟语料,因而抽取难度较大。为提高理论术语的抽取性能并降低训练集的... 理论术语的抽取是大规模文献内容分析和跨学科知识转移深度揭示的基础。作为一种特定类型的命名实体,理论术语涉及的学科多、文献规模大、特征复杂,也缺乏大规模的成熟语料,因而抽取难度较大。为提高理论术语的抽取性能并降低训练集的人工标注代价,本文构建了面向理论术语抽取的深度学习模型,并研究了该模型中理论术语的特征构造和标注方法,同时也提出了一种自训练算法以实现模型的弱监督学习。通过实验对比,分别验证了本文模型和自训练算法的有效性,不仅为理论术语抽取提供了更加有效的通用方法,也为其他类型命名实体的识别研究提供了方法参考。 展开更多
关键词 理论术语抽取 深度学习 循环神经网络 bi-lstm-crf 自训练
下载PDF
基于BI-LSTM-CRF模型的中文分词法 被引量:21
2
作者 张子睿 刘云清 《长春理工大学学报(自然科学版)》 2017年第4期87-92,共6页
递归神经网络能够很好地处理序列标记问题,已被广泛应用到自然语言处理(NLP)任务中。提出了一种基于长短期记忆(LSTM)神经网络改进的双向长短期记忆条件随机场(BI-LSTM-CRF)模型,不仅保留了LSTM能够利用上下文信息的特性,同时能够通过CR... 递归神经网络能够很好地处理序列标记问题,已被广泛应用到自然语言处理(NLP)任务中。提出了一种基于长短期记忆(LSTM)神经网络改进的双向长短期记忆条件随机场(BI-LSTM-CRF)模型,不仅保留了LSTM能够利用上下文信息的特性,同时能够通过CRF层考虑输出标签之间前后的依赖关系。利用该分词模型,通过加入预训练的字嵌入向量,以及使用不同词位标注集在Bakeoff2005数据集上进行的分词实验,结果表明:BI-LSTM-CRF模型比LSTM和双向LSTM模型具有更好的分词性能,同时具有很好地泛化能力;相比四词位,采用六词位标注集的神经网络模型能够取得更好的分词性能。 展开更多
关键词 中文分词 bi-lstm-crf 词位标注
下载PDF
基于Bi-LSTM-CRF的商业领域命名实体识别 被引量:17
3
作者 丁晟春 方振 王楠 《现代情报》 CSSCI 2020年第3期103-110,共8页
[目的/意义]为解决目前网络公开平台的多源异构的企业数据的散乱、无序、碎片化问题,提出Bi-LSTM-CRF深度学习模型进行商业领域中的命名实体识别工作。[方法/过程]该方法包括对企业全称实体、企业简称实体与人名实体3类命名实体识别。[... [目的/意义]为解决目前网络公开平台的多源异构的企业数据的散乱、无序、碎片化问题,提出Bi-LSTM-CRF深度学习模型进行商业领域中的命名实体识别工作。[方法/过程]该方法包括对企业全称实体、企业简称实体与人名实体3类命名实体识别。[结果/结论]实验结果显示对企业全称实体、企业简称实体与人名实体3类命名实体识别的识别率平均F值为90.85%,验证了所提方法的有效性,证明了本研究有效地改善了商业领域中的命名实体识别效率。 展开更多
关键词 商业领域 命名实体识别 深度学习 bi-lstm-crf
下载PDF
基于深度学习的数据科学招聘实体自动抽取及分析研究 被引量:15
4
作者 王东波 胡昊天 +1 位作者 周鑫 朱丹浩 《图书情报工作》 CSSCI 北大核心 2018年第13期64-73,共10页
[目的/意义]数据科学作为一个融合诸多领域的新兴交叉学科正在快速形成。从数据科学招聘的公告信息中,抽取出相应的实体知识不仅有助于从市场的角度了解数据科学的发展动态,而且有助于改进数据科学教学的内容。[方法/过程]基于各大... [目的/意义]数据科学作为一个融合诸多领域的新兴交叉学科正在快速形成。从数据科学招聘的公告信息中,抽取出相应的实体知识不仅有助于从市场的角度了解数据科学的发展动态,而且有助于改进数据科学教学的内容。[方法/过程]基于各大招聘网站职位招聘公告,结合情报学的数据获取、标注和组织方法,构建数据科学招聘语料库并从中抽取相应的实体进行分析与研究。[结果/结论]在搜集到的11000篇经过标注的职位招聘公告语料的基础上,基于Bi-LSTM-CRF、CRF和Bi—LSTM模型,对数据科学招聘实体的抽取任务进行性能的对比,确定最终的数据科学招聘实体自动抽取模型,设计数据科学招聘实体自动抽取平台,并构建数据科学招聘实体网络。 展开更多
关键词 数据科学 条件随机场 深度学习 bi-lstm-crf
原文传递
新时代人民日报分词语料库构建、性能及应用(二)——深度学习自动分词模型构建 被引量:9
5
作者 黄水清 王东波 《图书情报工作》 CSSCI 北大核心 2019年第23期5-12,共8页
[目的/意义]在新时代人民日报分词语料库的基础上构建的深度学习自动分词模型,不仅有助于为高性能分词模型的构建提供经验,也可以借助具体的自然语言处理研究任务验证深度学习相应模型的性能。[方法/过程]在介绍双向长短时记忆模型(Bi-L... [目的/意义]在新时代人民日报分词语料库的基础上构建的深度学习自动分词模型,不仅有助于为高性能分词模型的构建提供经验,也可以借助具体的自然语言处理研究任务验证深度学习相应模型的性能。[方法/过程]在介绍双向长短时记忆模型(Bi-LSTM)和双向长短时记忆与条件随机场融合模型(Bi-LSTM-CRF)的基础上,阐明汉语分词语料预处理、评价指标和参数与硬件平台的过程、种类和情况,分别构建Bi-LSTM和Bi-LSTM-CRF汉语自动分词模型,并对模型的整体性能进行分析。[结果/结论]从精准率、召回率和调和平均值3个指标上看,所构建的Bi-LSTM和Bi-LSTM-CRF汉语自动分词模型的整体性能相对较为合理。在具体性能上,Bi-LSTM分词模型优于Bi-LSTM-CRF分词模型,但这一差距非常细微。 展开更多
关键词 新时代人民日报分词语料 语料库 自动分词 深度学习 bi-lstm bi-lstm-crf
原文传递
基于Bi-LSTM+CRF的科学文献中生态治理技术相关命名实体抽取研究 被引量:8
6
作者 马建霞 袁慧 蒋翔 《数据分析与知识发现》 CSSCI CSCD 北大核心 2020年第2期78-88,共11页
【目的】从文本中抽取脆弱生态治理技术、实施地、实施时间等命名实体,并分析相关态势。【方法】利用Bi-LSTM+CRF结合基于特征的命名实体知识库对脆弱生态治理领域CNKI数据库中的相关文献进行脆弱生态治理技术、地名实体、时间实体的自... 【目的】从文本中抽取脆弱生态治理技术、实施地、实施时间等命名实体,并分析相关态势。【方法】利用Bi-LSTM+CRF结合基于特征的命名实体知识库对脆弱生态治理领域CNKI数据库中的相关文献进行脆弱生态治理技术、地名实体、时间实体的自动抽取和标记。【结果】对于中文文献中生态治理技术相关实体的抽取,获得P值74.34%、R值64.04%和F1值68.81%。采用Bi-LSTM+CRF神经网络模型与单纯采用CRF相比,P值提高9.41%,F1值提高4.26%,R值基本持平。【局限】依赖于中文分词工具的准确性;仅对相关的实体进行抽取,尚未抽取实体之间的关系。【结论】Bi-LSTM+CRF结合基于特征的命名实体知识库抽取命名实体技术,可用于基于细粒度内容的资源环境情报分析。 展开更多
关键词 bi-lstm+crf 文本挖掘 生态治理技术 命名实体识别
原文传递
基于NER 的石油非结构化信息抽取研究 被引量:7
7
作者 钟原 刘小溶 +2 位作者 王杰 陈雁 张泰 《西南石油大学学报(自然科学版)》 CAS CSCD 北大核心 2020年第6期165-173,共9页
随着“智能油田”的建设加快,构建基于海量石油数据的智能分析系统意义重大。然而,由于石油生产过程中产生的文本数据往往无结构且类型多样,从中抽取关键信息进行分析成为一个研究热点,而信息抽取又需要高质量的语义实体做支撑。根据这... 随着“智能油田”的建设加快,构建基于海量石油数据的智能分析系统意义重大。然而,由于石油生产过程中产生的文本数据往往无结构且类型多样,从中抽取关键信息进行分析成为一个研究热点,而信息抽取又需要高质量的语义实体做支撑。根据这一特定问题,提出基于命名实体识别(Named Entity Recognition,NER)技术针对石油非结构化文本进行信息抽取,构建双向长短时记忆(Bidirectional Long Short-Term Memory,Bi LSTM)网络模型提取语料特征,并结合条件随机场(Conditional Random Field,CRF)做分类器,构建了基于Bi LSTM+CRF的高精度NER模型,针对石油工业领域的非结构化文本进行命名实体抽取。通过在修井作业文本数据集上进行对比实验表明,本方法具有较高的精确率和召回率。 展开更多
关键词 命名实体识别 bi lstm+crf 信息抽取 非结构化文本
下载PDF
基于双层Bi-LSTM-CRF模型的糖尿病领域命名实体识别 被引量:6
8
作者 何春辉 王梦贤 何小波 《邵阳学院学报(自然科学版)》 2020年第1期21-26,共6页
随着信息技术的发展,电子文档在糖尿病领域的信息记录中得到了大量应用,通过自动化技术对这些电子文档进行分析具有重大的意义。由于现有的命名实体识别方法在糖尿病领域中识别准确率偏低。为了改变这种现状,提出了双层的双向长短时记... 随着信息技术的发展,电子文档在糖尿病领域的信息记录中得到了大量应用,通过自动化技术对这些电子文档进行分析具有重大的意义。由于现有的命名实体识别方法在糖尿病领域中识别准确率偏低。为了改变这种现状,提出了双层的双向长短时记忆神经网络条件随机场模型(Bi-LSTM-CRF),并将其应用到糖尿病领域命名实体识别任务中。实验结果表明该模型在包含15种实体类别的数据集上准确率达到了89.14%,且在外部测试集上平均F 1值为72.89%,充分揭示了双层Bi-LSTM-CRF模型的有效性。 展开更多
关键词 糖尿病 命名实体识别 字符嵌入 bi-lstm-crf
下载PDF
基于Bi-LSTM-CRF模型的维吾尔语词干提取的研究 被引量:6
9
作者 古丽尼格尔·阿不都外力 吐尔根·依布拉音 +1 位作者 卡哈尔江·阿比的热西提 王路路 《中文信息学报》 CSCD 北大核心 2019年第8期60-66,共7页
词干提取是维吾尔语自然语言处理中的基础性研究,其提取质量直接影响其他任务的性能。但目前维吾尔语词干提取研究存在过度切分、不切分和歧义切分等问题,这些问题导致词干提取质量不高,对后续任务的性能影响较大。因此该文提出了基于Bi... 词干提取是维吾尔语自然语言处理中的基础性研究,其提取质量直接影响其他任务的性能。但目前维吾尔语词干提取研究存在过度切分、不切分和歧义切分等问题,这些问题导致词干提取质量不高,对后续任务的性能影响较大。因此该文提出了基于Bi-LSTM-CRF的维吾尔语词干提取模型,将字符作为最小切分单位,选取维吾尔语字符特征、音类特征以及语音特征为候选特征,结合模型进行实验。实验表明,该文提出的Bi-LSTM-CRF模型在维吾尔语词干提取任务上,F1值达到了88%,在融入手工提取的候选特征之后,F1值提高了1.8个点,有效提高了词干提取的准确性,缓解了上述问题带来的影响。 展开更多
关键词 维吾尔语 词干提取 bi-lstm-crf
下载PDF
融合全局语义信息的BIG-LSTM-CRF模型
10
作者 胡俊英 王煜华 +1 位作者 金书意 张博 《纯粹数学与应用数学》 2024年第1期106-116,共11页
命名实体识别任务是针对输入的文本句子做序列标注的一类自然语言处理任务,其目的是抽取出文本句子中的主语实体和宾语实体.基于深度神经网络的提取方法获得了优异的性能,其中BI-LSTM-CRF是效果显著且具有代表性的模型之一.但该模型在... 命名实体识别任务是针对输入的文本句子做序列标注的一类自然语言处理任务,其目的是抽取出文本句子中的主语实体和宾语实体.基于深度神经网络的提取方法获得了优异的性能,其中BI-LSTM-CRF是效果显著且具有代表性的模型之一.但该模型在训练过程中忽略了全局语义信息对实体识别准确度的影响.本文通过引入全局语义信息来改进BI-LSTM-CRF模型用于命名实体识别任务的性能:先通过添加一层带有激活操作的全连接层来提取输入文本句子的高维语义信息;再通过一个全连接层将高维语义信息与每个字符进行深度融合,得到该句子融合了全局语义信息的向量表示,并将其用于后续的命名实体识别任务.通过将改进后的模型用于CLUENER2020数据集上,验证了添加全局语义信息融合模块可以提升模型命名实体识别的准确度. 展开更多
关键词 bi-lstm-crf 自然语言处理 命名实体识别 神经网络
下载PDF
基于异构数据联合训练的中文分词法 被引量:6
11
作者 姜猛 王子牛 高建瓴 《电子科技》 2019年第4期29-32,59,共5页
中文分词技术作为中文信息处理中的关键基础技术之一,基于深度学习模型的中文分词法受到广泛关注。然而,深度学习模型需要大规模数据训练才能获得良好的性能,而当前中文分词语料数据相对缺乏且标准不一。文中提出了一种简单有效的异构... 中文分词技术作为中文信息处理中的关键基础技术之一,基于深度学习模型的中文分词法受到广泛关注。然而,深度学习模型需要大规模数据训练才能获得良好的性能,而当前中文分词语料数据相对缺乏且标准不一。文中提出了一种简单有效的异构数据处理方法,对不同语料数据加上两个人工设定的标识符,使用处理过的数据应用于双向长短期记忆网络结合条件随机场(Bi-LSTM-CRF)的中文分词模型的联合训练。实验结果表明,基于异构数据联合训练的Bi-LSTM-CRF模型比单一数据训练的模型具有更好的分词性能。 展开更多
关键词 中文分词 深度学习 bi-lstm-crf 异构数据 联合训练 语料库
下载PDF
基于多任务的中文电子病历中命名实体识别研究 被引量:5
12
作者 杨晓辉 毕雪华 +1 位作者 张琳琳 高颖 《东北师大学报(自然科学版)》 CAS 北大核心 2020年第1期81-87,共7页
针对电子病历结构化中的命名实体识别问题,提出一种基于分词任务和命名实体识别任务相结合的多任务双向长短期记忆网络模型(Bidirectional Long Short-Term Memory Conditional Random Feld,Bi-LSTM-CRF).该模型通过加入共享LSTM捕获分... 针对电子病历结构化中的命名实体识别问题,提出一种基于分词任务和命名实体识别任务相结合的多任务双向长短期记忆网络模型(Bidirectional Long Short-Term Memory Conditional Random Feld,Bi-LSTM-CRF).该模型通过加入共享LSTM捕获分词任务中的词边界信息,丰富了命名实体识别任务的特征集,进而达到提高命名实体的效果.实验采集数据由新疆某三甲医院提供的500份冠心病患者的出院小结和2000份心血管疾病患者的出院小结组成.实验结果表明:F-measure值达到了0.927,满足临床的实际需求. 展开更多
关键词 电子病历 命名实体识别 多任务 bi-lstm-crf
下载PDF
基于CRF和Bi-LSTM的保险名称实体识别 被引量:5
13
作者 陈彦妤 杜明 《智能计算机与应用》 2018年第3期111-114,共4页
在保险领域智能问答应用研究中,用户提问时大量使用缩写、简写的保险名称,降低了问题语义理解的准确率。为解决这个问题,本文提出使用条件随机场(CRF)与双向长短记忆循环神经网络相结合的模型(Bi-LSTM-CRF),加入预先训练好的字嵌入向量... 在保险领域智能问答应用研究中,用户提问时大量使用缩写、简写的保险名称,降低了问题语义理解的准确率。为解决这个问题,本文提出使用条件随机场(CRF)与双向长短记忆循环神经网络相结合的模型(Bi-LSTM-CRF),加入预先训练好的字嵌入向量进行训练的方法来识别保险名称。实验结果表明,CRF结合双向的LSTM的方法相较于传统机器学习的方法,在保险领域命名实体的识别中具有更好的性能,显著提高了保险名称识别的准确率和召回率。 展开更多
关键词 bi-lstm-crf 命名识别识别 保险智能问答
下载PDF
融合Gate过滤机制与深度Bi-LSTM-CRF的汉语语义角色标注 被引量:4
14
作者 张苗苗 刘明童 +2 位作者 张玉洁 徐金安 陈钰枫 《情报工程》 2018年第2期45-53,共9页
语义角色标注的传统方法采用基于句法特征的统计机器学习方法。由于依存句法可以表示词语之间的语义关系,故在语义角色标注中取得了较好的性能;但该方法存在特征抽取过程繁琐,难以捕捉句子中长距离依赖等问题。随着深度学习的兴起,研究... 语义角色标注的传统方法采用基于句法特征的统计机器学习方法。由于依存句法可以表示词语之间的语义关系,故在语义角色标注中取得了较好的性能;但该方法存在特征抽取过程繁琐,难以捕捉句子中长距离依赖等问题。随着深度学习的兴起,研究者将基于双向长短时记忆(Bidirectional Long Short-Term Memory,Bi-LSTM)神经网络模型用于语义角色标注。该模型可以自动学习特征,并对词与词之间的远距离依赖关系进行有效建模。本文提出融合Bi-LSTM-CRF模型与依存句法特征的方法,并且引入Gate过滤机制对词向量表示进行调整,以达到利用句法特征提高语义角色标注精度的同时,规避特征工程的繁琐。CPB上的实验结果表明,利用本文所提方法的汉语语义角色标注的F1值达到79.53%,比前人的方法有了较为显著的提升。 展开更多
关键词 汉语语义角色标注 Gate过滤机制 bi-lstm-crf 依存句法分析
下载PDF
基于Gate机制与Bi-LSTM-CRF的汉语语义角色标注 被引量:4
15
作者 张苗苗 张玉洁 +2 位作者 刘明童 徐金安 陈钰枫 《计算机与现代化》 2018年第4期1-6,31,共7页
目前,语义角色标注大多基于双向长短时记忆网络(Bi-LSTM)。但是,由于词向量表示由上下文窗口中的词嵌入拼接得到,导致其依赖于左右词嵌入的联合作用。针对该问题,引入Gate机制对词向量表示进行调整。为了获取更深层次的语义信息,对Bi-L... 目前,语义角色标注大多基于双向长短时记忆网络(Bi-LSTM)。但是,由于词向量表示由上下文窗口中的词嵌入拼接得到,导致其依赖于左右词嵌入的联合作用。针对该问题,引入Gate机制对词向量表示进行调整。为了获取更深层次的语义信息,对Bi-LSTM的深度进行扩展。此外,引入标签转移概率矩阵进行约束,并且使用条件随机场(CRF)融合全局标签信息得出最优标注序列。实验结果表明,该方法使得汉语语义角色标注的F1值提高1.71%。 展开更多
关键词 汉语语义角色标注 Gate机制 bi-lstm-crf 标签转移概率矩阵
下载PDF
融合领域特征向量的武器装备名深度学习识别方法 被引量:3
16
作者 雷树杰 邢富坤 王闻慧 《计算机应用与软件》 北大核心 2019年第10期183-189,226,共8页
提出融合领域特征向量与词向量的识别方法,将基于武器装备名特征库与维基语料训练得到的领域特征向量引入Bi-LSTM+CRF模型,并对武器装备名进行自动识别实验。引入领域特征向量后模型的识别准确率由78.30%提升到82.10%,召回率由65.25%提... 提出融合领域特征向量与词向量的识别方法,将基于武器装备名特征库与维基语料训练得到的领域特征向量引入Bi-LSTM+CRF模型,并对武器装备名进行自动识别实验。引入领域特征向量后模型的识别准确率由78.30%提升到82.10%,召回率由65.25%提升到67.30%,对未登录武器装备名识别的召回率从45.08%提升到50.16%。此外,将领域特征融入条件随机场(conditionalrandomfield,CRF)模型,实验表明,在小规模语料库与领域特征支持的情况下,CRF模型的效果要优于Bi-LSTM+CRF模型且对稀疏特征的利用效率更优。 展开更多
关键词 武器装备名 bi-lstm+crf 领域特征向量 命名实体识别
下载PDF
基于深度学习的食品安全事件实体一体化呈现平台构建 被引量:3
17
作者 胡昊天 吉晋锋 +1 位作者 王东波 邓三鸿 《数据分析与知识发现》 CSSCI CSCD 北大核心 2021年第3期12-24,共13页
【目的】促进食品安全监管,加强对食品安全突发事件的预测、预警和应急响应工作,方便相关专业科研人员开展拓展研究,以及向民众简明直观地呈现食品安全事件发展态势。【方法】基于各大权威新闻网站上的食品安全事件新闻报道,经语料清洗... 【目的】促进食品安全监管,加强对食品安全突发事件的预测、预警和应急响应工作,方便相关专业科研人员开展拓展研究,以及向民众简明直观地呈现食品安全事件发展态势。【方法】基于各大权威新闻网站上的食品安全事件新闻报道,经语料清洗、标注、组织构建了食品安全事件实体语料库,利用深度学习技术,对比分析Bi-LSTM、Bi-LSTM-CRF、IDCNN、IDCNN-CRF和BERT模型在食品安全事件实体语料库上的实体识别效果。【结果】在十折交叉验证中,BERT模型表现最佳,最高F值达到81.39%,平均F值较IDCNNCRF和Bi-LSTM-CRF模型分别提升5.50%和2.58%。基于Bi-LSTM-CRF模型,构建了食品安全事件实体一体化呈现平台。【局限】对复合式行政区划地点实体的识别能力有待提升。【结论】构建的语料库、模型及呈现平台能有效地为政策制定及食品行业监管提供参考建议。 展开更多
关键词 深度学习 食品安全事件实体 bi-lstm-crf BERT
原文传递
基于Bi-LSTM-CRF算法的气象预警信息质控系统的实现 被引量:3
18
作者 张淑静 苗开超 +4 位作者 张亚力 杨彬 李腾 刘宜轩 汪翔 《计算机与现代化》 2019年第6期111-115,共5页
本文采用双向长短期记忆网络条件随机场(Bi-LSTM-CRF)算法,通过双向循环神经网络(Bi-LSTM)对已有的合法预警信息文本数据集和开放域中文分析公开数据集进行训练;采用CRF序列标注法有效地结合了预警前后的标签信息对分词进行序列标注;使... 本文采用双向长短期记忆网络条件随机场(Bi-LSTM-CRF)算法,通过双向循环神经网络(Bi-LSTM)对已有的合法预警信息文本数据集和开放域中文分析公开数据集进行训练;采用CRF序列标注法有效地结合了预警前后的标签信息对分词进行序列标注;使用该算法建立的气象预警信息质控系统已应用在安徽省突发事件预警信息发布系统,在实际应用的过程中充分证明基于神经网络的气象预警信息质控系统能直接有效地对新的预警信息中可能含有的敏感字(词)、错别字等进行智能监测,以帮助监测人员进行气象预警判断,从而可以对发布的气象预警信息起到质量把关的作用。 展开更多
关键词 bi-lstm-crf 中文分词 气象预警 信息质控 智能检测
下载PDF
基于BI-LSTM-CRF模型的维吾尔语分词研究 被引量:1
19
作者 孙雅婧 李成华 +2 位作者 杨斌 江小平 艾提日也古丽·艾尼瓦尔 《青海师范大学学报(自然科学版)》 2019年第4期5-12,共8页
在充分研究维吾尔语言形态特征的基础上,制定相应的分词规则并手工标注原始语料,建成原始语料库;针对传统机器学习分词方法过度依赖背景知识和特征选取的问题,提出了一种基于长短期记忆(LSTM)神经网络改进的双向长短时记忆条件随机场(BI... 在充分研究维吾尔语言形态特征的基础上,制定相应的分词规则并手工标注原始语料,建成原始语料库;针对传统机器学习分词方法过度依赖背景知识和特征选取的问题,提出了一种基于长短期记忆(LSTM)神经网络改进的双向长短时记忆条件随机场(BI-LSTM-CRF)网络模型来进行维吾尔语分词,其能够有效地使用过去和未来的输入特征.利用该分词模型与基于传统机器学习方法的条件随机场(CRF)模型对比,实验结果表明,使用BI-LSTM-CRF模型分词性能有明显提高,且具有良好的泛化能力. 展开更多
关键词 维吾尔语分词 bi-lstm-crf crf 对比实验
下载PDF
基于多维相似度和情感词扩充的相同产品特征识别 被引量:2
20
作者 胡龙茂 胡学钢 《山东大学学报(工学版)》 CAS CSCD 北大核心 2020年第2期50-59,共10页
针对现有相同产品特征识别方法受限于词典覆盖率或语料规模的不足,提出一种基于多维相似度和情感词扩充的识别方法。通过双向长短时记忆条件随机场(bi-directional long short-term memory and conditional random field, Bi-LSTM-CRF)... 针对现有相同产品特征识别方法受限于词典覆盖率或语料规模的不足,提出一种基于多维相似度和情感词扩充的识别方法。通过双向长短时记忆条件随机场(bi-directional long short-term memory and conditional random field, Bi-LSTM-CRF)模型抽取产品特征的扩充情感词,综合特征词的语素相似度、同义词林相似度和TF-IDF(term frequency-inverse document frequency)余弦相似度,采用K-medoids聚类算法,识别相同的产品特征。试验结果表明,在手机和笔记本数据集上,该方法的最大调整兰德指数分别达到0.579和0.595 9,而最小熵值分别达到0.782 6和0.745 7,均优于结合语素的调整Jaccard相似度、Word2Vec相似度和基于二分K-means的Word2Vec相似度三种基线试验方法。 展开更多
关键词 产品特征 情感词扩充 bi-lstm-crf 多维度 相似度计算
原文传递
上一页 1 2 3 下一页 到第
使用帮助 返回顶部