开放领域新词发现研究对于中文自然语言处理的性能提升有着重要的意义.利用条件随机场(condition random field,简称CRF)可对序列输入标注的特点,将新词发现问题转化为预测已分词词语边界是否为新词边界的问题.在对海量规模中文互联网...开放领域新词发现研究对于中文自然语言处理的性能提升有着重要的意义.利用条件随机场(condition random field,简称CRF)可对序列输入标注的特点,将新词发现问题转化为预测已分词词语边界是否为新词边界的问题.在对海量规模中文互联网语料进行分析挖掘的基础上,提出了一系列区分新词边界的统计特征,并采用CRF方法综合这些特征实现了开放领域新词发现的算法,同时比较了K-Means聚类、等频率、基于信息增益这3种离散化方法对新词发现结果的影响.通过在SogouT大规模中文语料库上的新词发现实验,验证了所提出的方法有较好的效果.展开更多
关键词自动抽取是自然语言处理(Natural Language Processing,NLP)的一项重要任务,给个性化推荐、网购等应用提供了重要的技术支撑。针对关键词自动抽取问题,提出一种新的基于双向长短期记忆网络条件随机场(Bidirectional Long Short-Te...关键词自动抽取是自然语言处理(Natural Language Processing,NLP)的一项重要任务,给个性化推荐、网购等应用提供了重要的技术支撑。针对关键词自动抽取问题,提出一种新的基于双向长短期记忆网络条件随机场(Bidirectional Long Short-Term Memory Network Conditional Random Field,BiLSTM-CRF)的方法,并将该问题刻画为序列标注问题。首先,该方法通过对输入的文本进行建模,把文本表示为低维高密度的向量;然后,使用分类算法对各个词进行分类;最后,使用CRF对整个标注序列进行解码,得到最终结果。在一个大规模的真实数据中进行实验,结果表明该方法较基准系统性能提高约1个百分点。展开更多
命名实体识别属于自然语言处理领域词法分析中的一部分,是计算机正确理解自然语言的基础。为了加强模型对命名实体的识别效果,本文使用预训练模型BERT(bidirectional encoder representation from transformers)作为模型的嵌入层,并针对...命名实体识别属于自然语言处理领域词法分析中的一部分,是计算机正确理解自然语言的基础。为了加强模型对命名实体的识别效果,本文使用预训练模型BERT(bidirectional encoder representation from transformers)作为模型的嵌入层,并针对BERT微调训练对计算机性能要求较高的问题,采用了固定参数嵌入的方式对BERT进行应用,搭建了BERT-BiLSTM-CRF模型。并在该模型的基础上进行了两种改进实验。方法一,继续增加自注意力(self-attention)层,实验结果显示,自注意力层的加入对模型的识别效果提升不明显。方法二,减小BERT模型嵌入层数。实验结果显示,适度减少BERT嵌入层数能够提升模型的命名实体识别准确性,同时又节约了模型的整体训练时间。采用9层嵌入时,在MSRA中文数据集上F1值提升至94.79%,在Weibo中文数据集上F1值达到了68.82%。展开更多
智慧医疗技术的发展让我们不满足仅使用传统方法做医学研究.针对中文电子病历实体识别问题,设计了一种基于卷积神经网络结合条件随机场(convolutional neural network-conditional random field,CNN-CRF)的实体识别算法框架.为得到高质...智慧医疗技术的发展让我们不满足仅使用传统方法做医学研究.针对中文电子病历实体识别问题,设计了一种基于卷积神经网络结合条件随机场(convolutional neural network-conditional random field,CNN-CRF)的实体识别算法框架.为得到高质量的词向量,将标注实体加入词典进行分词,并将已标注和未标注文本作为语料,用word2vec工具对已分词文本进行无监督学习;为避免扩张卷积层数增加导致过拟合,采用迭代扩张卷积处理输入向量,并使用dropout随机丢弃一些连接;运用条件随机场对网络的分类结果进行修正.把该方法在中文电子病历上进行对比试验,从病历中提取出身体部位,疾病,症状,检查及治疗5类实体.实验结果表明,该方法能有效地辨别病历中的实体,其识别的准确率、召回率和f1值分别为90.01%,90.62%,90.31%,准确率和速率比传统方法都有一定提高.展开更多
针对滑坡易发性预测建模中滑坡-非滑坡样本可能存在误差、环境因子间非线性关系较复杂且机器学习可解释性未被关注等重要问题,拟提出一种基于自筛选的双向长短时记忆网络与条件随机场的滑坡易发性预测模型(Selfscreening Bi-directional...针对滑坡易发性预测建模中滑坡-非滑坡样本可能存在误差、环境因子间非线性关系较复杂且机器学习可解释性未被关注等重要问题,拟提出一种基于自筛选的双向长短时记忆网络与条件随机场的滑坡易发性预测模型(Selfscreening Bi-directional Long Short-Term Memory and Conditional Random Fields,SBiLSTM-CRF).SBiLSTM-CRF模型具有深度学习网络层数深、宽度广及可循环迭代建模的优势,能预测出环境因子间的非线性关系,并通过迭代自动筛选阈值区间外的错误滑坡样本.该模型可用于解释各环境因子之间耦合关系的内部作用机制.将SBiLSTM-CRF模型用于陕西延长县滑坡易发性预测,并与cpLSTM-CRF、随机森林、支持向量机、随机梯度下降和逻辑回归模型比较.结果表明,SBiLSTM-CRF克服了传统机器学习中存在的样本误差以及因子间复杂的非线性关系问题,具有更高的预测性能.通过该模型的可解释性能力揭示了坡度、高程和岩性等因子控制延长县的黄土滑坡发育的机制.展开更多
文摘开放领域新词发现研究对于中文自然语言处理的性能提升有着重要的意义.利用条件随机场(condition random field,简称CRF)可对序列输入标注的特点,将新词发现问题转化为预测已分词词语边界是否为新词边界的问题.在对海量规模中文互联网语料进行分析挖掘的基础上,提出了一系列区分新词边界的统计特征,并采用CRF方法综合这些特征实现了开放领域新词发现的算法,同时比较了K-Means聚类、等频率、基于信息增益这3种离散化方法对新词发现结果的影响.通过在SogouT大规模中文语料库上的新词发现实验,验证了所提出的方法有较好的效果.
文摘关键词自动抽取是自然语言处理(Natural Language Processing,NLP)的一项重要任务,给个性化推荐、网购等应用提供了重要的技术支撑。针对关键词自动抽取问题,提出一种新的基于双向长短期记忆网络条件随机场(Bidirectional Long Short-Term Memory Network Conditional Random Field,BiLSTM-CRF)的方法,并将该问题刻画为序列标注问题。首先,该方法通过对输入的文本进行建模,把文本表示为低维高密度的向量;然后,使用分类算法对各个词进行分类;最后,使用CRF对整个标注序列进行解码,得到最终结果。在一个大规模的真实数据中进行实验,结果表明该方法较基准系统性能提高约1个百分点。
文摘命名实体识别属于自然语言处理领域词法分析中的一部分,是计算机正确理解自然语言的基础。为了加强模型对命名实体的识别效果,本文使用预训练模型BERT(bidirectional encoder representation from transformers)作为模型的嵌入层,并针对BERT微调训练对计算机性能要求较高的问题,采用了固定参数嵌入的方式对BERT进行应用,搭建了BERT-BiLSTM-CRF模型。并在该模型的基础上进行了两种改进实验。方法一,继续增加自注意力(self-attention)层,实验结果显示,自注意力层的加入对模型的识别效果提升不明显。方法二,减小BERT模型嵌入层数。实验结果显示,适度减少BERT嵌入层数能够提升模型的命名实体识别准确性,同时又节约了模型的整体训练时间。采用9层嵌入时,在MSRA中文数据集上F1值提升至94.79%,在Weibo中文数据集上F1值达到了68.82%。
文摘智慧医疗技术的发展让我们不满足仅使用传统方法做医学研究.针对中文电子病历实体识别问题,设计了一种基于卷积神经网络结合条件随机场(convolutional neural network-conditional random field,CNN-CRF)的实体识别算法框架.为得到高质量的词向量,将标注实体加入词典进行分词,并将已标注和未标注文本作为语料,用word2vec工具对已分词文本进行无监督学习;为避免扩张卷积层数增加导致过拟合,采用迭代扩张卷积处理输入向量,并使用dropout随机丢弃一些连接;运用条件随机场对网络的分类结果进行修正.把该方法在中文电子病历上进行对比试验,从病历中提取出身体部位,疾病,症状,检查及治疗5类实体.实验结果表明,该方法能有效地辨别病历中的实体,其识别的准确率、召回率和f1值分别为90.01%,90.62%,90.31%,准确率和速率比传统方法都有一定提高.
文摘针对滑坡易发性预测建模中滑坡-非滑坡样本可能存在误差、环境因子间非线性关系较复杂且机器学习可解释性未被关注等重要问题,拟提出一种基于自筛选的双向长短时记忆网络与条件随机场的滑坡易发性预测模型(Selfscreening Bi-directional Long Short-Term Memory and Conditional Random Fields,SBiLSTM-CRF).SBiLSTM-CRF模型具有深度学习网络层数深、宽度广及可循环迭代建模的优势,能预测出环境因子间的非线性关系,并通过迭代自动筛选阈值区间外的错误滑坡样本.该模型可用于解释各环境因子之间耦合关系的内部作用机制.将SBiLSTM-CRF模型用于陕西延长县滑坡易发性预测,并与cpLSTM-CRF、随机森林、支持向量机、随机梯度下降和逻辑回归模型比较.结果表明,SBiLSTM-CRF克服了传统机器学习中存在的样本误差以及因子间复杂的非线性关系问题,具有更高的预测性能.通过该模型的可解释性能力揭示了坡度、高程和岩性等因子控制延长县的黄土滑坡发育的机制.