期刊文献+
共找到4,673篇文章
< 1 2 234 >
每页显示 20 50 100
知识图谱构建技术综述 被引量:928
1
作者 刘峤 李杨 +2 位作者 段宏 刘瑶 秦志光 《计算机研究与发展》 EI CSCD 北大核心 2016年第3期582-600,共19页
谷歌知识图谱技术近年来引起了广泛关注,由于公开披露的技术资料较少,使人一时难以看清该技术的内涵和价值.从知识图谱的定义和技术架构出发,对构建知识图谱涉及的关键技术进行了自底向上的全面解析.1)对知识图谱的定义和内涵进行了说明... 谷歌知识图谱技术近年来引起了广泛关注,由于公开披露的技术资料较少,使人一时难以看清该技术的内涵和价值.从知识图谱的定义和技术架构出发,对构建知识图谱涉及的关键技术进行了自底向上的全面解析.1)对知识图谱的定义和内涵进行了说明,并给出了构建知识图谱的技术框架,按照输入的知识素材的抽象程度将其划分为3个层次:信息抽取层、知识融合层和知识加工层;2)分别对每个层次涉及的关键技术的研究现状进行分类说明,逐步揭示知识图谱技术的奥秘,及其与相关学科领域的关系;3)对知识图谱构建技术当前面临的重大挑战和关键问题进行了总结. 展开更多
关键词 知识图谱 语义网 信息检索 语义搜索引擎 自然语言处理
下载PDF
深度学习的昨天、今天和明天 被引量:604
2
作者 余凯 贾磊 +1 位作者 陈雨强 徐伟 《计算机研究与发展》 EI CSCD 北大核心 2013年第9期1799-1804,共6页
机器学习是人工智能领域的一个重要学科.自从20世纪80年代以来,机器学习在算法、理论和应用等方面都获得巨大成功.2006年以来,机器学习领域中一个叫"深度学习"的课题开始受到学术界广泛关注,到今天已经成为互联网大数据和人... 机器学习是人工智能领域的一个重要学科.自从20世纪80年代以来,机器学习在算法、理论和应用等方面都获得巨大成功.2006年以来,机器学习领域中一个叫"深度学习"的课题开始受到学术界广泛关注,到今天已经成为互联网大数据和人工智能的一个热潮.深度学习通过建立类似于人脑的分层模型结构,对输入数据逐级提取从底层到高层的特征,从而能很好地建立从底层信号到高层语义的映射关系.近年来,谷歌、微软、IBM、百度等拥有大数据的高科技公司相继投入大量资源进行深度学习技术研发,在语音、图像、自然语言、在线广告等领域取得显著进展.从对实际应用的贡献来说,深度学习可能是机器学习领域最近这十年来最成功的研究方向.将对深度学习发展的过去和现在做一个全景式的介绍,并讨论深度学习所面临的挑战,以及将来的可能方向. 展开更多
关键词 机器学习 深度学习 语音识别 图像识别 自然语言处理 在线广告
下载PDF
信息抽取研究综述 被引量:178
3
作者 李保利 陈玉忠 俞士汶 《计算机工程与应用》 CSCD 北大核心 2003年第10期1-5,66,共6页
信息抽取研究旨在为人们提供更有力的信息获取工具,以应对信息爆炸带来的严重挑战。与信息检索不同,信息抽取直接从自然语言文本中抽取事实信息。过去十多年来,信息抽取逐步发展成为自然语言处理领域的一个重要分支,其独特的发展轨迹—... 信息抽取研究旨在为人们提供更有力的信息获取工具,以应对信息爆炸带来的严重挑战。与信息检索不同,信息抽取直接从自然语言文本中抽取事实信息。过去十多年来,信息抽取逐步发展成为自然语言处理领域的一个重要分支,其独特的发展轨迹———通过系统化、大规模的定量评测推动研究向前发展,以及某些成功启示,如部分分析技术的有效性、快速NLP系统开发的必要性,都极大地推动了自然语言处理研究的发展,促进了NLP研究与应用的紧密结合。回顾信息抽取研究的历史,总结信息抽取研究的现状,将有助于这方面研究工作向前发展。 展开更多
关键词 自然语言处理 信息抽取 信息检索 命名实体识别 计算机 信息处理
下载PDF
自然语言处理中主题模型的发展 被引量:233
4
作者 徐戈 王厚峰 《计算机学报》 EI CSCD 北大核心 2011年第8期1423-1436,共14页
主题模型在自然语言处理领域受到了越来越多的关注.在该领域中,主题可以看成是词项的概率分布.主题模型通过词项在文档级的共现信息抽取出语义相关的主题集合,并能够将词项空间中的文档变换到主题空间,得到文档在低维空间中的表达.作者... 主题模型在自然语言处理领域受到了越来越多的关注.在该领域中,主题可以看成是词项的概率分布.主题模型通过词项在文档级的共现信息抽取出语义相关的主题集合,并能够将词项空间中的文档变换到主题空间,得到文档在低维空间中的表达.作者从主题模型的起源隐性语义索引出发,对概率隐性语义索引以及LDA等在主题模型发展中的重要阶段性工作进行了介绍和分析,着重描述这些工作之间的关联性.LDA作为一个概率生成模型,很容易被扩展成其它形式的概率模型.作者对由LDA派生出的各种模型作了粗略分类,并选择了各类的代表性模型简单介绍.主题模型中最重要的两组参数分别是各主题下的词项概率分布和各文档的主题概率分布,作者对期望最大化算法在主题模型参数估计中的使用进行了分析,这有助于更深刻理解主题模型发展中各项工作的联系. 展开更多
关键词 自然语言处理 主题模型 隐性语义索引 LDA 期望最大化算法 GIBBS采样
下载PDF
自动问答综述 被引量:165
5
作者 郑实福 刘挺 +1 位作者 秦兵 李生 《中文信息学报》 CSCD 北大核心 2002年第6期46-52,共7页
自动问答技术是自然语言处理领域中一个非常热门的研究方向 ,它综合运用了各种自然语言处理技术。本文介绍了自动问答技术的发展现状和自动问答系统中常用的技术。自动问答系统一般包括三个主要组成部分 :问题分析、信息检索和答案抽取... 自动问答技术是自然语言处理领域中一个非常热门的研究方向 ,它综合运用了各种自然语言处理技术。本文介绍了自动问答技术的发展现状和自动问答系统中常用的技术。自动问答系统一般包括三个主要组成部分 :问题分析、信息检索和答案抽取。本文分别介绍了这三个主要组成部分的主要功能和常用的方法。最后还介绍了自动问答系统的评价问题。 展开更多
关键词 自动问答 问题分类 信息检索 答案抽取 自然语言处理 问题分析
下载PDF
面向自然语言处理的深度学习研究 被引量:222
6
作者 奚雪峰 周国栋 《自动化学报》 EI CSCD 北大核心 2016年第10期1445-1465,共21页
近年来,深度学习在图像和语音处理领域已经取得显著进展,但是在同属人类认知范畴的自然语言处理任务中,研究还未取得重大突破.本文首先从深度学习的应用动机、首要任务及基本框架等角度介绍了深度学习的基本概念;其次,围绕数据表示和学... 近年来,深度学习在图像和语音处理领域已经取得显著进展,但是在同属人类认知范畴的自然语言处理任务中,研究还未取得重大突破.本文首先从深度学习的应用动机、首要任务及基本框架等角度介绍了深度学习的基本概念;其次,围绕数据表示和学习模型两方面,重点分析讨论了当前面向自然语言处理的深度学习研究进展及其应用策略;并进一步介绍了已有的深度学习平台和工具;最后,对深度学习在自然语言处理领域的发展趋势和有待深入研究的难点进行了展望. 展开更多
关键词 自然语言处理 深度学习 表示学习 特征学习 神经网络
下载PDF
一种结合词项语义信息和TF-IDF方法的文本相似度量方法 被引量:218
7
作者 黄承慧 印鉴 侯昉 《计算机学报》 EI CSCD 北大核心 2011年第5期856-864,共9页
传统的文本相似度量方法大多采用TF-IDF方法把文本建模为词频向量,利用余弦相似度量等方法计算文本之间的相似度.这些方法忽略了文本中词项的语义信息.改进的基于语义的文本相似度量方法在传统词频向量中扩充了语义相似的词项,进一步增... 传统的文本相似度量方法大多采用TF-IDF方法把文本建模为词频向量,利用余弦相似度量等方法计算文本之间的相似度.这些方法忽略了文本中词项的语义信息.改进的基于语义的文本相似度量方法在传统词频向量中扩充了语义相似的词项,进一步增加了文本表示向量的维度,但不能很好地反映两篇文本之间的相似程度.文中在TF-IDF模型基础上分析文本中重要词汇的语义信息,提出了一种新的文本相似度量方法.该方法首先应用自然语言处理技术对文本进行预处理,然后利用TF-IDF方法寻找文本中具有较高TF-IDF值的重要词项.借助外部词典分析词项之间的语义相似度,结合该文提出的词项相似度加权树以及文本语义相似度定义计算两篇文本之间的相似度.最后利用文本相似度在基准文本数据集合上进行聚类实验.实验结果表明文中提出的方法在基于F-度量值标准上优于TF-IDF以及另一种基于词项语义相似性的方法. 展开更多
关键词 文本聚类 词项语义相似度 文本相似度 自然语言处理
下载PDF
人工智能技术在电力设备运维检修中的研究及应用 被引量:204
8
作者 蒲天骄 乔骥 +2 位作者 韩笑 张国宾 王新迎 《高电压技术》 EI CAS CSCD 北大核心 2020年第2期369-383,共15页
电力设备的运行状态与电力系统的稳定及安全密切相关。全面、准确地掌握电力设备的内外部多源数据,并通过科学的手段进行信息汇总和融合,从而对设备的运行状态与变化趋势做出准确的评估和预测,并安排合理的运维检修计划,是整个电力系统... 电力设备的运行状态与电力系统的稳定及安全密切相关。全面、准确地掌握电力设备的内外部多源数据,并通过科学的手段进行信息汇总和融合,从而对设备的运行状态与变化趋势做出准确的评估和预测,并安排合理的运维检修计划,是整个电力系统可靠、经济运行的关键前提和重要基础。人工智能技术(artificial intelligence,AI)在识别、预测、优化、决策任务中的效率、精度、自学习能力等方面的发展和突破,为电力设备的运维检修提供了一种全新的技术手段与研究思路。论文回顾了人工智能在输变电设备运维检修业务中的关键技术和应用现状,按照数据层、算法层和应用层逐级展开论述和分析,梳理了设备运维的相关数据情况及现存问题,指出了人工智能关键技术框架及各类算法的应用特点与范围,总结了各类典型运维场景中的人工智能应用进展与困难,并提出了未来的重点解决思路,最后分析了人工智能技术应用所面临的问题,并对其发展趋势进行了展望和建议。 展开更多
关键词 电力设备 人工智能 运维检修 电力大数据 数据挖掘 计算机视觉 自然语言处理
下载PDF
基于语义依存的汉语句子相似度计算 被引量:127
9
作者 李彬 刘挺 +1 位作者 秦兵 李生 《计算机应用研究》 CSCD 北大核心 2003年第12期15-17,共3页
句子间相似度的计算在自然语言处理的各个领域都占有很重要的地位,在多文档自动文摘技术中,句子间相似度的计算是一个关键的问题。由于汉语句子的表达形式是多种多样的,要准确地刻画一个句子所表达的意思,必须深入到语义一级并结合语法... 句子间相似度的计算在自然语言处理的各个领域都占有很重要的地位,在多文档自动文摘技术中,句子间相似度的计算是一个关键的问题。由于汉语句子的表达形式是多种多样的,要准确地刻画一个句子所表达的意思,必须深入到语义一级并结合语法结构信息,由此提出了一种基于语义依存的汉语句子相似度计算的方法,该方法取得了令人满意的实验效果。 展开更多
关键词 相似度计算 语义 依存结构 自然语言处理 多文档文摘
下载PDF
话题检测与跟踪的评测及研究综述 被引量:153
10
作者 洪宇 张宇 +1 位作者 刘挺 李生 《中文信息学报》 CSCD 北大核心 2007年第6期71-87,共17页
话题检测与跟踪是一项面向新闻媒体信息流进行未知话题识别和已知话题跟踪的信息处理技术。自从1996年前瞻性的探索以来,该领域进行的多次大规模评测为信息识别、采集和组织等相关技术提供了新的测试平台。由于话题检测与跟踪相对于信... 话题检测与跟踪是一项面向新闻媒体信息流进行未知话题识别和已知话题跟踪的信息处理技术。自从1996年前瞻性的探索以来,该领域进行的多次大规模评测为信息识别、采集和组织等相关技术提供了新的测试平台。由于话题检测与跟踪相对于信息检索、信息挖掘和信息抽取等自然语言处理技术具备很多共性,并面向具备突发性和延续性规律的新闻语料,因此逐渐成为当前信息处理领域的研究热点。本文简要介绍了话题检测与跟踪的研究背景、任务定义、评测方法以及相关技术,并通过分析目前TDT领域的研究现状展望未来的发展趋势。 展开更多
关键词 计算机应用 中文信息处理 综述 话题检测与跟踪 自然语言处理 事件 新闻报道
下载PDF
基于多注意力卷积神经网络的特定目标情感分析 被引量:135
11
作者 梁斌 刘全 +2 位作者 徐进 周倩 章鹏 《计算机研究与发展》 EI CSCD 北大核心 2017年第8期1724-1735,共12页
特定目标情感分析作为情感分析一个重要的子任务,近年来得到越来越多研究人员的关注.针对在特定目标情感分析中,将注意力机制和LSTM等序列性输入网络相结合的网络模型训练时间长、且无法对文本进行平行化输入等问题,提出一种基于多注意... 特定目标情感分析作为情感分析一个重要的子任务,近年来得到越来越多研究人员的关注.针对在特定目标情感分析中,将注意力机制和LSTM等序列性输入网络相结合的网络模型训练时间长、且无法对文本进行平行化输入等问题,提出一种基于多注意力卷积神经网络(multi-attention convolution neural networks,MATT-CNN)的特定目标情感分析方法.相比基于注意力机制的LSTM网络,该方法可以接收平行化输入的文本信息,大大降低了网络模型的训练时间.同时,该方法通过结合多种注意力机制有效弥补了仅仅依赖内容层面注意力机制的不足,使模型在不需要例如依存句法分析等外部知识的情况下,获取更深层次的情感特征信息,有效识别不同目标的情感极性.最后在SemEval2014数据集和汽车领域数据集(automotive-domain data,ADD)进行实验,取得了比普通卷积神经网络、基于单注意力机制的卷积神经网络和基于注意力机制的LSTM网络更好的效果. 展开更多
关键词 注意力机制 卷积神经网络 特定目标情感分析 深度学习 自然语言处理
下载PDF
深度学习研究与进展 被引量:132
12
作者 孙志远 鲁成祥 +1 位作者 史忠植 马刚 《计算机科学》 CSCD 北大核心 2016年第2期1-8,共8页
深度学习是机器学习领域一个新兴的研究方向,它通过模仿人脑结构,实现对复杂输入数据的高效处理,智能地学习不同的知识,而且能够有效地解决多类复杂的智能问题。近年来,随着深度学习高效学习算法的出现,机器学习界掀起了研究深度学习理... 深度学习是机器学习领域一个新兴的研究方向,它通过模仿人脑结构,实现对复杂输入数据的高效处理,智能地学习不同的知识,而且能够有效地解决多类复杂的智能问题。近年来,随着深度学习高效学习算法的出现,机器学习界掀起了研究深度学习理论及应用的热潮。实践表明,深度学习是一种高效的特征提取方法,它能够提取数据中更加抽象的特征,实现对数据更本质的刻画,同时深层模型具有更强的建模和推广能力。鉴于深度学习的优点及其广泛应用,对深度学习进行了较为系统的介绍,详细阐述了其产生背景、理论依据、典型的深度学习模型、具有代表性的快速学习算法、最新进展及实践应用,最后探讨了深度学习未来值得研究的方向。 展开更多
关键词 深度学习 机器学习 深层神经网络 图像识别 语音识别 自然语言处理
下载PDF
用于微博情感分析的一种情感语义增强的深度学习模型 被引量:128
13
作者 何炎祥 孙松涛 +1 位作者 牛菲菲 李飞 《计算机学报》 EI CSCD 北大核心 2017年第4期773-790,共18页
基于神经语言模型的词向量表示技术能够从大规模的未标注文本数据集中自动学习词语的有效特征表示,已经在许多自然语言处理任务及研究中取得重要进展.微博中的表情符号是微博情感分析最重要的特征之一,已有大量的研究工作在探索有效地... 基于神经语言模型的词向量表示技术能够从大规模的未标注文本数据集中自动学习词语的有效特征表示,已经在许多自然语言处理任务及研究中取得重要进展.微博中的表情符号是微博情感分析最重要的特征之一,已有大量的研究工作在探索有效地利用表情符号来提升微博情感分类效果.借助词向量表示技术,为常用表情符号构建情感空间的特征表示矩阵R^E;基于向量的语义合成计算原理,通过矩阵R^E与词向量的乘积运算完成词义到情感空间的映射;接着输入到一个MCNN(Multi-channel Convolution Neural Network)模型,学习一个微博的情感分类器.整个模型称为EMCNN(Emotion-semantics enhanced MCNN),将基于表情符号的情感空间映射与深度学习模型MCNN结合,有效增强了MCNN捕捉情感语义的能力.EMCNN模型在NLPCC微博情感评测数据集上的多个情感分类实验中取得最佳分类性能,并在所有性能指标上超过目前已知文献中的最好分类效果.在取得以上分类性能提升的同时,EMCNN相对MCNN的训练耗时在主客观分类时减少了36.15%,在情感7分类时减少了33.82%. 展开更多
关键词 微博 情感分析 深度学习 卷积神经网络 自然语言处理 社交网络
下载PDF
基于语义计算的语句相关度研究 被引量:83
14
作者 李素建 《计算机工程与应用》 CSCD 北大核心 2002年第7期75-76,83,共3页
该文在中文问题回答系统中引入了语义计算。基于《词林》和hownet两种语言资源,提出计算词与词之间的相似度和相关度,然后得到语句间的相关度,系统通过对语句相关度的比较从而得到查询问题的最优答案。该方法采用了定量计算,易于结合到Q... 该文在中文问题回答系统中引入了语义计算。基于《词林》和hownet两种语言资源,提出计算词与词之间的相似度和相关度,然后得到语句间的相关度,系统通过对语句相关度的比较从而得到查询问题的最优答案。该方法采用了定量计算,易于结合到QA系统中,同时避免了很多传统的自然语言处理问题。试验结果表明该方法是有效的。 展开更多
关键词 自然语言处理 问题回答 语句相关度 语义计算 计算机
下载PDF
中文机构名称的识别与分析 被引量:80
15
作者 张小衡 王玲玲 《中文信息学报》 CSCD 北大核心 1997年第4期21-32,共12页
中文机构名称数目庞大,层出不穷,绝大多数未能收入词典,给自然语言处理带来困扰。但是,从语言学的角度来看,机构名称是一种偏正复合式专有名词,同时又是一类较为简单的偏正名词词组,有自己的结构规律和形态标记。本文以高校名称... 中文机构名称数目庞大,层出不穷,绝大多数未能收入词典,给自然语言处理带来困扰。但是,从语言学的角度来看,机构名称是一种偏正复合式专有名词,同时又是一类较为简单的偏正名词词组,有自己的结构规律和形态标记。本文以高校名称为重点,以中国内地、香港和台湾三地实际语料为依据,从语言学和计算机技术两方面对机构名称的识别与分析展开讨论,并总结出相应的规则。根据这些规则,对六百多万字的三地语料库作高校名称识别,正确率(指前后界定位均正确)达973%,召回率为969%。这些规则还可应用于拼音汉字智能转换和机器翻译等其它领域。 展开更多
关键词 机构名称 专有名词 自然语言处理 信息处理
下载PDF
知识图谱研究综述及其在医疗领域的应用 被引量:124
16
作者 侯梦薇 卫荣 +2 位作者 陆亮 兰欣 蔡宏伟 《计算机研究与发展》 EI CSCD 北大核心 2018年第12期2587-2599,共13页
随着医疗大数据时代的到来,知识互联受到了广泛的关注.如何从海量的数据中提取有用的医学知识,是医疗大数据分析的关键.知识图谱技术提供了一种从海量文本和图像中抽取结构化知识的手段,知识图谱与大数据技术、深度学习技术相结合,正在... 随着医疗大数据时代的到来,知识互联受到了广泛的关注.如何从海量的数据中提取有用的医学知识,是医疗大数据分析的关键.知识图谱技术提供了一种从海量文本和图像中抽取结构化知识的手段,知识图谱与大数据技术、深度学习技术相结合,正在成为推动人工智能发展的核心驱动力.知识图谱技术在医疗领域拥有广阔的应用前景,该技术在医疗领域的应用研究将会在解决优质医疗资源供给不足和医疗服务需求持续增加的矛盾中产生重要的作用.目前,针对医学知识图谱的研究还处于探索阶段,现有知识图谱技术在医疗领域普遍存在效率低、限制多、拓展性差等问题.首先针对医疗领域大数据专业性强、结构复杂等特点,对医学知识图谱架构和构建技术进行了全面剖析;其次,分别针对医学知识图谱中知识表示、知识抽取、知识融合和知识推理这4个模块的关键技术和研究进展进行综述,并对这些技术进行实验分析与比较.此外,介绍了医学知识图谱在临床决策支持、医疗智能语义检索、医疗问答等医疗服务中的应用现状.最后对当前研究存在的问题与挑战进行了讨论和分析,并对其发展前景进行了展望. 展开更多
关键词 知识图谱 智慧医疗 大数据 知识融合 自然语言处理
下载PDF
知识图谱构建技术综述 被引量:108
17
作者 张吉祥 张祥森 +1 位作者 武长旭 赵增顺 《计算机工程》 CAS CSCD 北大核心 2022年第3期23-37,共15页
知识图谱在医疗、金融、农业等领域得到快速发展与广泛应用,其可以高效整合海量数据的有效信息,为实现语义智能化搜索以及知识互联打下基础。随着深度学习的发展,传统基于规则和模板的知识图谱构建技术已经逐渐被深度学习所替代。梳理... 知识图谱在医疗、金融、农业等领域得到快速发展与广泛应用,其可以高效整合海量数据的有效信息,为实现语义智能化搜索以及知识互联打下基础。随着深度学习的发展,传统基于规则和模板的知识图谱构建技术已经逐渐被深度学习所替代。梳理知识抽取、知识融合、知识推理3类知识图谱构建技术的发展历程,重点分析基于卷积神经网络、循环神经网络等深度学习的知识图谱构建方法,并归纳现有方法的优劣性与发展思路。此外,深度学习虽然在自然语言处理、计算机视觉等领域取得了较大成果,但自身存在依赖大规模样本、缺乏推理性与可解释性等缺陷,限制了其进一步发展。为此,对知识图谱应用于深度学习以改善深度学习自身缺陷的相关方法进行整理,分析深度学习的可解释性、指导性以及因果推理性,归纳知识图谱的优势以及发展的必要性。在此基础上,对知识图谱构建技术以及知识图谱应用于深度学习所面临的困难和挑战进行梳理和分析,并对该领域的发展前景加以展望。 展开更多
关键词 知识图谱 信息抽取 语义网 深度学习 自然语言处理
下载PDF
基于最大熵方法的中英文基本名词短语识别 被引量:61
18
作者 周雅倩 郭以昆 +1 位作者 黄萱菁 吴立德 《计算机研究与发展》 EI CSCD 北大核心 2003年第3期440-446,共7页
使用了基于最大熵的方法识别中文基本名词短语 在开放语料ChineseTreeBank上 ,只使用词性标注 ,达到了平均 87 4 3% / 88 0 9%的查全率 /准确率 由于 ,关于中文的基本名词短语识别的结果没有很好的可比性 ,又使用相同的算法 ,尝试了英... 使用了基于最大熵的方法识别中文基本名词短语 在开放语料ChineseTreeBank上 ,只使用词性标注 ,达到了平均 87 4 3% / 88 0 9%的查全率 /准确率 由于 ,关于中文的基本名词短语识别的结果没有很好的可比性 ,又使用相同的算法 ,尝试了英文的基本名词短语识别 在英文标准语料TREEBANKⅡ上 ,开放测试达到了 93 31% / 93 0 4 %的查全率/准确率 ,极为接近国际最优水平 这既证明了此算法的行之有效 。 展开更多
关键词 最大熵 基本名词短语 自然语言处理
下载PDF
句子相似模型和最相似句子查找算法 被引量:68
19
作者 吕学强 任飞亮 +1 位作者 黄志丹 姚天顺 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2003年第6期531-534,共4页
提出一种句子相似模型,用以度量句子的相似程度·句子相似度由词形相似度和词序相似度决定,词形相似度起主要作用,词序相似度起次要作用·该模型可保证当一个句子的分句或短语整体发生长距离移动后,仍与原来的句子很相似·... 提出一种句子相似模型,用以度量句子的相似程度·句子相似度由词形相似度和词序相似度决定,词形相似度起主要作用,词序相似度起次要作用·该模型可保证当一个句子的分句或短语整体发生长距离移动后,仍与原来的句子很相似·提出一种基于单词倒排索引和句子长度索引的最相似句子查找算法·实验结果表明该查找算法不仅高效,而且平均查找时间受语料库规模影响很小· 展开更多
关键词 自然语言处理 基于实例 机器翻译 句子相似度 倒排索引 语料库
下载PDF
面向自然语言处理的预训练技术研究综述 被引量:100
20
作者 李舟军 范宇 吴贤杰 《计算机科学》 CSCD 北大核心 2020年第3期162-173,共12页
近年来,随着深度学习的快速发展,面向自然语言处理领域的预训练技术获得了长足的进步。早期的自然语言处理领域长期使用Word2Vec等词向量方法对文本进行编码,这些词向量方法也可看作静态的预训练技术。然而,这种上下文无关的文本表示给... 近年来,随着深度学习的快速发展,面向自然语言处理领域的预训练技术获得了长足的进步。早期的自然语言处理领域长期使用Word2Vec等词向量方法对文本进行编码,这些词向量方法也可看作静态的预训练技术。然而,这种上下文无关的文本表示给其后的自然语言处理任务带来的提升非常有限,并且无法解决一词多义问题。ELMo提出了一种上下文相关的文本表示方法,可有效处理多义词问题。其后,GPT和BERT等预训练语言模型相继被提出,其中BERT模型在多个典型下游任务上有了显著的效果提升,极大地推动了自然语言处理领域的技术发展,自此便进入了动态预训练技术的时代。此后,基于BERT的改进模型、XLNet等大量预训练语言模型不断涌现,预训练技术已成为自然语言处理领域不可或缺的主流技术。文中首先概述预训练技术及其发展历史,并详细介绍自然语言处理领域的经典预训练技术,包括早期的静态预训练技术和经典的动态预训练技术;然后简要梳理一系列新式的有启发意义的预训练技术,包括基于BERT的改进模型和XLNet;在此基础上,分析目前预训练技术研究所面临的问题;最后对预训练技术的未来发展趋势进行展望。 展开更多
关键词 自然语言处理 预训练 词向量 语言模型
下载PDF
上一页 1 2 234 下一页 到第
使用帮助 返回顶部