期刊文献+
共找到39篇文章
< 1 2 >
每页显示 20 50 100
Word2vec的核心架构及其应用 被引量:68
1
作者 熊富林 邓怡豪 唐晓晟 《南京师范大学学报(工程技术版)》 CAS 2015年第1期43-48,共6页
神经网络概率语言模型是一种新兴的自然语言处理算法,该模型通过学习训练语料获得词向量和概率密度函数,词向量是多维实数向量,向量中包含了自然语言中的语义和语法关系,词向量之间余弦距离的大小代表了词语之间关系的远近,词向量的加... 神经网络概率语言模型是一种新兴的自然语言处理算法,该模型通过学习训练语料获得词向量和概率密度函数,词向量是多维实数向量,向量中包含了自然语言中的语义和语法关系,词向量之间余弦距离的大小代表了词语之间关系的远近,词向量的加减代数运算则是计算机在"遣词造句".近年来,神经网络概率语言模型发展迅速,Word2vec是最新技术理论的合集.首先,重点介绍Word2vec的核心架构CBOW及Skip-gram;接着,使用英文语料训练Word2vec模型,对比两种架构的异同;最后,探讨了Word2vec模型在中文语料处理中的应用. 展开更多
关键词 自然语言处理 Word2vec CBOW skip-gram 中文语言处理
下载PDF
基于词向量和卷积神经网络的垃圾短信识别方法 被引量:13
2
作者 赖文辉 乔宇鹏 《计算机应用》 CSCD 北大核心 2018年第9期2469-2476,共8页
对垃圾短信进行过滤识别研究具有重要的社会价值和时代背景意义。针对传统的人工设计短信特征选择方法中存在数据稀疏、特征信息共现不足和特征提取困难的问题,提出一种基于词向量和卷积神经网络(CNN)的垃圾短信识别方法。首先,使用word... 对垃圾短信进行过滤识别研究具有重要的社会价值和时代背景意义。针对传统的人工设计短信特征选择方法中存在数据稀疏、特征信息共现不足和特征提取困难的问题,提出一种基于词向量和卷积神经网络(CNN)的垃圾短信识别方法。首先,使用word2vec的skip-gram模型根据维基中文语料库训练出短信数据集中每个词的词向量,并将每条短信中各个词组所对应的词向量组成表示短信的二维特征矩阵;然后,把特征矩阵作为卷积神经网络的输入,通过卷积层的不同尺度卷积核提取多尺度短信特征,以及利用1-max pooling池化策略得到局部最优特征;最后,将局部最优特征组成融合特征向量放入softmax分类器中得出分类结果。在10万条短信数据上进行的实验结果表明,在特征提取方式相同的情况下,基于卷积神经网络模型的识别准确率能够达到99.5%,比传统的机器学习模型提高了2.4%~5.1%,且各模型的识别准确率均保持在94%以上。 展开更多
关键词 垃圾短信 识别 word2vec skip-gram 词向量 卷积神经网络
下载PDF
基于多种特征池化的中文文本分类算法 被引量:11
3
作者 阳馨 蒋伟 刘晓玲 《四川大学学报(自然科学版)》 CAS CSCD 北大核心 2017年第2期287-292,共6页
文本分类是文本挖掘的一个内容,在信息检索、邮件过滤及网页分类等领域有着广泛的应用价值.目前文本分类算法在特征表示上的信息仍然不足,对此本文提出了基于多种特征池化的文本分类算法.在该算法中,本文首先对分词后的文本采用skip-gra... 文本分类是文本挖掘的一个内容,在信息检索、邮件过滤及网页分类等领域有着广泛的应用价值.目前文本分类算法在特征表示上的信息仍然不足,对此本文提出了基于多种特征池化的文本分类算法.在该算法中,本文首先对分词后的文本采用skip-gram模型获取词向量,然后对整个文本的词向量进行多种池化,最后将多种池化的特征作为一个整体输入到Softmax回归模型中得到文本的类别信息.通过对复旦大学所提供的文本分类语料库(复旦)测试语料的实验,该结果表明,本文所给出的多种特征池化方法能够提高文本分类的准确率,证明了本文算法的有效性. 展开更多
关键词 中文文本分类 池化 分类算法 skip-gram Softmax
下载PDF
一种Word2vec构建词向量模型的实现方法 被引量:6
4
作者 席宁丽 朱丽佳 +2 位作者 王录通 陈俊 万晓容 《电脑与信息技术》 2023年第1期43-46,共4页
Word2vec是一种基于简单神经网络的自然语言处理方法,是一种词嵌入技术,可用于构建高维词向量。研究针对Word2vec词向量表示方法进行模型构建和分析,通过NLPCC2014语料训练,将词映射到高维词向量空间中,完成了Word2vec的功能实现以及可... Word2vec是一种基于简单神经网络的自然语言处理方法,是一种词嵌入技术,可用于构建高维词向量。研究针对Word2vec词向量表示方法进行模型构建和分析,通过NLPCC2014语料训练,将词映射到高维词向量空间中,完成了Word2vec的功能实现以及可视化输出。实验中进一步针对CBOW模型与Skip-gram模型,这两种Word2vec中的重要模型进行对比研究,输出结果表明:在通过大语料训练中文词向量时,Skip-gram模型在新词识别上具有明显优势,综合模型准确性与时间性能来说,总体可靠性更优。 展开更多
关键词 词向量 Word2vec CBOW skip-gram NLP
下载PDF
基于GRU神经网络的电网告警信息分类研究 被引量:7
5
作者 徐家慧 张昊 +4 位作者 肖林朋 何慧 张宇 耿艳 周雅爽 《计算机与数字工程》 2019年第6期1405-1408,1538,共5页
电力系统规模的扩大对变电站后台监控系统的要求日益上升,主要体现在其告警信息处理能力上。论文设计了电力设备风险运行评估系统,在参考电力设备相关试验规程的基础上,建立基于电网监控数据的电力故障指标体系。遥信是将被监视厂站的... 电力系统规模的扩大对变电站后台监控系统的要求日益上升,主要体现在其告警信息处理能力上。论文设计了电力设备风险运行评估系统,在参考电力设备相关试验规程的基础上,建立基于电网监控数据的电力故障指标体系。遥信是将被监视厂站的设备状态信号远距离传给调度,以自然语言的形式记录的告警信息。论文将电网遥信数据进行预处理。词向量训练,并通过GRU神经网络将信号按照其对电网影响程度大小进行分类,构建了电网告警信息分类模型,实例分析证明了该方法的准确性。可行性,且能进一步改进与提升故障识别效率。分类结果可供电网工作人员参考,通过分类结果对不同级别的告警信息进行不同的处理操作,免去人工分类的资源浪费。 展开更多
关键词 电网 设备监控 遥信 skip-gram GRU神经网络
下载PDF
面向社交网络的潜在药物不良反应发现 被引量:7
6
作者 赵明珍 林鸿飞 +1 位作者 徐博 郝辉辉 《中文信息学报》 CSCD 北大核心 2017年第5期194-202,共9页
随着互联网的发展,社交网络中积累了大量的医疗健康领域的文本数据。该文利用基于信息熵的方法,从健康社交网络中的用药者评论数据中识别药物的潜在不良反应;同时,对于潜在药物不良反应,该文提出了基于Word2vec和Skip-gram模型的蛋白质... 随着互联网的发展,社交网络中积累了大量的医疗健康领域的文本数据。该文利用基于信息熵的方法,从健康社交网络中的用药者评论数据中识别药物的潜在不良反应;同时,对于潜在药物不良反应,该文提出了基于Word2vec和Skip-gram模型的蛋白质关联紧密度函数,尽最大努力发现药物引起其"潜在"不良反应的证据链。实验证明,该方法用来寻求潜在药物不良反应证据链是有效的。 展开更多
关键词 社交网络 药物不良反应 信息熵 Word2vec skip-gram
下载PDF
基于Skip-gram模型的微博情感倾向性分析 被引量:4
7
作者 李天彩 王波 +1 位作者 毛二松 席耀一 《计算机应用与软件》 CSCD 2016年第7期114-117,133,共5页
为了更好地对微博进行表示,提高微博情感倾向性识别的准确度,提出一种基于Skip-gram模型的微博情感倾向性分析方法。首先,使用Skip-gram模型在中文数据上进行训练得到词向量;然后,利用词向量在词语表示上的优势,以及一定程度上满足加法... 为了更好地对微博进行表示,提高微博情感倾向性识别的准确度,提出一种基于Skip-gram模型的微博情感倾向性分析方法。首先,使用Skip-gram模型在中文数据上进行训练得到词向量;然后,利用词向量在词语表示上的优势,以及一定程度上满足加法组合运算的特性,通过向量相加获得微博的向量表示以及正负情感向量;最后,通过计算微博向量和正负情感向量的相似度判断微博的情感倾向。在NLP&CC2012数据上进行实验,结果表明,该方法能够有效识别微博的情感倾向,较传统的JST(Joint Sentiment/Topic model)和ASUM(Aspect and Sentiment Unication Model)平均F1值分别提高了23%和26%。 展开更多
关键词 微博 情感分析 skip-gram 模型 词向量 微博向量
下载PDF
结合Skip-gram和加权损失函数的神经网络推荐模型 被引量:4
8
作者 李淑芝 余乐陶 +1 位作者 邓小鸿 李志军 《计算机工程与应用》 CSCD 北大核心 2020年第19期76-85,共10页
针对网络推荐系统中传统的协同过滤技术在实际应用中存在数据稀疏、导致准确率低、推荐单一性等问题,提出一种结合Skip-gram项目嵌入和加权损失函数的深度神经网络的推荐模型DSM。采用了3层ReLU层对输出向量进行回归,在未使用附加信息... 针对网络推荐系统中传统的协同过滤技术在实际应用中存在数据稀疏、导致准确率低、推荐单一性等问题,提出一种结合Skip-gram项目嵌入和加权损失函数的深度神经网络的推荐模型DSM。采用了3层ReLU层对输出向量进行回归,在未使用附加信息的前提下提高了推荐精度;利用Skip-gram进行项目嵌入得到更稠密的表示向量,减少了计算量;并且使用加权损失函数训练深度神经网络的参数,平衡了推荐项目的受欢迎程度,保证了新颖性。在APP数据集和Last.fm数据集的实验结果表明,DSM模型在推荐应用程序和歌曲时,准确性和多样性方面相比现有方法均有一定的提高。 展开更多
关键词 推荐系统 数据稀疏 skip-gram 加权损失函数 深度神经网络
下载PDF
基于双向LSTM的电网调度日志分类 被引量:3
9
作者 徐家慧 张明 +3 位作者 白静洁 何慧 赵扬 白盛楠 《计算机应用与软件》 北大核心 2019年第1期142-146,共5页
电网调度日志记录电网运行的各类信息,是分析调度过程、电网运行情况的重要数据来源。电网调度日志管理逐步智能化,调度日志分类任务也由人工操作转变为系统自动分类。为实现智能化分类,提出一种基于深度神经网络的电网调度日志分类方... 电网调度日志记录电网运行的各类信息,是分析调度过程、电网运行情况的重要数据来源。电网调度日志管理逐步智能化,调度日志分类任务也由人工操作转变为系统自动分类。为实现智能化分类,提出一种基于深度神经网络的电网调度日志分类方法。该方法基于电网调度日志训练出词向量,将词向量作为LSTM(Long Short-Term Memory)模型的输入。使用双向LSTM对电网调度日志进行分类。实验结果表明,该方法可以有效地对长度差别巨大的日志进行分类,并获得比传统分类方法更优的性能。 展开更多
关键词 电网调度日志 skip-gram 词向量 循环神经网络 双向LSTM
下载PDF
Skip-Gram模型融合词向量投影的微博新词发现 被引量:3
10
作者 于洁 《计算机系统应用》 2016年第7期130-136,共7页
随着微博等社交网络的普及,新词源源不断涌现,分词系统经常将新词错误切分为单字.新词发现已经成为中文自然语言处理领域的研究热点.现有新词识别方法依赖大规模语料统计数据,对低频新词识别能力差.本文提出一种扩展Skip-gram模型和词... 随着微博等社交网络的普及,新词源源不断涌现,分词系统经常将新词错误切分为单字.新词发现已经成为中文自然语言处理领域的研究热点.现有新词识别方法依赖大规模语料统计数据,对低频新词识别能力差.本文提出一种扩展Skip-gram模型和词向量投影方法,将两者结合后能缓解自然语言处理中常见的数据稀疏问题,有效识别低频新词,进而提高分词系统的准确率和召回率. 展开更多
关键词 skip-gram SOM 词向量 微博 新词发现
下载PDF
DCWord: A Novel Deep Learning Approach to Deceptive Review Identification by Word Vectors 被引量:3
11
作者 Wen Zhang Qiang Wang +2 位作者 Xiangjun Li Taketoshi Yoshida Jian Li 《Journal of Systems Science and Systems Engineering》 SCIE EI CSCD 2019年第6期731-746,共16页
Due to the anonymous and free-for-all characteristics of online forums,it is very hard for human beings to differentiate deceptive reviews from truthful reviews.This paper proposes a deep learning approach for text re... Due to the anonymous and free-for-all characteristics of online forums,it is very hard for human beings to differentiate deceptive reviews from truthful reviews.This paper proposes a deep learning approach for text representation called DCWord (Deep Context representation by Word vectors) to deceptive review identification.The basic idea is that since deceptive reviews and truthful reviews are composed by writers without and with real experience on using the online purchased goods or services,there should be different contextual information of words between them.Unlike state-of-the-art techniques in seeking best linguistic features for representation,we use word vectors to characterize contextual information of words in deceptive and truthful reviews automatically.The average-pooling strategy (called DCWord-A) and maxpooling strategy (called DCWord-M) are used to produce review vectors from word vectors.Experimental results on the Spam dataset and the Deception dataset demonstrate that the DCWord-M representation with LR (Logistic Regression) produces the best performances and outperforms state-of-the-art techniques on deceptive review identification.Moreover,the DCWord-M strategy outperforms the DCWord-A strategy in review representation for deceptive review identification.The outcome of this study provides potential implications for online review management and business intelligence of deceptive review identification. 展开更多
关键词 Online BUSINESS INTELLIGENCE skip-gram model DCWord representation deceptive REVIEW IDENTIFICATION deep learning
原文传递
基于连续Skip-gram及深度学习的图像描述方法
12
作者 曹刘彬 张丽红 《测试技术学报》 2017年第5期423-427,共5页
图像描述生成依赖于词向量及其质量,为了进一步提高生成图像描述的准确率,本文将连续Skip-gram模型引入生成图像描述的框架中.该框架首先利用连续Skip-gram学习单词的分布式表示,产生高质量的词向量,降低了词向量的计算复杂度,然后利用... 图像描述生成依赖于词向量及其质量,为了进一步提高生成图像描述的准确率,本文将连续Skip-gram模型引入生成图像描述的框架中.该框架首先利用连续Skip-gram学习单词的分布式表示,产生高质量的词向量,降低了词向量的计算复杂度,然后利用区域卷积神经网络对图像进行目标检测及特征提取,最后将词向量与图像特征向量分别作为循环神经网络的输入向量以及偏置向量,进而输出图像描述.实验结果表明:与m-RNN模型、Neural Image Caption模型、多模态循环神经网络模型相比较,采用连续Skip-gram模型的图像描述框架提高了图像描述的准确率及该框架的泛化能力. 展开更多
关键词 深度学习 图像描述生成 skip-gram 词向量
下载PDF
基于边界特征的情感新词提取方法
13
作者 朱波 侯敏 《重庆邮电大学学报(自然科学版)》 CSCD 北大核心 2014年第6期796-802,共7页
情感词典作为情感分析任务中的一项基础资源,是观点发现及情感极性判断的重要依据。随着网络新词的大量出现,情感新词的抽取成为一个亟待解决的问题。针对这一问题提出基于边界特征的情感新词的提取方法。该方法利用skip-gram模型挖掘... 情感词典作为情感分析任务中的一项基础资源,是观点发现及情感极性判断的重要依据。随着网络新词的大量出现,情感新词的抽取成为一个亟待解决的问题。针对这一问题提出基于边界特征的情感新词的提取方法。该方法利用skip-gram模型挖掘情感词的边界特征、构建边界特征集,利用边界特征集提取情感新词候选集,通过bigram搭配、序列模式等方法对情感新词候选集进行过滤,根据候选串的频次、与其搭配的边界特征在语料中的分布情况对候选串进行评分。在微博语料上的实验结果显示,该方法对情感新词识别的准确率与候选串得分正相关,当候选串得分为11时准确率为83.33%。实验证明,基于边界特征的情感新词的提取方法能够有效地识别大规模语料中的情感新词。 展开更多
关键词 情感新词 边界特征 skip-gram 序列模式
原文传递
基于改进GAN的恶意域名数据增强
14
作者 傅伟 钱丽萍 朱晓慧 《计算机应用与软件》 北大核心 2022年第3期308-315,共8页
近年来以恶意域名为依托的网络攻击事件频发。针对主流检测方法识别DGA(Domain Generation Algorithm)变体域名面临的训练数据受限和时效性不足问题,提出一种基于改进WGAN模型的伪DGA域名生成方法。将skip-gram和WGAN结合,通过skip-gra... 近年来以恶意域名为依托的网络攻击事件频发。针对主流检测方法识别DGA(Domain Generation Algorithm)变体域名面临的训练数据受限和时效性不足问题,提出一种基于改进WGAN模型的伪DGA域名生成方法。将skip-gram和WGAN结合,通过skip-gram完成域名有效转换,WGAN模型深度挖掘数据编码中包含的特征,学习并生成伪DGA域名。为验证模型生成数据的有效性,采用多种机器学习方法对生成的域名进行有效性评估。实验结果表明,基于此模型生成的数据具备原数据的特性,可以模拟真实域名用于扩充恶意域名数据集,缓解现有域名检测算法中缺乏DGA变体域名的问题。 展开更多
关键词 恶意域名 数据增强 域名生成算法 字符嵌入 生成对抗网络 检测
下载PDF
融合深度学习特征的汉维短语表过滤研究 被引量:1
15
作者 朱顺乐 《计算机技术与发展》 2018年第7期149-154,共6页
汉维机器翻译面临着汉维语言构词、语序差异性大,短语表冗余、不合理信息较多,双语资源匮乏以及相应形态分析工具性能欠佳等挑战,严重影响了汉维机器翻译译文质量。针对汉维短语表中出现较多的不合理短语对,影响翻译性能及解码效率这一... 汉维机器翻译面临着汉维语言构词、语序差异性大,短语表冗余、不合理信息较多,双语资源匮乏以及相应形态分析工具性能欠佳等挑战,严重影响了汉维机器翻译译文质量。针对汉维短语表中出现较多的不合理短语对,影响翻译性能及解码效率这一问题,提出一种融合汉维短语对循环神经网络特征和汉维短语对上下文特征等深度学习特征,以及汉维短语对平均词共现特征这一浅层特征的汉维短语表过滤模型。该模型基于短语对循环神经网络特征、上下文特征以及平均词共现特征,并将各个特征概率及训练实例输入到基于朴素贝叶斯分类器的短语表过滤模型进行训练。该模型结合了汉维候选短语之间更为丰富的语义及上下文信息。实验结果表明,提出的短语表过滤方法能够有效地去除汉维短语表中的不合理短语,汉维机器翻译性能及其解码效率都有所提高。 展开更多
关键词 循环神经网络 贝叶斯定理 非连续元 短语表过滤 汉维翻译
下载PDF
专业社交媒体中的主题图谱构建方法研究——以汽车论坛为例 被引量:16
16
作者 林杰 苗润生 《情报学报》 CSSCI CSCD 北大核心 2020年第1期68-80,共13页
专业社交媒体中主题图谱的内容包括论坛中的主题及主题之间的关系,其具有挖掘专业产品创新方向、构建专业知识索引等重要应用价值。本文基于深度学习技术与文本挖掘技术,提出了专业社交媒体中的主题图谱构建方法。首先,使用专业社交媒... 专业社交媒体中主题图谱的内容包括论坛中的主题及主题之间的关系,其具有挖掘专业产品创新方向、构建专业知识索引等重要应用价值。本文基于深度学习技术与文本挖掘技术,提出了专业社交媒体中的主题图谱构建方法。首先,使用专业社交媒体中的文本训练Skip-Gram模型,利用该模型的隐藏层权重与模型输出的预测结果,分别获取词语间的语义相似度与上下文关联度。其次,基于该语义相似度与上下文关联度,对已有领域种子本体词汇进行扩充,将语义相似或上下文相邻近的词汇纳入本体词汇,为主题抽取提供高质量的领域词汇。然后,基于扩充的专业本体词汇,使用结合本体词汇的LDA主题模型从专业社交媒体文本中抽取主题与主题词。最后,利用语义相似度与上下文关联度,定义关联度权重,通过图模型与谱聚类,获取主题间与主题词的关联关系与层次结构。本文使用汽车论坛语料进行主题图谱生成实验。实验结果表明,本文方法获取的主题词纯净度相比单独使用LDA模型提升了20.2%,且能够清晰合理地展现主题之间的关系。 展开更多
关键词 专业社交媒体 主题图谱 skip-gram模型 LDA主题模型 图模型
下载PDF
基于词向量的微博事件追踪方法 被引量:11
17
作者 张佳明 席耀一 +2 位作者 王波 唐浩浩 李天彩 《计算机工程与应用》 CSCD 北大核心 2016年第17期73-78,117,共7页
微博文本长度短,且网络新词层出不穷,使得传统方法在微博事件追踪中效果不够理想。针对该问题,提出一种基于词向量的微博事件追踪方法。词向量不仅可以计算词语之间的语义相似度,而且能够提高微博间语义相似度计算的准确率。该方法首先... 微博文本长度短,且网络新词层出不穷,使得传统方法在微博事件追踪中效果不够理想。针对该问题,提出一种基于词向量的微博事件追踪方法。词向量不仅可以计算词语之间的语义相似度,而且能够提高微博间语义相似度计算的准确率。该方法首先使用Skip-gram模型在大规模数据集上训练得到词向量;然后通过提取关键词建立初始事件和微博表示模型;最后利用词向量计算微博和初始事件之间的语义相似度,并依据设定阈值进行判决,完成事件追踪。实验结果表明,相比传统方法,该方法能够充分利用词向量引入的语义信息,有效提高微博事件追踪的性能。 展开更多
关键词 微博 事件追踪 短文本 skip-gram模型 词向量 语义信息
下载PDF
基于fastText模型的词向量表示改进算法 被引量:10
18
作者 阴爱英 吴运兵 +1 位作者 郑一江 余小燕 《福州大学学报(自然科学版)》 CAS 北大核心 2019年第3期314-319,共6页
传统词向量表示模型往往忽视了单词间的句法形态结构,导致模型预测准确率不高.为此,提出基于fastText模型的词向量表示改进算法.首先,在训练模型数据集上,引入stopwords处理技术,剔除一些无意义介词等对预测模型干扰,减少噪声数据;其次... 传统词向量表示模型往往忽视了单词间的句法形态结构,导致模型预测准确率不高.为此,提出基于fastText模型的词向量表示改进算法.首先,在训练模型数据集上,引入stopwords处理技术,剔除一些无意义介词等对预测模型干扰,减少噪声数据;其次,针对fastText模型中n-gram分解格式进行限定,将分解条件设置为符合英文单词的组成结构;最后,去除fastText模型中单词前后缀标记符,减少无用分解对模型预测产生干扰.实验结果表明,与fastText模型相比,所提出的改进模型在单词关系评分、语义相似性、句法相似性均取得较好的准确率. 展开更多
关键词 词向量 skip-gram模型 fastText模型 自然语言处理
下载PDF
基于加权词向量和卷积神经网络的新闻文本分类 被引量:7
19
作者 胡万亭 贾真 《计算机系统应用》 2020年第5期275-279,共5页
在文本分类中,基于Word2Vec词向量的文本表示忽略了词语区分文本的能力,设计了一种用TF-IDF加权词向量的卷积神经网络(CNN)文本分类方法.新闻文本分类,一般只考虑正文,忽略标题的重要性,改进了TFIDF计算方法,兼顾了新闻标题和正文.实验... 在文本分类中,基于Word2Vec词向量的文本表示忽略了词语区分文本的能力,设计了一种用TF-IDF加权词向量的卷积神经网络(CNN)文本分类方法.新闻文本分类,一般只考虑正文,忽略标题的重要性,改进了TFIDF计算方法,兼顾了新闻标题和正文.实验表明,基于加权词向量和CNN的新闻文本分类方法比逻辑回归分类效果有较大提高,比不加权方法也有一定的提高. 展开更多
关键词 文本分类 TF-IDF技术 skip-gram模型 词向量 卷积神经网络
下载PDF
基于Skip-gram词嵌入算法的结构化患者特征表示方法研究 被引量:6
20
作者 黄艳群 王妮 +3 位作者 刘红蕾 费晓璐 巍岚 陈卉 《北京生物医学工程》 2019年第6期568-574,604,共8页
目的基于表示学习中的Skip-gram词嵌入算法,寻找能够克服电子病历中结构化特征的高维性并在语义层次上表示特征的方法。方法本文的数据来源于北京市某三甲医院的电子病历系统,从中提取患者的结构化特征,包括疾病、药物和实验室指标,其... 目的基于表示学习中的Skip-gram词嵌入算法,寻找能够克服电子病历中结构化特征的高维性并在语义层次上表示特征的方法。方法本文的数据来源于北京市某三甲医院的电子病历系统,从中提取患者的结构化特征,包括疾病、药物和实验室指标,其中实验室指标通过正常值范围离散化;利用Skip-gram算法,将电子病历中离散型患者特征(疾病和药物)和离散后的连续型患者特征(实验室指标)嵌入到同一个低维实数向量空间中。通过t-SNE降维可视化方法显示低维实数空间中特征向量的关系,并与特征向量间的余弦距离计算结果相互印证,从而评价特征表示的有效性和揭示特征向量间的潜在联系。结果患者特征的低维实数向量既降低了患者特征的维度,又很好地表征了特征间的潜在联系,临床含义相关的特征表示成的低维实数向量也很相近。结论基于Skip-gram算法将患者结构化特征表示成低维实数向量取得了较好的效果,为解决EMR数据表示的高维性以及结构化特征间潜在关系分析提供一种思路。 展开更多
关键词 电子病历 skip-gram算法 特征表示 自然语言处理 词嵌入
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部