期刊文献+
共找到97篇文章
< 1 2 5 >
每页显示 20 50 100
汉语问答系统答案提取方法研究 被引量:8
1
作者 余正涛 樊孝忠 +1 位作者 宋丽哲 高盛 《计算机工程》 EI CAS CSCD 北大核心 2006年第3期183-185,共3页
答案提取是问答系统的关键部分,文章介绍了汉语问答系统的基本结构及其实现过程,以问题和答案中关键词的词频统计特性为基础,进一步考虑问题和句子中关键词位置分布信息,提出了一种结合向量空间模型(VSM)和关键词最小匹配距离的问题和... 答案提取是问答系统的关键部分,文章介绍了汉语问答系统的基本结构及其实现过程,以问题和答案中关键词的词频统计特性为基础,进一步考虑问题和句子中关键词位置分布信息,提出了一种结合向量空间模型(VSM)和关键词最小匹配距离的问题和句子相似度的计算方法。并以相似度为基础,结合问题类别,对汉语基于事实的简单陈述问题进行了答案句子提取实验,结果表明该方法有较好的效果。 展开更多
关键词 问答系统 答案提取 相似度 向量空间模型 最小匹配距离
下载PDF
基于多语言联合训练的汉-英-缅神经机器翻译方法 被引量:13
2
作者 满志博 毛存礼 +3 位作者 余正涛 李训宇 高盛 朱俊国 《清华大学学报(自然科学版)》 CSCD 北大核心 2021年第9期927-935,共9页
多语言神经机器翻译是解决低资源语言翻译的有效方法,现有方法通常依靠共享词表的方式解决英语、法语以及德语等相似语言之间的多语言翻译问题。缅甸语属于典型的低资源语言。汉语、英语以及缅甸语之间的语言结构差异较大。为了缓解由... 多语言神经机器翻译是解决低资源语言翻译的有效方法,现有方法通常依靠共享词表的方式解决英语、法语以及德语等相似语言之间的多语言翻译问题。缅甸语属于典型的低资源语言。汉语、英语以及缅甸语之间的语言结构差异较大。为了缓解由差异性引起的共享词表大小受限制问题,该文提出一种基于多语言联合训练的汉英缅神经机器翻译方法。在Transformer框架下将丰富的汉英平行语料与较少的汉缅、英缅语料进行联合训练,模型训练过程中分别在编码端和解码端将汉英缅映射在同一语义空间以降低汉英缅语言结构差异性对共享词表的影响,通过共享汉英语料训练参数来弥补汉缅、英缅语料缺失的问题。实验结果表明:在一对多、多对多的翻译场景下,所提方法的BLEU值比基线模型的汉英、英缅以及汉缅翻译结果有明显提升。 展开更多
关键词 汉语-英语-缅甸语 低资源语言 多语言神经机器翻译 联合训练 语义空间映射 共享参数
原文传递
融合词汇翻译概率的汉越神经机器翻译方法 被引量:12
3
作者 王卓 余正涛 +2 位作者 文永华 高盛 吴飞 《昆明理工大学学报(自然科学版)》 CAS 北大核心 2019年第1期54-60,共7页
神经机器翻译通过序列到序列的学习对翻译任务进行建模,目前使用注意力机制的神经机器翻译方法在多种语言对上都取得了很好的效果,但是在训练数据比较小的情况下(如汉语-越南语)神经机器翻译模型的性能并不理想.此外如何将统计机器翻译... 神经机器翻译通过序列到序列的学习对翻译任务进行建模,目前使用注意力机制的神经机器翻译方法在多种语言对上都取得了很好的效果,但是在训练数据比较小的情况下(如汉语-越南语)神经机器翻译模型的性能并不理想.此外如何将统计机器翻译与神经机器翻译进行融合也是一个值得研究的问题.本文分析了记忆网络和神经机器翻译的特点,利用记忆网络对词汇翻译概率进行存储,将词汇翻译概率转化为向量表示,并与神经机器翻译模型进行融合,提出基于记忆网络融合词汇翻译概率的方法,并据此对神经机器翻译的解码进行指导.实验表明记忆网络是一种可行的翻译知识融合方式,并且在神经机器翻译模型中融入词汇翻译概率可以一定程度上解决训练数据小时模型训练不充分的问题. 展开更多
关键词 神经机器翻译 汉语-越南语 翻译知识融合 词汇翻译概率
原文传递
基于深度神经网络的有色金属领域实体识别 被引量:12
4
作者 毛存礼 余正涛 +3 位作者 沈韬 高盛 郭剑毅 线岩团 《计算机研究与发展》 EI CSCD 北大核心 2015年第11期2451-2459,共9页
针对有色金属领域实体识别问题,提出一种基于深度神经网络(deep neural network,DNN)架构的有色金属领域实体识别方法.为能有效获取有色金属领域实体中字符间的紧密结合特征,并回避专业领域中文分词问题,使用神经网络的方法自动学习中... 针对有色金属领域实体识别问题,提出一种基于深度神经网络(deep neural network,DNN)架构的有色金属领域实体识别方法.为能有效获取有色金属领域实体中字符间的紧密结合特征,并回避专业领域中文分词问题,使用神经网络的方法自动学习中文字符embeddings向量化表示作为模型输入.基于降噪自动编码器(denoising autoencoder,DAE)对深度神经网络的每个隐层进行逐层预训练获取用于有色金属领域实体识别的最优特征向量组合,并详细介绍了基于神经语言模型的文本窗口降噪自动编码器预训练及有色金属实体识别的深层网络构建过程.为验证方法的有效性,对有色金属领域产品名、矿产名、地名、组织机构4类实体识别进行实验.实验结果表明,提出的方法对于专业领域的实体识别具有较好的效果. 展开更多
关键词 有色金属领域 深度神经网络 词汇embeddings 降噪自动编码器 实体识别
下载PDF
RDAQAS中问句相似度计算方法研究 被引量:4
5
作者 余正涛 高盛 纪鹏程 《昆明理工大学学报(理工版)》 2004年第2期40-44,71,共6页
在受限领域自动应答系统 (RDAQAS)中 ,以“知网”和领域本体库为基础 ,计算目标问句和问句语料库中问句的相似度 ,从中寻找最相近问句 ,最终提取答案的方式 ,是一种很实用的自动应答实现模式 .文中介绍了金融领域本体库、问句语料库等... 在受限领域自动应答系统 (RDAQAS)中 ,以“知网”和领域本体库为基础 ,计算目标问句和问句语料库中问句的相似度 ,从中寻找最相近问句 ,最终提取答案的方式 ,是一种很实用的自动应答实现模式 .文中介绍了金融领域本体库、问句语料库等语义资源的构建方法 ,提出了基于关键词空间向量模型和基于语义概念空间向量模型的问句相似度计算方法 ,并对其实现过程进行了详细描述 。 展开更多
关键词 RDAQAS 计算方法 受限领域自动应答系统 问句相似度 语义相似度 领域本体库 空间向量模型 “知网”
下载PDF
多阶段特征蒸馏加权的轻量级图像超分辨率网络
6
作者 杨胜荣 车文刚 +1 位作者 高盛 赵云莱 《计算机工程与科学》 CSCD 北大核心 2024年第8期1433-1443,共11页
针对在轻量化网络中提取底层特征感受野不足以及缺乏对局部关键特征强化的问题,提出一种多阶段特征蒸馏加权的轻量级图像超分辨率网络LMSWN。首先,通过类金字塔模块扩大对浅层特征提取时的感受野,融合不同尺度的特征信息,丰富网络的信息... 针对在轻量化网络中提取底层特征感受野不足以及缺乏对局部关键特征强化的问题,提出一种多阶段特征蒸馏加权的轻量级图像超分辨率网络LMSWN。首先,通过类金字塔模块扩大对浅层特征提取时的感受野,融合不同尺度的特征信息,丰富网络的信息流;其次,设计多阶段残差蒸馏加权模块用于增强方形卷积提取局部关键特征的能力,以恢复更多细节信息提高重建性能,同时将通道分离与1×1卷积结合共同实现对特征的逐级蒸馏,减少网络参数量;最后,引入2个自适应参数对多阶段残差蒸馏加权模块的2条支路特征进行联合学习,提升对不同层次特征信息的关注度,进一步增强网络的表征能力。实验结果表明,在Set 5、Set 14、BSD 100、Urban 100和Manga 109这5个基准测试集上的实验充分验证了所提网络的有效性,其性能超过了当前主流轻量级网络。 展开更多
关键词 图像超分辨率 轻量级 特征蒸馏 多尺度卷积
下载PDF
特征规范化的图卷积神经网络推荐算法 被引量:1
7
作者 赵东琛 车文刚 高盛 《重庆邮电大学学报(自然科学版)》 CSCD 北大核心 2023年第3期528-535,共8页
为了提高推荐算法的推荐性能,针对现有的图卷积神经网络(graph convolutional neural network,GCN)的推荐算法中,2-3层的传播网络结构不利于较远距离节点之间进行信息交互,而加深网络层数又会导致性能急剧下降的问题,提出一种特征规范... 为了提高推荐算法的推荐性能,针对现有的图卷积神经网络(graph convolutional neural network,GCN)的推荐算法中,2-3层的传播网络结构不利于较远距离节点之间进行信息交互,而加深网络层数又会导致性能急剧下降的问题,提出一种特征规范化的图卷积神经网络推荐算法。该方法为传播网络中每一层输出特征进行规范化处理,避免节点嵌入表示随着网络层数增加而变得过于相似;在预测阶段,使用自注意力机制(self-attention mechanism,SA)将各层的输出进行连接,以获得更好的节点最终表示。在3个真实数据集上与传统算法以及现有同类型推荐算法进行对比,验证了该模型的有效性。实验结果表明,所提模型与基准模型相比,在召回率Recall@N和归一化折损累计增益NDCG@N上有明显提高,平均提升1.675%,最高可提升3.406%。 展开更多
关键词 推荐算法 图卷积神经网络 规范化层 自注意力机制
下载PDF
热辐射和绕组绝缘纸对自然对流下的变压器温度影响 被引量:1
8
作者 刘演 彭庆军 +1 位作者 高盛 舒振球 《科学技术与工程》 北大核心 2023年第26期11232-11238,共7页
为考虑在实际中热辐射和绕组绝缘纸对变压器自然对流的温度场影响,以1台SSZ20-63000/110的油浸式变压器为原型,建立了包含垫圈、绝缘纸筒、压板、绕组绝缘纸和黑体热辐射的变压器热点温升物理计算模型,通过一种基于有限元的方法研究了... 为考虑在实际中热辐射和绕组绝缘纸对变压器自然对流的温度场影响,以1台SSZ20-63000/110的油浸式变压器为原型,建立了包含垫圈、绝缘纸筒、压板、绕组绝缘纸和黑体热辐射的变压器热点温升物理计算模型,通过一种基于有限元的方法研究了热辐射和绕组绝缘纸对变压器自然对流的温度场影响。结果表明:在自然对流情况下,热辐射会使得绕组的热点温度和温升值发生小幅度升高,而绕组表层绝缘纸使得绕组的热点温度和温升值大幅度升高;热辐射不会影响热点的位置分布,而绕组绝缘纸会使热点位置发生下移;虽然热辐射对绕组的热点温度影响较小,但是和绕组绝缘纸一起考虑时影响较大。可见仿真计算时最好不要忽略热辐射和绕组绝缘层,否则与实际值相差过大。 展开更多
关键词 变压器 自然对流 绝缘纸 有限元 热点 温升
下载PDF
多尺度信息蒸馏的轻量级图像超分辨率算法
9
作者 杨胜荣 车文刚 高盛 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2023年第4期654-664,共11页
针对现有的图像超分辨率算法存在细节信息恢复能力较弱、特征复用不合理的问题,提出一种结合信息蒸馏及双链路上采样的超分辨率重建算法.首先,通过多尺度信息蒸馏模块对特征进行多维度提取,使获取的特征信息更全面,增强网络的表征能力;... 针对现有的图像超分辨率算法存在细节信息恢复能力较弱、特征复用不合理的问题,提出一种结合信息蒸馏及双链路上采样的超分辨率重建算法.首先,通过多尺度信息蒸馏模块对特征进行多维度提取,使获取的特征信息更全面,增强网络的表征能力;其次,蒸馏机制将多尺度特征进行选择性提炼,并将蒸馏出的部分特征利用层次注意力机制进行全局复用,不仅降低了网络参数,还能获取更丰富的上下文信息;最后,对不同路径下获取的特征分别上采样,将局部和全局特征相结合,提高对细节信息恢复的能力.实验结果表明,所提算法重建出的图像质量更佳,在4倍放大系数下的平均峰值信噪比值比特征蒸馏交互加权网络(FDIWN)提升了0.35 dB,模型参数量相对于级联残差网络(CARN)降低了55%,其性能超过了当前主流轻量级算法. 展开更多
关键词 超分辨率 信息蒸馏 注意力机制 多尺度特征提取 轻量级
下载PDF
基于双语主题和因子图模型的汉语-越南语双语事件关联分析 被引量:4
10
作者 唐莫鸣 朱明玮 +2 位作者 余正涛 唐培丽 高盛 《中文信息学报》 CSCD 北大核心 2017年第6期125-131,139,共8页
随着"一带一路"国家战略实施,我国与越南的交流与合作日益密切,及时掌握两国新闻事件动态意义重大。该文针对汉越双语新闻事件关联分析所面临的跨语言关联问题,研究汉越双语新闻事件关联分析方法。汉越双语新闻事件分析其实... 随着"一带一路"国家战略实施,我国与越南的交流与合作日益密切,及时掌握两国新闻事件动态意义重大。该文针对汉越双语新闻事件关联分析所面临的跨语言关联问题,研究汉越双语新闻事件关联分析方法。汉越双语新闻事件分析其实质是多语言多文本的理解问题。其主要难点是要解决多语言多文本下的新闻事件理解问题。该文提出了基于因子图模型的局部密切度传播算法。首先使用双语主题概率模型,从双语文档中获得双语主题及主题概率分布,然后基于新闻事件的文本相似度构建事件因子图模型,在因子图上对相互关联的事件使用局部密切度传播算法计算某一主题下所有相互关联的事件间的影响力。最后得到不同主题下事件间的影响力拓扑图。实验结果表明该方法相比相似度计算和词语共现的方法取得了不错效果。 展开更多
关键词 汉越双语新闻事件 事件关联 多语言文本
下载PDF
融入多特征的汉越新闻观点句抽取方法 被引量:4
11
作者 林思琦 余正涛 +1 位作者 郭军军 高盛 《中文信息学报》 CSCD 北大核心 2019年第11期101-106,共6页
该文提出一种融入多特征的汉越双语新闻观点句抽取方法。首先针对汉语和越南语标记资源不平衡的问题,构建了汉越双语词嵌入模型,用丰富的中文标记资源来弥补越南语标记资源的缺失。并且该文认为句子的主题特征、位置特征和情感特征对观... 该文提出一种融入多特征的汉越双语新闻观点句抽取方法。首先针对汉语和越南语标记资源不平衡的问题,构建了汉越双语词嵌入模型,用丰富的中文标记资源来弥补越南语标记资源的缺失。并且该文认为句子的主题特征、位置特征和情感特征对观点句分类具有重要作用,因此将这些特征分别融入词向量和注意力机制中,实现句子语义信息和情感、主题、位置特征的结合。实验表明,该方法可有效提升越南语新闻观点句抽取的准确率。 展开更多
关键词 观点句抽取 双语词嵌入 注意力机制
下载PDF
融入注意力机制的多尺度卷积图像去雾方法
12
作者 唐剑 车文刚 高盛 《计算机工程与科学》 CSCD 北大核心 2023年第8期1453-1462,共10页
图像的去雾问题是一项富有挑战性的视觉任务。以往的图像去雾方法往往过于依赖雾天图像退化的物理模型,且当前利用卷积神经网络进行图像去雾的模型较为复杂,基于此提出一种不依赖于物理模型的轻量级去雾网络MADNet。该网络主要由融入注... 图像的去雾问题是一项富有挑战性的视觉任务。以往的图像去雾方法往往过于依赖雾天图像退化的物理模型,且当前利用卷积神经网络进行图像去雾的模型较为复杂,基于此提出一种不依赖于物理模型的轻量级去雾网络MADNet。该网络主要由融入注意力机制的多尺度卷积模块构成,通过将有雾图像看成是清晰的无雾图像和雾度残留图像组成,让MADNet直接学习目标无雾图像和输入的有雾图像之间的雾度残留物,最后实现端到端的图像去雾。实验结果表明,MADNet在数据集SOTS和NH-HAZE上的结构相似性和峰值性噪比均优于其它对比方法的,在真实场景中也能取得较好的去雾效果。 展开更多
关键词 图像去雾 轻量级网络 注意力机制 多尺度卷积
下载PDF
融合要素及主题的汉越双语新闻话题分析 被引量:3
13
作者 夏青 严馨 +3 位作者 余正涛 汪建成 高盛 洪旭东 《计算机工程》 CAS CSCD 北大核心 2016年第9期186-191,共6页
双语话题分析与发现是当前国内外的研究热点,但针对特定文本研究较少。为此,在汉越双语新闻文本中,基于双语主题分布词的汉越文本相似度计算方法,提出融合标题、关键词以及实体等并针对新闻文本的新闻要素特征。将这些新闻特征信息融合... 双语话题分析与发现是当前国内外的研究热点,但针对特定文本研究较少。为此,在汉越双语新闻文本中,基于双语主题分布词的汉越文本相似度计算方法,提出融合标题、关键词以及实体等并针对新闻文本的新闻要素特征。将这些新闻特征信息融合到文本相似度计算中构建双语文本相似度矩阵,对汉越双语新闻文本采用自适应K均值算法进行聚类,分析汉越双语新闻话题。实验结果表明,与仅考虑新闻文本相似度的计算方法和K均值聚类方法相比,该方法的准确率、召回率和F值更高。 展开更多
关键词 双语新闻话题分析 汉越双语 文本相似度 主题 自适应聚类
下载PDF
基于事件元素无向图的查询扩展方法 被引量:3
14
作者 叶雷 高盛 +2 位作者 余正涛 秦广顺 洪旭东 《中文信息学报》 CSCD 北大核心 2017年第1期17-22,30,共7页
借助新闻事件元素之间的关联特性,提出了基于事件元素无向图的查询扩展方法,利用新闻事件元素之间的关联关系进行查询扩展提升新闻事件检索效果。首先分析候选事件文档与查询项的关系,确定待扩展的元素;然后利用事件元素之间的关联关系... 借助新闻事件元素之间的关联特性,提出了基于事件元素无向图的查询扩展方法,利用新闻事件元素之间的关联关系进行查询扩展提升新闻事件检索效果。首先分析候选事件文档与查询项的关系,确定待扩展的元素;然后利用事件元素之间的关联关系构建无向图,通过事件向量空间计算边的权重;最后,利用无向图节点权重模型计算事件元素权重,依据权重进行事件元素扩展。在新闻事件查询扩展方面进行了对比试验,结果表明该文提出的查询扩展方法取得了较好的效果。 展开更多
关键词 新闻事件 查询扩展 事件元素 事件元素无向图
下载PDF
融合语音情感词局部特征的语音情感识别方法 被引量:2
15
作者 宋明虎 余正涛 +2 位作者 高盛 李铚 沈韬 《计算机工程与科学》 CSCD 北大核心 2017年第1期194-198,共5页
为有效利用语音情感词局部特征,提出了一种融合情感词局部特征与语音语句全局特征的语音情感识别方法。该方法依赖于语音情感词典的声学特征库,提取出语音语句中是否包含情感词及情感词密度等局部特征,并与全局声学特征进行融合,再通过... 为有效利用语音情感词局部特征,提出了一种融合情感词局部特征与语音语句全局特征的语音情感识别方法。该方法依赖于语音情感词典的声学特征库,提取出语音语句中是否包含情感词及情感词密度等局部特征,并与全局声学特征进行融合,再通过机器学习算法建模和识别语音情感。对比实验结果表明,融合语音情感词局部特征与全局特征的语音情感识别方法能取得更好的效果,局部特征的引入能有效提高语音情感识别准确率。 展开更多
关键词 语音 情感识别 语音情感词典 局部特征 全局特征
下载PDF
融合主题的汉越冶金领域统计机器翻译方法 被引量:2
16
作者 周珂 余正涛 高盛 《计算机工程》 CAS CSCD 北大核心 2017年第12期179-183,共5页
为有效利用领域知识提高汉越冶金领域的机器翻译效果,利用术语与主题的分布关系约束术语的选择,提出融合主题的统计机器翻译方法。建立术语翻译模型,抽取短语概率表时将术语对源语言文档的主题信息融入到翻译概率表中,利用主题分布描述... 为有效利用领域知识提高汉越冶金领域的机器翻译效果,利用术语与主题的分布关系约束术语的选择,提出融合主题的统计机器翻译方法。建立术语翻译模型,抽取短语概率表时将术语对源语言文档的主题信息融入到翻译概率表中,利用主题分布描述术语与主题之间的关系,同时使用冶金领域语料训练翻译模型,将2个模型融合到基于短语的汉越翻译系统解码过程中,指导选择出最符合领域特性的术语及译文。融合模型前后的对比实验结果表明,与基于短语的机器翻译方法相比,该方法可有效提高汉越冶金领域的翻译性能。 展开更多
关键词 冶金领域 统计机器翻译 主题模型 术语 联合翻译模型
下载PDF
多特征融合的汉越双语新闻摘要方法 被引量:2
17
作者 叶雷 余正涛 +2 位作者 高盛 刘书龙 张亚飞 《中文信息学报》 CSCD 北大核心 2018年第12期84-91,共8页
为了获取同一事件的汉越双语新闻的自动摘要,该文提出了一种多特征融合的汉越双语新闻摘要方法。关于同一事件的新闻文本,其句子间具有一定的关联关系,利用这些关联关系有助于生成摘要。根据该思想,首先计算句子间的新闻要素共现程度及... 为了获取同一事件的汉越双语新闻的自动摘要,该文提出了一种多特征融合的汉越双语新闻摘要方法。关于同一事件的新闻文本,其句子间具有一定的关联关系,利用这些关联关系有助于生成摘要。根据该思想,首先计算句子间的新闻要素共现程度及句子间的相似度;然后将这两种特征融入句子无向图,并利用图排序算法对句子进行排序;之后结合句子的位置特征对排序结果进行调序;最后挑选重要句子并去除冗余生成摘要。在汉越双语新闻文档集上进行了摘要实验,结果表明该方法取得了较好的结果,具有有效性。 展开更多
关键词 双语新闻 多特征 句子无向图 自动摘要
下载PDF
基于深度可分离卷积的汉越神经机器翻译 被引量:2
18
作者 徐毓 赖华 +2 位作者 余正涛 高盛 文永华 《厦门大学学报(自然科学版)》 CAS CSCD 北大核心 2020年第2期220-224,共5页
在汉越神经机器翻译中,由于汉越平行语料稀少,使得数据稀疏问题十分严重,极大地影响了模型的翻译效果.为了提升数据稀疏情况下的汉越神经机器翻译性能,提出一种基于深度可分离卷积的汉越神经机器翻译方法.该方法根据越南语的语言特点,... 在汉越神经机器翻译中,由于汉越平行语料稀少,使得数据稀疏问题十分严重,极大地影响了模型的翻译效果.为了提升数据稀疏情况下的汉越神经机器翻译性能,提出一种基于深度可分离卷积的汉越神经机器翻译方法.该方法根据越南语的语言特点,将越南语切分为词、音节、字符、子词4种不同的粒度并利用深度可分离卷积改进神经机器翻译模型,通过增加深度可分离卷积神经网络,对模型输入的不同粒度序列进行卷积运算,提取更多的特征数据,相比传统卷积降低了模型的理论计算量.实验结果表明,该方法在越南语4种不同翻译粒度上均取得最佳效果,一定程度上提升了汉越神经机器翻译性能. 展开更多
关键词 汉越神经机器翻译 数据稀疏 粒度 深度可分离卷积
下载PDF
基于维基百科的汉越词语相似度计算 被引量:1
19
作者 杨启悦 余正涛 +2 位作者 洪旭东 高盛 汤智文 《南京理工大学学报》 EI CAS CSCD 北大核心 2016年第4期461-466,共6页
为了解决跨语言汉越词语相似度计算问题,以维基百科多语言概念页面作为桥梁,利用概念之间存在的翻译对应关系、词语出现在不同概念页面及与其他概念之间存在共现关系,提出了基于维基百科的汉越词语相似度计算方法,该方法首先提取维基百... 为了解决跨语言汉越词语相似度计算问题,以维基百科多语言概念页面作为桥梁,利用概念之间存在的翻译对应关系、词语出现在不同概念页面及与其他概念之间存在共现关系,提出了基于维基百科的汉越词语相似度计算方法,该方法首先提取维基百科中汉语越南语具有对应关系的概念集合,构建双语概念特征空间,然后根据词语在相应概念描述文本中出现的词频特征,以及词语与概念在其他概念文本中的共现特征构建词语的概念向量值,最后通过夹角余弦对两个向量进行词语相似度计算。实验结果表明提出的方法在汉越双语词语相似度计算上表现了好的效果,概念共现关系能够提高词语相似度的准确率。 展开更多
关键词 汉语 越南语 词语相似度 维基百科 概念 共现关系 对应关系 词频
下载PDF
基于图聚类的汉越双语新闻话题发现 被引量:1
20
作者 王禹森 余正涛 +2 位作者 高盛 周超 洪旭东 《数据采集与处理》 CSCD 北大核心 2018年第3期530-537,共8页
跨语言新闻话题发现是将互联网上报道相同事件的不同语言新闻进行自动归类,由于不同语言文本很难表示在同一特征空间下,对其共同话题的挖掘就比较困难。然而类似的新闻事件在不同语言文本表达上具有相同的新闻要素,这些要素之间关联能... 跨语言新闻话题发现是将互联网上报道相同事件的不同语言新闻进行自动归类,由于不同语言文本很难表示在同一特征空间下,对其共同话题的挖掘就比较困难。然而类似的新闻事件在不同语言文本表达上具有相同的新闻要素,这些要素之间关联能够体现出新闻事件的关联性,因此,针对汉越新闻话题发现问题,提出基于文档图聚类的汉越双语新闻话题发现方法。首先提取汉越新闻文本新闻要素,借助文本中要素相似度计算汉越文本相关度,构建汉越双语文本图模型,获得新闻文本相似度矩阵;然后,借助图模型中文本间的传播特点,采用随机游走算法对相似度矩阵进行调整,最后利用信息传递算法进行聚类。实验结果表明提出的方法取得了很好的效果。 展开更多
关键词 汉越双语 事件要素 话题发现 图聚类
下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部