期刊文献+
共找到32篇文章
< 1 2 >
每页显示 20 50 100
基于神经网络特征的句子级别译文质量估计 被引量:14
1
作者 陈志明 李茂西 王明文 《计算机研究与发展》 EI CSCD 北大核心 2017年第8期1804-1812,共9页
机器翻译质量估计是自然语言处理中的一个重要任务,与传统的机器翻译自动评价方法不同,译文质量估计方法评估机器译文的质量不使用人工参考译文.针对目前句子级别机器译文质量估计特征提取严重依赖语言学分析导致泛化能力不足,并且制约... 机器翻译质量估计是自然语言处理中的一个重要任务,与传统的机器翻译自动评价方法不同,译文质量估计方法评估机器译文的质量不使用人工参考译文.针对目前句子级别机器译文质量估计特征提取严重依赖语言学分析导致泛化能力不足,并且制约着后续支持向量回归算法的性能,提出了利用深度学习中上下文单词预测模型和矩阵分解模型提取句子向量特征,并将其与递归神经网络语言模型特征相结合来提高译文质量自动估计与人工评价的相关性.在WMT15和WMT16译文质量估计子任务数据集上的实验结果表明:利用上下文单词预测模型提取句子向量特征的方法性能统计一致地优于传统的QuEst方法和连续空间语言模型句子向量特征提取方法,这揭示了提出的特征提取方法不仅不需要语言学分析,而且显著地提高了译文质量估计的效果. 展开更多
关键词 机器翻译质量估计 句子级别 词向量 递归神经网络语言模型 支持向量回归
下载PDF
基于改进句子相似度算法的释义识别研究 被引量:11
2
作者 陈俊月 郝文宁 +3 位作者 张紫萱 唐新德 康睿智 莫斐 《计算机工程》 CAS CSCD 北大核心 2020年第9期76-82,共7页
针对现有句子相似度算法无法处理同义词、准确率低和复杂度高等不足,结合词向量技术改进Levenshtein相似度算法和Jaccard系数,提出一种新的句子相似度算法用于释义识别,并对多种句子相似度算法的优劣进行分析,设计多相似度特征组合的应... 针对现有句子相似度算法无法处理同义词、准确率低和复杂度高等不足,结合词向量技术改进Levenshtein相似度算法和Jaccard系数,提出一种新的句子相似度算法用于释义识别,并对多种句子相似度算法的优劣进行分析,设计多相似度特征组合的应用模式。基于MRPC释义识别数据集的实验结果表明,使用该算法的释义识别模型准确率与F1值分别达到74.4%和83.1%,与使用TF-IDF算法、词袋算法等传统算法的模型相比识别性能更优。 展开更多
关键词 句子相似度 Jaccard系数 Levenshtein距离 词向量 释义识别 多特征组合
下载PDF
基于注意力机制的概念化句嵌入研究 被引量:8
3
作者 王亚珅 黄河燕 +1 位作者 冯冲 周强 《自动化学报》 EI CSCD 北大核心 2020年第7期1390-1400,共11页
大多数句嵌模型仅利用文本字面信息来完成句子向量化表示,导致这些模型对普遍存在的一词多义现象缺乏甄别能力.为了增强句子的语义表达能力,本文使用短文本概念化算法为语料库中的每个句子赋予相关概念,然后学习概念化句嵌入(Conceptual... 大多数句嵌模型仅利用文本字面信息来完成句子向量化表示,导致这些模型对普遍存在的一词多义现象缺乏甄别能力.为了增强句子的语义表达能力,本文使用短文本概念化算法为语料库中的每个句子赋予相关概念,然后学习概念化句嵌入(Conceptual sentence embedding,CSE).因此,由于引入了概念信息,这种语义表示比目前广泛使用的句嵌入模型更具表达能力.此外,我们通过引入注意力机制进一步扩展概念化句嵌入模型,使模型能够有区别地选择上下文语境中的相关词语以实现更高效的预测.本文通过文本分类和信息检索等语言理解任务来验证所提出的概念化句嵌入模型的性能,实验结果证明本文所提出的模型性能优于其他句嵌入模型. 展开更多
关键词 句嵌入 短文本概念化 注意力机制 词嵌入 语义表达
下载PDF
利用加权词句向量的文本相似度计算方法 被引量:8
4
作者 徐鑫鑫 刘彦隆 宋明 《小型微型计算机系统》 CSCD 北大核心 2019年第10期2072-2076,共5页
传统词游走距离算法基于word2vec词向量以及词频特征向量计算文档距离,存在忽略词语语义的上下文语境以及无法充分提取词语中的语义信息等问题.因此,本文提出一种基于联合词句的文本相似度计算方法.该方法利用训练好的词向量和句向量构... 传统词游走距离算法基于word2vec词向量以及词频特征向量计算文档距离,存在忽略词语语义的上下文语境以及无法充分提取词语中的语义信息等问题.因此,本文提出一种基于联合词句的文本相似度计算方法.该方法利用训练好的词向量和句向量构建特征权重系数,对词游走距离计算公式进行改进后,选取一定比例关键词的词向量与句向量计算词句转移成本,从而得到文档的文本相似度.通过三组对比实验表明,该方法的效果优于其他文本相似度计算方法和原始词游走距离算法. 展开更多
关键词 文本相似度 词向量 句向量 WMD距离 增强权重系数
下载PDF
Sentence segmentation for classical Chinese based on LSTM with radical embedding 被引量:7
5
作者 Han Xu Wang Hongsu +2 位作者 Zhang Sanqian Fu Qunchao Liu Jun 《The Journal of China Universities of Posts and Telecommunications》 EI CSCD 2019年第2期1-8,共8页
A low-than character feature embedding called radical embedding is proposed,and applied on a long-short term memory(LSTM) model for sentence segmentation of pre-modern Chinese texts.The dataset includes over 150 class... A low-than character feature embedding called radical embedding is proposed,and applied on a long-short term memory(LSTM) model for sentence segmentation of pre-modern Chinese texts.The dataset includes over 150 classical Chinese books from 3 different dynasties and contains different literary styles.LSTM-conditional random fields(LSTM-CRF) model is a state-of-the-art method for the sequence labeling problem.This model adds a component of radical embedding,which leads to improved performances.Experimental results based on the aforementioned Chinese books demonstrate better accuracy than earlier methods on sentence segmentation,especial in Tang’s epitaph texts(achieving an F1-score of 81.34%). 展开更多
关键词 LSTM RADICAL embedding sentence SEGMENTATION
原文传递
基于SDR句嵌入的挖矿恶意软件早期检测方法
6
作者 钟凯 郭春 +1 位作者 李显超 申国伟 《计算机科学》 CSCD 北大核心 2024年第12期303-309,共7页
挖矿恶意软件以盗用设备的计算资源来挖掘加密货币为目标,在大量消耗计算资源的同时还严重危害网络安全。当前的挖矿恶意软件动态检测方法主要依据样本长时间运行过程中收集的主机行为或网络流量来进行检测,未能兼顾检测的及时性和准确... 挖矿恶意软件以盗用设备的计算资源来挖掘加密货币为目标,在大量消耗计算资源的同时还严重危害网络安全。当前的挖矿恶意软件动态检测方法主要依据样本长时间运行过程中收集的主机行为或网络流量来进行检测,未能兼顾检测的及时性和准确性。通过对挖矿恶意软件运行初期的DLL调用和API返回值进行分析,提出一种API句嵌入方法SDR,并基于SDR进一步提出一种基于SDR的挖矿恶意软件早期检测方法CEDS。CEDS利用SDR将软件运行初期的API名称序列、API返回值序列和DLL序列转化为句向量序列,使用TextCNN建立模型来进行挖矿恶意软件的早期检测。实验结果表明,CEDS能够以0.5106s的平均时长和96.75%的准确率判别一个软件样本是挖矿恶意软件还是良性软件。 展开更多
关键词 挖矿恶意软件 动态分析 早期检测 句向量 深度学习
下载PDF
基于样本对纠正对比学习的问句相似性判别
7
作者 王浩畅 冯臻旸 郑冠彧 《计算机工程与设计》 北大核心 2024年第12期3726-3731,共6页
为解决对比学习在难例问句的相似性判别上准确性不高的问题,提出一种基于样本对纠正对比学习的问句对相似性判别方法。利用预训练模型与双向LSTM结合进行捕获语义特征;采用自注意力机制关注关键信息并利用平均池化策略压缩特征构建句向... 为解决对比学习在难例问句的相似性判别上准确性不高的问题,提出一种基于样本对纠正对比学习的问句对相似性判别方法。利用预训练模型与双向LSTM结合进行捕获语义特征;采用自注意力机制关注关键信息并利用平均池化策略压缩特征构建句向量;引入样本对对比学习并结合标签误差设计带有惩罚项的对比损失函数,纠正难例相似度得分,增强语义空间的可分离性。实验结果表明,该方法与基线模型相比在问句相似性判别上获得了更好的F1值以及准确率。 展开更多
关键词 相似性判别 对比学习 句向量 语义表征 预训练模型 自注意力机制 自然语言处理
下载PDF
STK:基于对比学习嵌入的聚类方法
8
作者 刘晋霞 张曦 《计算机科学》 CSCD 北大核心 2024年第S02期621-626,共6页
SimCSE作为一种对比学习方法,在文本嵌入和聚类中表现出了良好的性能。文中旨在优化SimCSE训练模型生成的句子嵌入使其适用于聚类任务,通过多个算法组合和训练参数调整,解决聚类算法选择、噪声及异常值的影响等问题。文中提出一种联合K... SimCSE作为一种对比学习方法,在文本嵌入和聚类中表现出了良好的性能。文中旨在优化SimCSE训练模型生成的句子嵌入使其适用于聚类任务,通过多个算法组合和训练参数调整,解决聚类算法选择、噪声及异常值的影响等问题。文中提出一种联合KL散度和KMeans算法的无监督聚类模型STK(SimCSE t-SNE KMeans),使用SimCSE对文本进行编码;随后采用t-SNE算法对高维嵌入进行降维,通过最小化KL散度保留低维空间中高维数据点之间的相似性关系,降维的同时改善文本嵌入表示;最后使用KMeans算法对降维后的嵌入进行聚类,得到聚类结果。通过将本研究的聚类结果与Bert,UMAP,HDBSCAN等算法得到的结果进行比较,发现文中提出的模型在制氢领域专利和论文数据集上表现出更好的聚类效果,尤其在轮廓系数这一评价指标上。 展开更多
关键词 SimCSE 句嵌入 KL散度 聚类 轮廓系数
下载PDF
基于改进SimCSE的无监督句嵌入方法 被引量:2
9
作者 郭江华 苑迎春 +1 位作者 王克俭 何晨 《计算机工程与设计》 北大核心 2023年第8期2382-2388,共7页
针对无监督SimCSE相同语义正样本差异性不足、模型训练与预测阶段具有不一致性的问题,基于SimCSE提出一种改进的无监督句嵌入方法SimCSE-PSER。采用dropout和位置嵌入扰动联合进行数据增强,提升正样本质量;引入R-Drop正则化方法,降低无... 针对无监督SimCSE相同语义正样本差异性不足、模型训练与预测阶段具有不一致性的问题,基于SimCSE提出一种改进的无监督句嵌入方法SimCSE-PSER。采用dropout和位置嵌入扰动联合进行数据增强,提升正样本质量;引入R-Drop正则化方法,降低无监督SimCSE使用dropout作为数据增强方法带来的训练与预测阶段不一致性。实验基于BERT模型在跨领域的4个中文语义文本相似度任务数据集上进行,结果表明该方法优于其它主流无监督句嵌入方法。 展开更多
关键词 语义文本相似度 无监督 句嵌入 对比学习 数据增强 正则化 预训练语言模型
下载PDF
联合知识图谱和预训练模型的中文关键词抽取方法 被引量:3
10
作者 姚奕 杨帆 《计算机科学》 CSCD 北大核心 2022年第10期243-251,共9页
关键词表征了文本的主题,是文本概念和主题的凝练。通过关键词,读者可以快速了解文档表达的主旨和思想,从而提升信息检索效率;此外,关键词抽取也可以为自动摘要、文本分类提供支撑。近年来,自动抽取关键词的研究引起了广泛关注,但如何... 关键词表征了文本的主题,是文本概念和主题的凝练。通过关键词,读者可以快速了解文档表达的主旨和思想,从而提升信息检索效率;此外,关键词抽取也可以为自动摘要、文本分类提供支撑。近年来,自动抽取关键词的研究引起了广泛关注,但如何精准地抽取文档的关键词仍是一个挑战。一方面,关键词是人们主观的认识,判断一个词是否是关键词本身具有主观性;另一方面,中文词汇往往具有丰富的语义信息,单纯依赖传统统计特征和主题特征难以准确提炼文本所表达的主旨思想。针对中文关键词抽取中存在的准确率低、信息冗余和信息缺失等问题,提出了一种联合知识图谱和预训练模型的无监督关键词抽取方法。该方法首先利用预训练模型进行主题聚类,并通过一种以句子为单位的聚类方法保证最终选取的关键词对全文内容的覆盖度;同时,通过知识图谱进行实体链接,以此实现精准分词及歧义消除;然后,根据主题信息构建语义词图,并以此为基础计算词语间的语义权重;最后,通过加权的PageRank算法进行关键词排序。在DUC 2001和CSL两个公开数据集和一个单独标注的CLTS数据集上,以预测结果的准确率、召回率及F1值为指标进行对比实验。实验结果表明,该模型相比多种基线方法,准确率均有所提升,在CLTS数据集上与传统统计方法 TF-IDF相比F1值提高了9.14%,与传统图方法 TextRank相比F1值提高了4.82%。 展开更多
关键词 关键词抽取 知识图谱 句嵌入 聚类 图算法 预训练模型
下载PDF
A Chinese Question Answering System in Medical Domain 被引量:1
11
作者 FENG Guofei DU Zhikang WU Xing 《Journal of Shanghai Jiaotong university(Science)》 EI 2018年第5期678-683,共6页
Question answering systems offer a friendly interface for human beings to interact with massive online information. It is time consuming for users to retrieve useful medical information with search engines among massi... Question answering systems offer a friendly interface for human beings to interact with massive online information. It is time consuming for users to retrieve useful medical information with search engines among massive online websites. An effort is made to build a Chinese Question Answering System in Medical Domain(CQASMD) to provide useful medical information for users. A large medical knowledge base with more than 300 thousand medical terms and their descriptions is firstly constructed to store the structured medical knowledge data, and classified with the FastText model. Furthermore, a Word2Vec model is adopted to capture the semantic meanings of words, and the questions and answers are processed with sentence embedding to capture semantic context information. Users' questions are firstly classified and processed into a sentence vector and a matching algorithm is adopted to match the most similar question. After querying the constructed medical knowledge base, the corresponding answers to previous questions are responded to users. The architecture and flowchart of CQASMD is proposed, which will play an important role in self disease diagnosis and treatment. 展开更多
关键词 QUESTION answering knowledge base FastText sentence embedding DISEASE diagnosis
原文传递
基于跨语言预训练模型的朝汉翻译质量评估 被引量:1
12
作者 赵亚慧 李飞雨 +4 位作者 崔荣一 金国哲 张振国 李德 金小峰 《吉林大学学报(工学版)》 EI CAS CSCD 北大核心 2023年第8期2371-2379,共9页
针对主流翻译质量评估框架在低资源语料上表现较差,句子嵌入策略单一的问题,提出了一个基于跨语言预训练模型的朝汉翻译质量评估模型。首先,借鉴注意力思想提出一种融合跨层信息和词项位置的句子嵌入方法;其次,将跨语言预训练模型引入... 针对主流翻译质量评估框架在低资源语料上表现较差,句子嵌入策略单一的问题,提出了一个基于跨语言预训练模型的朝汉翻译质量评估模型。首先,借鉴注意力思想提出一种融合跨层信息和词项位置的句子嵌入方法;其次,将跨语言预训练模型引入翻译质量评估任务中,缓解朝鲜语低资源环境带来的数据稀疏问题;最后,对句向量进行回归,实现机器翻译质量评估任务。实验结果表明:该模型能有效提升朝汉翻译质量评估任务性能,与质量评估任务领域主流模型QuEst++、Bilingual Expert、TransQuest相比,皮尔逊相关系数分别提升了0.226、0.156、0.034,斯皮尔曼相关系数分别提升了0.123、0.038、0.026。 展开更多
关键词 计算机应用 翻译质量评估 跨语言预训练模型 句子嵌入
原文传递
基于流形学习的句向量优化
13
作者 吴明月 周栋 +1 位作者 赵文玉 屈薇 《计算机应用》 CSCD 北大核心 2023年第10期3062-3069,共8页
句向量是自然语言处理的核心技术之一,影响着自然语言处理系统的质量和性能。然而,已有的方法无法高效推理句与句之间的全局语义关系,致使句子在欧氏空间中的语义相似性度量仍存在一定问题。为解决该问题,从句子的局部几何结构入手,提... 句向量是自然语言处理的核心技术之一,影响着自然语言处理系统的质量和性能。然而,已有的方法无法高效推理句与句之间的全局语义关系,致使句子在欧氏空间中的语义相似性度量仍存在一定问题。为解决该问题,从句子的局部几何结构入手,提出一种基于流形学习的句向量优化方法。该方法利用局部线性嵌入(LLE)对句子及其语义相似句子进行两次加权局部线性组合,这样不仅保持了句子之间的局部几何信息,而且有助于推理全局几何信息,进而使句子在欧氏空间中的语义相似性更贴近人类真实语义。在7个文本语义相似度任务上的实验结果表明,所提方法的斯皮尔曼相关系数(SRCC)平均值相较于基于对比学习的方法SimCSE(Simple Contrastive learning of Sentence Embeddings)提升了1.21个百分点。此外,将所提方法运用于主流预训练模型上的结果表明,相较于原始预训练模型,所提方法优化后模型的SRCC平均值提升了3.32~7.70个百分点。 展开更多
关键词 流形学习 预训练模型 对比学习 句向量 自然语言处理 局部线性嵌入
下载PDF
面向句法块向量的句子相似度计算方法 被引量:1
14
作者 高顺峰 张再跃 《软件导刊》 2020年第10期106-110,共5页
传统句子相似度算法没有全面考虑句子结构与语义特征,影响相似度计算准确性,对此提出一种基于句法块向量的句子相似度计算方法。该方法综合考虑句子的语义信息与结构信息,首先构建两句子的语义依存关系树,然后进行一些被动转换等操作,... 传统句子相似度算法没有全面考虑句子结构与语义特征,影响相似度计算准确性,对此提出一种基于句法块向量的句子相似度计算方法。该方法综合考虑句子的语义信息与结构信息,首先构建两句子的语义依存关系树,然后进行一些被动转换等操作,最后根据词向量构建各个句法块向量并通过余弦值计算句子相似度。在常规句子对中进行测试实验,结果表明,综合句子结构与语义信息可提高相似度计算准确性。一般句子相似度计算正确率达到92%,比传统方法提高8%~10%。 展开更多
关键词 句子相似度 语义依存树 词向量 自然语言处理 句法结构
下载PDF
基于深度神经网络的病理报告自动打标签框架 被引量:1
15
作者 曹晏阁 王利团 《现代计算机》 2020年第31期3-13,共11页
得益于深度神经网络的特征提取功能,和深度神经网络结合的CAD系统在许多医学图像分析领域取得很大的成功。多数情况下,CAD系统基于监督学习构建,而训练一个监督学习系统需要大量人工标注的数据,费时费力。超声图像常被用做诊断的依据,... 得益于深度神经网络的特征提取功能,和深度神经网络结合的CAD系统在许多医学图像分析领域取得很大的成功。多数情况下,CAD系统基于监督学习构建,而训练一个监督学习系统需要大量人工标注的数据,费时费力。超声图像常被用做诊断的依据,也是用作训练模型的数据集,但是在临床上,超声图像并不准确,病理报告才是金标准,通过病理报告可以判断对应病人的超声图像为阳性还是阴性。由超声图像和对应病人病理报告得出的标签(阴性或阳性)就组成一个可用于训练模型的数据。通过文本检测、文本识别、句向量编码、二分类四个步骤提出一个自动打标签的模型,将病理报告作为输入,就可以得到标签,而不需要大量专业医师费事费力人工标注。 展开更多
关键词 深度学习 文本检测 文本识别 句向量 自动打标签
下载PDF
融合句嵌入的VAACGAN多对多语音转换 被引量:1
16
作者 李燕萍 曹盼 +1 位作者 石杨 张燕 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2021年第3期500-508,共9页
针对非平行文本条件下语音转换质量不理想、说话人个性相似度不高的问题,提出一种融合句嵌入的变分自编码辅助分类器生成对抗网络(VAACGAN)语音转换方法,在非平行文本条件下,有效实现了高质量的多对多语音转换。辅助分类器生成对抗网络... 针对非平行文本条件下语音转换质量不理想、说话人个性相似度不高的问题,提出一种融合句嵌入的变分自编码辅助分类器生成对抗网络(VAACGAN)语音转换方法,在非平行文本条件下,有效实现了高质量的多对多语音转换。辅助分类器生成对抗网络的鉴别器中包含辅助解码器网络,能够在预测频谱特征真假的同时输出训练数据所属的说话人类别,使得生成对抗网络的训练更为稳定且加快其收敛速度。通过训练文本编码器获得句嵌入,将其作为一种语义内容约束融合到模型中,利用句嵌入包含的语义信息增强隐变量表征语音内容的能力,解决隐变量存在的过度正则化效应的问题,有效改善语音合成质量。实验结果表明:所提方法的转换语音平均MCD值较基准模型降低6.67%,平均MOS值提升8.33%,平均ABX值提升11.56%,证明该方法在语音音质和说话人个性相似度方面均有显著提升,实现了高质量的语音转换。 展开更多
关键词 语音转换 句嵌入 文本编码器 辅助分类器生成对抗网络(ACGAN) 变分自编码器 非平行文本 多对多
下载PDF
基于文本向量表示的居民活动模式识别方法
17
作者 杨超 丁方熠 +1 位作者 周洋 张玉梁 《交通与运输》 2022年第1期16-21,共6页
城市精细化管理对交通需求预测模型提出了更高要求,如何利用海量的出行活动信息提取反应个体活动特征和规律的活动模式成为研究难点。基于城市居民出行调查数据,运用词嵌入和句嵌入方法,构建活动序列向量,对活动模式进行聚类。结果表明... 城市精细化管理对交通需求预测模型提出了更高要求,如何利用海量的出行活动信息提取反应个体活动特征和规律的活动模式成为研究难点。基于城市居民出行调查数据,运用词嵌入和句嵌入方法,构建活动序列向量,对活动模式进行聚类。结果表明,城市居民活动模式可划分为13类代表性活动模式,包括3类工作模式,4类社交娱乐主导的模式,2类复杂活动模式以及上学主导、业务主导、购物主导、接送主导模式各1类。通过分析各模式下的活动特征和对应群体的社会经济属性,发现与社会各群体的特性一致,验证该方法的有效性。该方法考虑了活动模式识别中直接使用聚类法或主题模型的局限性,在解决词序信息缺失、衡量活动链元素之间的相似性等方面存在优势。 展开更多
关键词 活动模式 词嵌入 句嵌入 出行调查 城市交通 需求预测
下载PDF
带有GRU单元的通用句嵌入算法研究
18
作者 毛玉婷 《现代计算机》 2019年第10期23-26,共4页
在自然语言处理领域,将词语和句子转换成定长稠密向量的算法被称为词嵌入和句嵌入算法。句嵌入算法的主要目的是寻找通用的嵌入表达,使该表达中包含句子的特征,蕴含句子语义情感等信息,并能够在自然语言处理中的其他下游任务中作为输入... 在自然语言处理领域,将词语和句子转换成定长稠密向量的算法被称为词嵌入和句嵌入算法。句嵌入算法的主要目的是寻找通用的嵌入表达,使该表达中包含句子的特征,蕴含句子语义情感等信息,并能够在自然语言处理中的其他下游任务中作为输入值使用。目前主流的句嵌入算法多为有监督的方法,能在一些具体的自然语言处理任务中提供很好的表现,但是通用性不足,而且需要针对具体的任务寻找不同的标签语料库,对语料库的要求较高。而无监督的方法能够很好地解决这些问题,因此使用无监督的RNN编码解码器模型去训练更具有通用性的句嵌入模型。并使用固定窗口大小的句子上下文信息来构建损失函数,从而使向量表达更为准确。 展开更多
关键词 自然语言处理 句嵌入 无监督 RNN编码解码器
下载PDF
跨语言语义向量的生成模型
19
作者 金卓林 朱聪慧 《智能计算机与应用》 2020年第7期44-48,共5页
目前较优秀的NLP系统模型比较依赖有标注的数据来学习复杂的模型,这种模型通常在一个单一语料上进行训练,不能直接利用到其他语言上。收集每种语料上的训练数据是不现实的,因此想通过跨语言的方式进行低资源语料之间的迁移学习,达到在... 目前较优秀的NLP系统模型比较依赖有标注的数据来学习复杂的模型,这种模型通常在一个单一语料上进行训练,不能直接利用到其他语言上。收集每种语料上的训练数据是不现实的,因此想通过跨语言的方式进行低资源语料之间的迁移学习,达到在无监督学习的条件下能够进行跨语言的任务,这里进行了句子级别的语义向量的生成,并利用下游分类任务查看语义向量的质量。基于此本文提出了基于跨语言语义向量生成的模型,并引入命名实体识别,利用平行语料做语义对齐等多任务学习。实验数据为XNLI数据集,也是跨语言任务中常用的数据集。在多任务学习模型下,和基线模型相比,在XNLI数据集上效果有明显提升。 展开更多
关键词 跨语言任务 迁移学习 多任务学习 语义向量
下载PDF
Text-Based Price Recommendation System for Online Rental Houses
20
作者 Lujia Shen Qianjun Liu +1 位作者 Gong Chen Shouling Ji 《Big Data Mining and Analytics》 2020年第2期143-152,共10页
Online short-term rental platforms,such as Airbnb,have been becoming popular,and a better pricing strategy is imperative for hosts of new listings.In this paper,we analyzed the relationship between the description of ... Online short-term rental platforms,such as Airbnb,have been becoming popular,and a better pricing strategy is imperative for hosts of new listings.In this paper,we analyzed the relationship between the description of each listing and its price,and proposed a text-based price recommendation system called TAPE to recommend a reasonable price for newly added listings.We used deep learning techniques(e.g.,feedforward network,long short-term memory,and mean shift)to design and implement TAPE.Using two chronologically extracted datasets of the same four cities,we revealed important factors(e.g.,indoor equipment and high-density area)that positively or negatively affect each property’s price,and evaluated our preliminary and enhanced models.Our models achieved a Root-Mean-Square Error(RMSE)of 33.73 in Boston,20.50 in London,34.68 in Los Angeles,and 26.31 in New York City,which are comparable to an existing model that uses more features. 展开更多
关键词 price recommendation natural language processing sentence embedding Long Short-Term Memory(LSTM) mean shift
原文传递
上一页 1 2 下一页 到第
使用帮助 返回顶部