期刊文献+
共找到27篇文章
< 1 2 >
每页显示 20 50 100
基于词序列频率有向网的中文组合词提取算法 被引量:6
1
作者 陈建超 郑启伦 +1 位作者 李庆阳 严桂夺 《计算机应用研究》 CSCD 北大核心 2009年第10期3746-3749,共4页
随着人类知识体系的不断拓展和深化,很多组合词(多个词或语素组成的词)被创造出来用于表达新的概念。由于无法及时把组合词收录进词库,分词系统无法识别它们。为此,从文本中提取组合词成为智能计算领域的一个热门的研究方向。借鉴人类... 随着人类知识体系的不断拓展和深化,很多组合词(多个词或语素组成的词)被创造出来用于表达新的概念。由于无法及时把组合词收录进词库,分词系统无法识别它们。为此,从文本中提取组合词成为智能计算领域的一个热门的研究方向。借鉴人类的认知心理模式,提出一种基于词序列频率有向网的组合词抽取算法,以识别自由文本中的组合词。算法首先建立描述文本中的词序列出现频率的有向网,然后通过独特的矩阵运算,逐步把组合词提取出来。算法的优点是无须借助专业的语言知识,在实验分析中,算法显示了较好的效果。 展开更多
关键词 有向图 组合词 词序列 认知心理模式
下载PDF
结合卷积神经网络和词语情感序列特征的中文情感分析 被引量:49
2
作者 陈钊 徐睿峰 +1 位作者 桂林 陆勤 《中文信息学报》 CSCD 北大核心 2015年第6期172-178,共7页
目前基于词嵌入的卷积神经网络文本分类方法已经在情感分析研究中取得了很好的效果。此类方法主要使用基于上下文的词嵌入特征,但在词嵌入过程中通常并未考虑词语本身的情感极性,同时此类方法往往缺乏对大量人工构建情感词典等资源的有... 目前基于词嵌入的卷积神经网络文本分类方法已经在情感分析研究中取得了很好的效果。此类方法主要使用基于上下文的词嵌入特征,但在词嵌入过程中通常并未考虑词语本身的情感极性,同时此类方法往往缺乏对大量人工构建情感词典等资源的有效利用。针对这些问题,该文提出了一种结合情感词典和卷积神经网络的情感分类方法,利用情感词典中的词条对文本中的词语进行抽象表示,在此基础上利用卷积神经网络提取抽象词语的序列特征,并用于情感极性分类。该文提出的相关方法在中文倾向性分析评测COAE2014数据集上取得了比目前主流的卷积神经网络以及朴素贝叶斯支持向量机更好的性能。 展开更多
关键词 卷积神经网络 情感分析 词语情感序列特征
下载PDF
基于分离模型的中文关键词提取算法研究 被引量:11
3
作者 罗准辰 王挺 《中文信息学报》 CSCD 北大核心 2009年第1期63-70,共8页
关键词提取在自动文摘、信息检索、文本分类、文本聚类等方面具有十分重要的作用。通常所说的关键词实际上有相当一部分是关键的短语和未登录词,而这部分关键词的抽取是十分困难的问题。该文提出将关键词提取分为两个问题进行处理:关键... 关键词提取在自动文摘、信息检索、文本分类、文本聚类等方面具有十分重要的作用。通常所说的关键词实际上有相当一部分是关键的短语和未登录词,而这部分关键词的抽取是十分困难的问题。该文提出将关键词提取分为两个问题进行处理:关键单词提取和关键词串提取,设计了一种基于分离模型的中文关键词提取算法。该算法并针对关键单词提取和关键词串提取这两个问题设计了不同的特征以提高抽取的准确性。实验表明,相对于传统的关键词提取算法,基于分离模型的中文关键词提取算法效果更好。 展开更多
关键词 计算机应用 中文信息处理 关键词提取 关键词串 分离模型 互信息 词串边界参数表
下载PDF
基于自主学习的专业领域文本DBLC分词模型 被引量:2
4
作者 冯国明 张晓冬 刘素辉 《数据分析与知识发现》 CSSCI CSCD 北大核心 2018年第5期40-47,共8页
【目的】提高对专业术语、名词占比较高的专业领域文本的分词准确度。【方法】提出将词典、统计、深度学习三者有机结合的DBLC模型,并编程实现。获取中国管理案例库中的部分案例作为专业领域语料,将其他几种已有分词模型作为对比对象进... 【目的】提高对专业术语、名词占比较高的专业领域文本的分词准确度。【方法】提出将词典、统计、深度学习三者有机结合的DBLC模型,并编程实现。获取中国管理案例库中的部分案例作为专业领域语料,将其他几种已有分词模型作为对比对象进行实验与分析。【结果】通过实验得到各模型在实验语料上的分词效果,DBLC模型在各评价指标上均优于其他模型,分词准确率达到96.3%。【局限】未对原词典词与新词做区别处理,没有考虑词典的存储结构问题,模型计算时间复杂度较高。【结论】本文提出的DBLC模型提高了专业领域文本的分词准确度,且该模型分词准确率与词典规模正相关。 展开更多
关键词 中文分词 序列标注 BI-LSTM-CRF 自主学习 基于词典的分词
原文传递
基于词序列核的垃圾邮件过滤 被引量:1
5
作者 陈葡 谢晓尧 徐洋 《武汉大学学报(理学版)》 CAS CSCD 北大核心 2011年第5期419-423,共5页
针对传统的基于词频特征向量核方法的垃圾邮件过滤算法中忽略词汇间的序列信息而导致信息损失影响过滤精度的问题,本文将词序列核与SVM(support vector machines)算法结合,对垃圾邮件进行过滤,相应的实验表明,该方法提高召回率、正确率... 针对传统的基于词频特征向量核方法的垃圾邮件过滤算法中忽略词汇间的序列信息而导致信息损失影响过滤精度的问题,本文将词序列核与SVM(support vector machines)算法结合,对垃圾邮件进行过滤,相应的实验表明,该方法提高召回率、正确率和精确率,从而提高了过滤精度. 展开更多
关键词 词序列核 垃圾短信过滤 核方法 SVM
原文传递
一种改进的词序列核算法 被引量:1
6
作者 徐峰 罗军勇 温涛 《计算机应用》 CSCD 北大核心 2009年第4期1124-1127,共4页
在深入研究Kandol提出的词序列核(WSK)算法的基础上,提出了一种降低时间复杂度和空间复杂度的文本特征提取算法,并在一个测试集上进行了分类性能测试,结果表明提出的特征提取算法与词序列核算法相比较,在对文本分类性能损失较小的情况下... 在深入研究Kandol提出的词序列核(WSK)算法的基础上,提出了一种降低时间复杂度和空间复杂度的文本特征提取算法,并在一个测试集上进行了分类性能测试,结果表明提出的特征提取算法与词序列核算法相比较,在对文本分类性能损失较小的情况下,能够显著地降低特征提取时间、空间复杂度。 展开更多
关键词 词序列核 特征抽取 核方法
下载PDF
一类基于平行语料统计的汉法机译解决方案 被引量:1
7
作者 刘粤钳 姚红玉 《计算机技术与发展》 2008年第4期114-117,共4页
针对目前国内外汉法机器翻译系统较少,且研究的汉语语例基本为简单短句的情况,利用《人民日报》中、法文网络版的部分文章建立了一个小型的汉法平行语料库,并基于此,利用改进的Yamada算法构建了一个汉法机器翻译系统。系统通过对汉法平... 针对目前国内外汉法机器翻译系统较少,且研究的汉语语例基本为简单短句的情况,利用《人民日报》中、法文网络版的部分文章建立了一个小型的汉法平行语料库,并基于此,利用改进的Yamada算法构建了一个汉法机器翻译系统。系统通过对汉法平行语料的统计结果,把汉语句型大致归为单谓和多谓两大类,并提炼出4096个汉法对齐基本句型,将之应用于汉法机译中;并首次提出了三词序列出现概率的概念,用于解决词语搭配的问题。试验表明系统在处理多谓语的汉语长句上有明显的优势。 展开更多
关键词 三词序列出现概率 汉法对齐基本句型 多谓句 语料库
下载PDF
文化视野下的汉语反义语素合成词解读
8
作者 王燕霞 《佛山科学技术学院学报(社会科学版)》 2019年第4期44-52,共9页
现代汉语词汇中存在大量的反义语素合成词,这些词的前后语素之间蕴含着互补反义、相对反义、极性反义和指向性反义等四种反义关系。此外,反义语素合成词的表意特征还可分为意义相加、偏向某一语素义和形成新意义等三种类型,从文化角度... 现代汉语词汇中存在大量的反义语素合成词,这些词的前后语素之间蕴含着互补反义、相对反义、极性反义和指向性反义等四种反义关系。此外,反义语素合成词的表意特征还可分为意义相加、偏向某一语素义和形成新意义等三种类型,从文化角度对反义语素合成词的构词序列进行解读,有助于我们了解其构词特点及与传统文化的关系。 展开更多
关键词 反义语素合成词 表意特征 构词序列 文化解读
下载PDF
Internet上的文本数据挖掘 被引量:60
9
作者 王伟强 高文 段立娟 《计算机科学》 CSCD 北大核心 2000年第4期32-36,共5页
1 引言今天Internet已不再是科学家及工程师们独享的通讯工具,已成为数字化时代的世界性图书馆,变成了为各行各业的人们交流思想、获取信息的便利手段。人们在使用WWW浏览服务时,检索、获取最多的信息数据就是文本数据。但这种在巨大的I... 1 引言今天Internet已不再是科学家及工程师们独享的通讯工具,已成为数字化时代的世界性图书馆,变成了为各行各业的人们交流思想、获取信息的便利手段。人们在使用WWW浏览服务时,检索、获取最多的信息数据就是文本数据。但这种在巨大的Internet信息仓库中占信息比重最大的数据类型却缺乏结构化、组织的规整性,并且随意地散布在这个网络的各个角落,还降低了人们对丰富的信息资源的利用效率。数据挖掘是人们对一些巨型数据库中的数据进行分析、使用感到力不从心时而发展出的一门新的技术,它将人工智能技术与数据库技术紧密结合起来,让计算机帮助人们从庞大的数据中智能地、自动地抽取有价值的知识模式,以满足人们不同应用的需要。当数据挖掘的对象完全由文本这种数据类型组成时,这个过程就称文本数据挖掘。Internet上缺乏结构化、组织规整性的超巨量文本数据自然让人们想到运用文本数据挖掘技术来帮助提高人们在Internet上检索信息、利用信息的效率。 展开更多
关键词 信息检索 文本数据挖掘 INTERNET网 数据库
下载PDF
日语句子成分的划分与翻译 被引量:2
10
作者 王传礼 《山东农业大学学报(社会科学版)》 2001年第1期97-100,共4页
日语和汉语是两种不同的语言。在将日语译成汉语时 ,需要明确两种语言的句子成分 ,然后按照汉语习惯正确地表达出来。本文就日语和汉语两种语言句子成分作了对比分析 。
关键词 句子成分 句节 连句节 主语 谓语 宾语 状语 词序 翻译 日语
下载PDF
大规模词序列中基于频繁词集的特征短语抽取模型 被引量:1
11
作者 余琴琴 彭敦陆 刘丛 《小型微型计算机系统》 CSCD 北大核心 2018年第5期1027-1032,共6页
目前,大多数文本特征抽取算法是针对特征词集进行抽取的,由于文本数据量大,且内容描述具有多义性和复杂性,以词为单元的特征抽取结果通常存在歧义.为了解决该问题,论文首先将文本生成词序列,综合考虑了词语在词序列中有序性、可重复性... 目前,大多数文本特征抽取算法是针对特征词集进行抽取的,由于文本数据量大,且内容描述具有多义性和复杂性,以词为单元的特征抽取结果通常存在歧义.为了解决该问题,论文首先将文本生成词序列,综合考虑了词语在词序列中有序性、可重复性和同义性,利用加权关联规则挖掘方法,对频繁词集进行组合生成特征短语.为提高计算效率,针对大规模文本数据特征短语抽取问题,采用MapReduce计算思想对所提算法进行了扩展.实验表明,该算法具有较高的运行效率,而且可以获得较为准确的特征短语. 展开更多
关键词 MAPREDUCE 词序列 加权关联规则 频繁词集 特征短语
下载PDF
两河流域苏美尔楔形文字识别
12
作者 张荣松 方吴丰 +1 位作者 吴宇虹 林和平 《计算机工程与科学》 CSCD 北大核心 2009年第5期31-33,36,共4页
在人类文明发祥地之一的古代西亚,苏美尔人创造了光辉灿烂的古西亚文明,对整个人类文明做出了巨大的贡献。楔形文字作为这种文明的载体,发挥着不可替代的作用。但是,受到当时书写材料等历史条件的限制,以及手写体的因人而异,造成了文字... 在人类文明发祥地之一的古代西亚,苏美尔人创造了光辉灿烂的古西亚文明,对整个人类文明做出了巨大的贡献。楔形文字作为这种文明的载体,发挥着不可替代的作用。但是,受到当时书写材料等历史条件的限制,以及手写体的因人而异,造成了文字标准的不统一;后经时间的推移,使得出土文献部分缺失,这对通过原始文献来研究古文明的现代学者构成了极大的挑战。而采用径向基函数(RBF)人工神经网络对文献中的文字进行识别,使之标准化,其高度的容错性对缺失的文字可以进行很好的修补,定义特定的模糊模式,找出字义序列的规律,给研究古文明的学者创造了良好的条件。 展开更多
关键词 楔形文字 径向基函数 识别 模糊模式 字义序列
下载PDF
从“据形构义”和“据义构形”看英汉构句之差异
13
作者 王桂灵 《科技信息》 2007年第21期206-206,200,共2页
“据形构义”和“据义构形”是语言中的两种基本结构力量。相对来说,英语是一种“据形构义”的语言,汉语是“据义构形”的语言。文章从关系词,介词的使用,形态特征,语序的作用,主语的省落与否五个方面来说明这一点,`这种对比对英汉互译... “据形构义”和“据义构形”是语言中的两种基本结构力量。相对来说,英语是一种“据形构义”的语言,汉语是“据义构形”的语言。文章从关系词,介词的使用,形态特征,语序的作用,主语的省落与否五个方面来说明这一点,`这种对比对英汉互译以及英文写作时的遣词造句和布局谋篇有着重要的意义。 展开更多
关键词 据形构义 据义构形 关系词 介词 形态 语序 无主句
下载PDF
基于字角色标注的中文书目关键词标引研究 被引量:10
14
作者 邓三鸿 王昊 +1 位作者 秦嘉杭 苏新宁 《中国图书馆学报》 CSSCI 北大核心 2012年第2期38-49,共12页
中文书目机器自动标引是数字图书馆建设中亟待解决的关键问题之一。本文试图将条件随机场(CRFs)序列标注机器学习算法引入到关键词抽取中,建立面向图书内容、基于字角色标注的中文书目关键词标引模型。将图书内容转化为字序列,进而提出... 中文书目机器自动标引是数字图书馆建设中亟待解决的关键问题之一。本文试图将条件随机场(CRFs)序列标注机器学习算法引入到关键词抽取中,建立面向图书内容、基于字角色标注的中文书目关键词标引模型。将图书内容转化为字序列,进而提出构建关键词角色空间模型和综合利用字序列上下文特征的设计思路。通过实验,从题名和内容提要中分别自动抽取关键词,论证该模型的合理性和实用性。 展开更多
关键词 中文书目 关键词标引 字角色 序列标注 自动标引
下载PDF
基于关键词精化和句法树的商品图像句子标注 被引量:5
15
作者 张红斌 姬东鸿 +2 位作者 尹兰 任亚峰 牛正雨 《计算机研究与发展》 EI CSCD 北大核心 2016年第11期2542-2555,共14页
商品图像句子标注是图像标注中一项既有趣又富有挑战的研究任务.噪声单词干扰和句法结构错误是该项研究的制约因素,针对噪声单词干扰,提出关键词精化思想:用绝对排序特征强化关键词权重,完成第1次关键词精化;计算单词的语义相关度评分,... 商品图像句子标注是图像标注中一项既有趣又富有挑战的研究任务.噪声单词干扰和句法结构错误是该项研究的制约因素,针对噪声单词干扰,提出关键词精化思想:用绝对排序特征强化关键词权重,完成第1次关键词精化;计算单词的语义相关度评分,进一步优选能准确刻画图像内容的单词,完成第2次关键词精化.设计词序列"拼积木"算法,把关键词拼装成N元词序列.针对句法结构错误,提出句法树思想:基于N元词序列和句法子树递归地构建一棵完整的句法树,遍历该树叶子结点输出句子,标注商品图像.实验结果表明:关键词精化和句法树均有助于改善标注性能,句中的语义信息兼容性和句法模式兼容性得以保持,句子内容更连贯、流畅. 展开更多
关键词 图像标注 商品图像 句子标注 关键词精化 句法树 词序列“拼积木” N元词序列 自然语言生成
下载PDF
应用于垃圾邮件过滤的词序列核 被引量:5
16
作者 陈孝礼 刘培玉 《计算机应用》 CSCD 北大核心 2011年第3期698-701,共4页
针对支持向量机(SVM)中常用核函数由于忽略文本结构而导致大量语义信息丢失的现象,提出一种类别相关度量的词序列核(WSK),并将其应用于垃圾邮件过滤。首先提取邮件文本特征并计算特征的类别相关度量,然后利用词序列核作为核函数训练支... 针对支持向量机(SVM)中常用核函数由于忽略文本结构而导致大量语义信息丢失的现象,提出一种类别相关度量的词序列核(WSK),并将其应用于垃圾邮件过滤。首先提取邮件文本特征并计算特征的类别相关度量,然后利用词序列核作为核函数训练支持向量机,训练过程中利用类别相关度量计算词的衰减系数,最后对邮件进行分类。实验结果表明,与常用核函数和字符串核相比,改进的词序列核分类准确率更高,提高了垃圾邮件过滤的准确率。 展开更多
关键词 支持向量机 词序列核 相关度量 垃圾邮件过滤
下载PDF
基于词序列拼积木模型的图像句子标注研究 被引量:4
17
作者 张红斌 殷依 +1 位作者 姬东鸿 任亚峰 《北京理工大学学报》 EI CAS CSCD 北大核心 2017年第11期1144-1149,共6页
用句子标注图像,建立图像与文本间的跨媒体关联,以提升信息检索准确率,改善用户检索交互体验.利用KDES模型抽取图像特征,在多核学习模型中融合出MK-KDES特征,准确刻画图像视觉特性;设计自然语言生成模型:词序列拼积木,评估单词与图像内... 用句子标注图像,建立图像与文本间的跨媒体关联,以提升信息检索准确率,改善用户检索交互体验.利用KDES模型抽取图像特征,在多核学习模型中融合出MK-KDES特征,准确刻画图像视觉特性;设计自然语言生成模型:词序列拼积木,评估单词与图像内容的相关性,优选单词,并根据单词间的语义相关性与句法模式约束,将单词组合成N元词序列;把N元词序列输入模板生成句子.结果表明:MK-KDES-1特征聚焦于图像的纹理及形状视觉特性,它是改善句子BLEU-1评分的关键;而单词间的语义相关性与句法模式约束是提升句子BLEU-2评分的重要前提. 展开更多
关键词 自然语言生成 词序列拼积木WSBB 图像句子标注 N元词序列 语义相关性 句法模式约束
下载PDF
异构社交平台中用户身份解析 被引量:1
18
作者 刘俊岭 刘颖 +3 位作者 马晨旭 赵巧娜 孙焕良 许景科 《数据采集与处理》 CSCD 北大核心 2022年第5期1101-1114,共14页
跨社交平台的用户身份解析是社交网络一个重要的研究方向,其可以有效集成不同平台的同一用户信息。现有的用户身份解析工作大多针对类型相似的社交平台,平台间的信息相对对称,通过用户在不同平台上的档案属性、空间位置、网络关系等信... 跨社交平台的用户身份解析是社交网络一个重要的研究方向,其可以有效集成不同平台的同一用户信息。现有的用户身份解析工作大多针对类型相似的社交平台,平台间的信息相对对称,通过用户在不同平台上的档案属性、空间位置、网络关系等信息的相似度来判别是否为同一用户。然而,在两个异构社交平台中用户信息是不对称的,难以直接获取到用于用户身份解析的相应属性信息。本文研究跨评论类与活动类平台间的用户身份解析方法。为了解决两类社交平台的用户信息属性不对称问题,把用户信息按档案属性、语义序列、特征词序列3类信息组织,从各自的社交平台中抽取相应的信息建立映射关系,提出了综合3类信息的集成匹配算法。考虑了用户活动的时间偏移现象,采用反向传播学习的方法获取时间偏移权重,提出了基于反向传播学习的语义序列与特征词序列相似性度量方法。同时,设计了总体相似度度用于用户身份解析。利用真实数据集进行了充分的实验,实验结果表明了所提出用户身份解析算法的有效性。 展开更多
关键词 社会网络 用户身份解析 特征词序列 语义序列
下载PDF
基于最小均方误差的单载波系统低复杂度频域迭代均衡 被引量:2
19
作者 邹奇峰 谭学治 +1 位作者 刘梅 马琳 《吉林大学学报(工学版)》 EI CAS CSCD 北大核心 2015年第6期2062-2068,共7页
针对单载波频域均衡(SC-FDE)系统中迭代块判决反馈均衡(IBDFE)算法随迭代次数增加运算复杂度迅速提高的问题,提出了一种低复杂度频域迭代均衡算法。利用均方误差(MSE)准则对检测点误差信号进行分析,对确定的信道增益每次迭代的滤波器系... 针对单载波频域均衡(SC-FDE)系统中迭代块判决反馈均衡(IBDFE)算法随迭代次数增加运算复杂度迅速提高的问题,提出了一种低复杂度频域迭代均衡算法。利用均方误差(MSE)准则对检测点误差信号进行分析,对确定的信道增益每次迭代的滤波器系数为定值,并通过在帧结构插入特殊字序列UW作为循环前缀来减小系统开销。理论分析和仿真实验结果表明:本文算法在较高信噪比下比传统的线性均衡性能更好,而在相同迭代次数时接近IBDFE算法性能且比IBDFE算法复杂度大大降低。 展开更多
关键词 通信技术 单载波频域均衡 判决反馈均衡 均方误差准则 特殊字序列
下载PDF
基于后缀树词序列核挖掘Web文档 被引量:2
20
作者 傅鹏 张德运 +1 位作者 陈海诠 董皓 《微电子学与计算机》 CSCD 北大核心 2005年第12期4-7,共4页
通过将文档表示为一棵后缀树,文章提出一种基于后缀树索引计算文档相似度的词序列核。首先根据文档的词序列构造出后缀树,然后根据后缀树词序列核计算文档间的相似度,最后利用支持向量机对文档进行分类。理论分析表明后缀树词序列核的... 通过将文档表示为一棵后缀树,文章提出一种基于后缀树索引计算文档相似度的词序列核。首先根据文档的词序列构造出后缀树,然后根据后缀树词序列核计算文档间的相似度,最后利用支持向量机对文档进行分类。理论分析表明后缀树词序列核的计算只与比较文档的长度成线性关系,大大减少了序列核的计算时间。在reuters-21578文档集上将后缀树词序列核与词序列核、多项式核进行比较,实验结果表明在改善速度的同时,后缀树词序列核可达到与词序列核相当的性能,优于多项式核,更适于Web文档挖掘等应用。 展开更多
关键词 核学习方法 词序列核 字符串核 后缀树 WEB挖掘
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部