期刊文献+
共找到27篇文章
< 1 2 >
每页显示 20 50 100
Internet上的文本数据挖掘 被引量:60
1
作者 王伟强 高文 段立娟 《计算机科学》 CSCD 北大核心 2000年第4期32-36,共5页
1 引言今天Internet已不再是科学家及工程师们独享的通讯工具,已成为数字化时代的世界性图书馆,变成了为各行各业的人们交流思想、获取信息的便利手段。人们在使用WWW浏览服务时,检索、获取最多的信息数据就是文本数据。但这种在巨大的I... 1 引言今天Internet已不再是科学家及工程师们独享的通讯工具,已成为数字化时代的世界性图书馆,变成了为各行各业的人们交流思想、获取信息的便利手段。人们在使用WWW浏览服务时,检索、获取最多的信息数据就是文本数据。但这种在巨大的Internet信息仓库中占信息比重最大的数据类型却缺乏结构化、组织的规整性,并且随意地散布在这个网络的各个角落,还降低了人们对丰富的信息资源的利用效率。数据挖掘是人们对一些巨型数据库中的数据进行分析、使用感到力不从心时而发展出的一门新的技术,它将人工智能技术与数据库技术紧密结合起来,让计算机帮助人们从庞大的数据中智能地、自动地抽取有价值的知识模式,以满足人们不同应用的需要。当数据挖掘的对象完全由文本这种数据类型组成时,这个过程就称文本数据挖掘。Internet上缺乏结构化、组织规整性的超巨量文本数据自然让人们想到运用文本数据挖掘技术来帮助提高人们在Internet上检索信息、利用信息的效率。 展开更多
关键词 信息检索 文本数据挖掘 INTERNET网 数据库
下载PDF
日语句子成分的划分与翻译 被引量:2
2
作者 王传礼 《山东农业大学学报(社会科学版)》 2001年第1期97-100,共4页
日语和汉语是两种不同的语言。在将日语译成汉语时 ,需要明确两种语言的句子成分 ,然后按照汉语习惯正确地表达出来。本文就日语和汉语两种语言句子成分作了对比分析 。
关键词 句子成分 句节 连句节 主语 谓语 宾语 状语 词序 翻译 日语
下载PDF
大规模词序列中基于频繁词集的特征短语抽取模型 被引量:1
3
作者 余琴琴 彭敦陆 刘丛 《小型微型计算机系统》 CSCD 北大核心 2018年第5期1027-1032,共6页
目前,大多数文本特征抽取算法是针对特征词集进行抽取的,由于文本数据量大,且内容描述具有多义性和复杂性,以词为单元的特征抽取结果通常存在歧义.为了解决该问题,论文首先将文本生成词序列,综合考虑了词语在词序列中有序性、可重复性... 目前,大多数文本特征抽取算法是针对特征词集进行抽取的,由于文本数据量大,且内容描述具有多义性和复杂性,以词为单元的特征抽取结果通常存在歧义.为了解决该问题,论文首先将文本生成词序列,综合考虑了词语在词序列中有序性、可重复性和同义性,利用加权关联规则挖掘方法,对频繁词集进行组合生成特征短语.为提高计算效率,针对大规模文本数据特征短语抽取问题,采用MapReduce计算思想对所提算法进行了扩展.实验表明,该算法具有较高的运行效率,而且可以获得较为准确的特征短语. 展开更多
关键词 MAPREDUCE 词序列 加权关联规则 频繁词集 特征短语
下载PDF
从“据形构义”和“据义构形”看英汉构句之差异
4
作者 王桂灵 《科技信息》 2007年第21期206-206,200,共2页
“据形构义”和“据义构形”是语言中的两种基本结构力量。相对来说,英语是一种“据形构义”的语言,汉语是“据义构形”的语言。文章从关系词,介词的使用,形态特征,语序的作用,主语的省落与否五个方面来说明这一点,`这种对比对英汉互译... “据形构义”和“据义构形”是语言中的两种基本结构力量。相对来说,英语是一种“据形构义”的语言,汉语是“据义构形”的语言。文章从关系词,介词的使用,形态特征,语序的作用,主语的省落与否五个方面来说明这一点,`这种对比对英汉互译以及英文写作时的遣词造句和布局谋篇有着重要的意义。 展开更多
关键词 据形构义 据义构形 关系词 介词 形态 语序 无主句
下载PDF
基于关键词精化和句法树的商品图像句子标注 被引量:5
5
作者 张红斌 姬东鸿 +2 位作者 尹兰 任亚峰 牛正雨 《计算机研究与发展》 EI CSCD 北大核心 2016年第11期2542-2555,共14页
商品图像句子标注是图像标注中一项既有趣又富有挑战的研究任务.噪声单词干扰和句法结构错误是该项研究的制约因素,针对噪声单词干扰,提出关键词精化思想:用绝对排序特征强化关键词权重,完成第1次关键词精化;计算单词的语义相关度评分,... 商品图像句子标注是图像标注中一项既有趣又富有挑战的研究任务.噪声单词干扰和句法结构错误是该项研究的制约因素,针对噪声单词干扰,提出关键词精化思想:用绝对排序特征强化关键词权重,完成第1次关键词精化;计算单词的语义相关度评分,进一步优选能准确刻画图像内容的单词,完成第2次关键词精化.设计词序列"拼积木"算法,把关键词拼装成N元词序列.针对句法结构错误,提出句法树思想:基于N元词序列和句法子树递归地构建一棵完整的句法树,遍历该树叶子结点输出句子,标注商品图像.实验结果表明:关键词精化和句法树均有助于改善标注性能,句中的语义信息兼容性和句法模式兼容性得以保持,句子内容更连贯、流畅. 展开更多
关键词 图像标注 商品图像 句子标注 关键词精化 句法树 词序列“拼积木” N元词序列 自然语言生成
下载PDF
应用于垃圾邮件过滤的词序列核 被引量:5
6
作者 陈孝礼 刘培玉 《计算机应用》 CSCD 北大核心 2011年第3期698-701,共4页
针对支持向量机(SVM)中常用核函数由于忽略文本结构而导致大量语义信息丢失的现象,提出一种类别相关度量的词序列核(WSK),并将其应用于垃圾邮件过滤。首先提取邮件文本特征并计算特征的类别相关度量,然后利用词序列核作为核函数训练支... 针对支持向量机(SVM)中常用核函数由于忽略文本结构而导致大量语义信息丢失的现象,提出一种类别相关度量的词序列核(WSK),并将其应用于垃圾邮件过滤。首先提取邮件文本特征并计算特征的类别相关度量,然后利用词序列核作为核函数训练支持向量机,训练过程中利用类别相关度量计算词的衰减系数,最后对邮件进行分类。实验结果表明,与常用核函数和字符串核相比,改进的词序列核分类准确率更高,提高了垃圾邮件过滤的准确率。 展开更多
关键词 支持向量机 词序列核 相关度量 垃圾邮件过滤
下载PDF
基于词序列拼积木模型的图像句子标注研究 被引量:4
7
作者 张红斌 殷依 +1 位作者 姬东鸿 任亚峰 《北京理工大学学报》 EI CAS CSCD 北大核心 2017年第11期1144-1149,共6页
用句子标注图像,建立图像与文本间的跨媒体关联,以提升信息检索准确率,改善用户检索交互体验.利用KDES模型抽取图像特征,在多核学习模型中融合出MK-KDES特征,准确刻画图像视觉特性;设计自然语言生成模型:词序列拼积木,评估单词与图像内... 用句子标注图像,建立图像与文本间的跨媒体关联,以提升信息检索准确率,改善用户检索交互体验.利用KDES模型抽取图像特征,在多核学习模型中融合出MK-KDES特征,准确刻画图像视觉特性;设计自然语言生成模型:词序列拼积木,评估单词与图像内容的相关性,优选单词,并根据单词间的语义相关性与句法模式约束,将单词组合成N元词序列;把N元词序列输入模板生成句子.结果表明:MK-KDES-1特征聚焦于图像的纹理及形状视觉特性,它是改善句子BLEU-1评分的关键;而单词间的语义相关性与句法模式约束是提升句子BLEU-2评分的重要前提. 展开更多
关键词 自然语言生成 词序列拼积木WSBB 图像句子标注 N元词序列 语义相关性 句法模式约束
下载PDF
异构社交平台中用户身份解析 被引量:1
8
作者 刘俊岭 刘颖 +3 位作者 马晨旭 赵巧娜 孙焕良 许景科 《数据采集与处理》 CSCD 北大核心 2022年第5期1101-1114,共14页
跨社交平台的用户身份解析是社交网络一个重要的研究方向,其可以有效集成不同平台的同一用户信息。现有的用户身份解析工作大多针对类型相似的社交平台,平台间的信息相对对称,通过用户在不同平台上的档案属性、空间位置、网络关系等信... 跨社交平台的用户身份解析是社交网络一个重要的研究方向,其可以有效集成不同平台的同一用户信息。现有的用户身份解析工作大多针对类型相似的社交平台,平台间的信息相对对称,通过用户在不同平台上的档案属性、空间位置、网络关系等信息的相似度来判别是否为同一用户。然而,在两个异构社交平台中用户信息是不对称的,难以直接获取到用于用户身份解析的相应属性信息。本文研究跨评论类与活动类平台间的用户身份解析方法。为了解决两类社交平台的用户信息属性不对称问题,把用户信息按档案属性、语义序列、特征词序列3类信息组织,从各自的社交平台中抽取相应的信息建立映射关系,提出了综合3类信息的集成匹配算法。考虑了用户活动的时间偏移现象,采用反向传播学习的方法获取时间偏移权重,提出了基于反向传播学习的语义序列与特征词序列相似性度量方法。同时,设计了总体相似度度用于用户身份解析。利用真实数据集进行了充分的实验,实验结果表明了所提出用户身份解析算法的有效性。 展开更多
关键词 社会网络 用户身份解析 特征词序列 语义序列
下载PDF
基于最小均方误差的单载波系统低复杂度频域迭代均衡 被引量:2
9
作者 邹奇峰 谭学治 +1 位作者 刘梅 马琳 《吉林大学学报(工学版)》 EI CAS CSCD 北大核心 2015年第6期2062-2068,共7页
针对单载波频域均衡(SC-FDE)系统中迭代块判决反馈均衡(IBDFE)算法随迭代次数增加运算复杂度迅速提高的问题,提出了一种低复杂度频域迭代均衡算法。利用均方误差(MSE)准则对检测点误差信号进行分析,对确定的信道增益每次迭代的滤波器系... 针对单载波频域均衡(SC-FDE)系统中迭代块判决反馈均衡(IBDFE)算法随迭代次数增加运算复杂度迅速提高的问题,提出了一种低复杂度频域迭代均衡算法。利用均方误差(MSE)准则对检测点误差信号进行分析,对确定的信道增益每次迭代的滤波器系数为定值,并通过在帧结构插入特殊字序列UW作为循环前缀来减小系统开销。理论分析和仿真实验结果表明:本文算法在较高信噪比下比传统的线性均衡性能更好,而在相同迭代次数时接近IBDFE算法性能且比IBDFE算法复杂度大大降低。 展开更多
关键词 通信技术 单载波频域均衡 判决反馈均衡 均方误差准则 特殊字序列
下载PDF
基于后缀树词序列核挖掘Web文档 被引量:2
10
作者 傅鹏 张德运 +1 位作者 陈海诠 董皓 《微电子学与计算机》 CSCD 北大核心 2005年第12期4-7,共4页
通过将文档表示为一棵后缀树,文章提出一种基于后缀树索引计算文档相似度的词序列核。首先根据文档的词序列构造出后缀树,然后根据后缀树词序列核计算文档间的相似度,最后利用支持向量机对文档进行分类。理论分析表明后缀树词序列核的... 通过将文档表示为一棵后缀树,文章提出一种基于后缀树索引计算文档相似度的词序列核。首先根据文档的词序列构造出后缀树,然后根据后缀树词序列核计算文档间的相似度,最后利用支持向量机对文档进行分类。理论分析表明后缀树词序列核的计算只与比较文档的长度成线性关系,大大减少了序列核的计算时间。在reuters-21578文档集上将后缀树词序列核与词序列核、多项式核进行比较,实验结果表明在改善速度的同时,后缀树词序列核可达到与词序列核相当的性能,优于多项式核,更适于Web文档挖掘等应用。 展开更多
关键词 核学习方法 词序列核 字符串核 后缀树 WEB挖掘
下载PDF
“没有了NP”与“没有NP了”构式比较 被引量:1
11
作者 陈一 李洋 《汉语学习》 CSSCI 北大核心 2022年第2期28-37,共10页
非自足的“没有了NP”着眼于事件发生时间,表达动态性、局部性或阶段性;自足的“没有NP了”着眼于“现在”的新事态报道,关照整体,常用来标志系列叙述的收官之处。二者对时点表达、时段表达的适应性有所不同;所能接受的修饰语存在一系... 非自足的“没有了NP”着眼于事件发生时间,表达动态性、局部性或阶段性;自足的“没有NP了”着眼于“现在”的新事态报道,关照整体,常用来标志系列叙述的收官之处。二者对时点表达、时段表达的适应性有所不同;所能接受的修饰语存在一系列对立,句类适应性也存在差异。助词/语气词序位不同,不仅形成构式时体意义的差异,也带来语用功能的差异。两种构式中NP的定指性、可及性要求等方面的不同,与构式的篇章功能相适应,体现出篇章对不同构式功能的塑造。从意象图式考虑,本文认为,“没有NP了”基于独立的“有无图式”形成,“没有了NP”基于依存性“得失图式”形成。 展开更多
关键词 构式比较 虚词序位 意象图式 篇章功能
下载PDF
联想词序列训练对老年人记忆效率的影响 被引量:1
12
作者 房珊 邵洲力 田智慧 《中国现代医生》 2018年第33期14-18,共5页
目的探讨联想词序列训练法与随机序列训练法对老年人记忆效率的影响。方法选择我院2017年6月~2018年1月门诊收治的无明显认知障碍的老年人60例,评估基线认知功能后随机分成实验组及对照组两组,实验组进行联想词序列训练,对照组进行随... 目的探讨联想词序列训练法与随机序列训练法对老年人记忆效率的影响。方法选择我院2017年6月~2018年1月门诊收治的无明显认知障碍的老年人60例,评估基线认知功能后随机分成实验组及对照组两组,实验组进行联想词序列训练,对照组进行随机序列训练,通过AVLT评估两组患者的记忆力。结果与随机序列训练组相比,联想词序列训练组即刻记忆得分AVLT2[(9.5±2.1)分vs (8.1±2.3)分]、AVLT3[(12.4±2.6)分vs (9.6±2.9)分]、即刻记忆总分AVLT-123[(28.2±5.7)分vs (23.0±5.5)分]、短时记忆AVLT4[(11.7±2.9)分vs (8.6±2.8分)]、长时记忆AVLT5[(10.8±2.9)分vs (8.1±3.0)分]、再认AVLT6[(13.8±2.3)分vs (12.3±2.4)分]、总得分AVLT-T[(64.5±9.4)分vs (52.0±9.8)分]均有显著性提高,差异有统计学意义(P<0.05)。结论联想词序列训练法可增强老年人记忆效率。 展开更多
关键词 联想词序列训练 随机序列训练 记忆效率 AVLT
下载PDF
连续时间区间内的频繁词序列挖掘算法
13
作者 王璐 刘晓清 何震瀛 《计算机工程》 CAS CSCD 北大核心 2022年第2期79-85,91,共8页
查询文本中频繁出现的短语可快速掌握文本内容,然而传统频繁词序列挖掘算法面向挖掘任务时的时间复杂度较高,无法满足频繁更换查询条件及快速获得反馈的查询需求。利用基于频率树的快速频繁词序列挖掘算法(TS;ining),在保持后缀树线性... 查询文本中频繁出现的短语可快速掌握文本内容,然而传统频繁词序列挖掘算法面向挖掘任务时的时间复杂度较高,无法满足频繁更换查询条件及快速获得反馈的查询需求。利用基于频率树的快速频繁词序列挖掘算法(TS;ining),在保持后缀树线性构造时间的情况下实现文本集合中频繁词序列的查询,并采用树型索引结构避免多次扫描文本集合,降低算法时间复杂度。针对连续时间区间内的频繁词序列查询问题,提出改进的剪枝挖掘算法(TS;runing),通过减少频率树的扫描范围进一步提高挖掘效率。实验结果表明,TS;ining与TS;runing算法的运行时间相比经典Apriori挖掘算法约减少了2个数量级,具有更高的频繁词序列挖掘效率。 展开更多
关键词 频繁词序列 后缀树 数据挖掘 频繁项集 热点话题检测
下载PDF
回文与诗词 被引量:1
14
作者 周春林 《楚雄师范学院学报》 2004年第4期30-32,共3页
回文与诗词结合 ,形成了回文诗词。唐宋诗人、词人创作了大量的回文诗词 ,这种修辞游戏具有强烈的斗智、逗趣的游戏色彩。根据回文诗词回读的特点 ,把回文诗词分为六种类型 :①句内回文 ;②上、下句回文 ;③半篇回文 ;④全篇逆读回文 ;... 回文与诗词结合 ,形成了回文诗词。唐宋诗人、词人创作了大量的回文诗词 ,这种修辞游戏具有强烈的斗智、逗趣的游戏色彩。根据回文诗词回读的特点 ,把回文诗词分为六种类型 :①句内回文 ;②上、下句回文 ;③半篇回文 ;④全篇逆读回文 ;⑤顶针回文 ;⑥亦词亦诗的回文。从语言世界、文化世界、心理世界这三个层面探讨了回文诗词的存在理据。 展开更多
关键词 回文诗 回文词 语序修辞 修辞游戏
下载PDF
DSP56362的双引导装载方法研究与实现
15
作者 朱洪涛 严国萍 曾荣 《国外电子元器件》 2004年第3期4-4,6-9,共5页
简要介绍了MOTOROLA公司的24位定点数字信号处理器DSP56362的并行引导过程和特点。并结合实际 ,提出了一种双引导模式 ,给出了具体的实现方法。通过这种双引导模式 ,巧妙地达到了系统的要求。另外 。
关键词 DSP56362 定点数字信号处理器 并行引导 双引导 命令字序列 DSP
下载PDF
英汉条件小句与结果小句的语序蕴含共性
16
作者 皮德敏 陈朦 《兰州工业学院学报》 2016年第6期127-130,共4页
通过跨语言的比较得出英汉条件句语序、成分共现和语义逻辑关系的蕴含共性。英汉同属于SVO语言,与前面的从类型学角度的研究一致,并论证了Greenberg关于条件句正常语序的论断,提出在条件句中条件小句前置于结果小句为优势语序,但是这种... 通过跨语言的比较得出英汉条件句语序、成分共现和语义逻辑关系的蕴含共性。英汉同属于SVO语言,与前面的从类型学角度的研究一致,并论证了Greenberg关于条件句正常语序的论断,提出在条件句中条件小句前置于结果小句为优势语序,但是这种优势在汉语中更加明显,因为它是条件句的原型,拥有最多属性,认知操作的时间最少,也最容易被人们辨别和掌握。 展开更多
关键词 英汉条件小句 结果小句 语序蕴含共性 原型
下载PDF
英语的“形合”与汉语的“意合”之比较 被引量:10
17
作者 钱莉绚 《北京航空航天大学学报(社会科学版)》 2005年第2期62-65,共4页
英语的"形合"与汉语的"意合"是英汉对比中一个重要的方面。文章从关系词的重要性,语序的作用,主语的省略与否,以及古诗词的英汉对比几个方面来说明这一点,这种比较对于英汉互译以及英文写作时的遣词造句和布局谋篇... 英语的"形合"与汉语的"意合"是英汉对比中一个重要的方面。文章从关系词的重要性,语序的作用,主语的省略与否,以及古诗词的英汉对比几个方面来说明这一点,这种比较对于英汉互译以及英文写作时的遣词造句和布局谋篇有着重要的意义。 展开更多
关键词 形合 意合 关系词 语序 无主句 诗歌
下载PDF
基于词序列频率有向网的中文组合词提取算法 被引量:6
18
作者 陈建超 郑启伦 +1 位作者 李庆阳 严桂夺 《计算机应用研究》 CSCD 北大核心 2009年第10期3746-3749,共4页
随着人类知识体系的不断拓展和深化,很多组合词(多个词或语素组成的词)被创造出来用于表达新的概念。由于无法及时把组合词收录进词库,分词系统无法识别它们。为此,从文本中提取组合词成为智能计算领域的一个热门的研究方向。借鉴人类... 随着人类知识体系的不断拓展和深化,很多组合词(多个词或语素组成的词)被创造出来用于表达新的概念。由于无法及时把组合词收录进词库,分词系统无法识别它们。为此,从文本中提取组合词成为智能计算领域的一个热门的研究方向。借鉴人类的认知心理模式,提出一种基于词序列频率有向网的组合词抽取算法,以识别自由文本中的组合词。算法首先建立描述文本中的词序列出现频率的有向网,然后通过独特的矩阵运算,逐步把组合词提取出来。算法的优点是无须借助专业的语言知识,在实验分析中,算法显示了较好的效果。 展开更多
关键词 有向图 组合词 词序列 认知心理模式
下载PDF
两河流域苏美尔楔形文字识别
19
作者 张荣松 方吴丰 +1 位作者 吴宇虹 林和平 《计算机工程与科学》 CSCD 北大核心 2009年第5期31-33,36,共4页
在人类文明发祥地之一的古代西亚,苏美尔人创造了光辉灿烂的古西亚文明,对整个人类文明做出了巨大的贡献。楔形文字作为这种文明的载体,发挥着不可替代的作用。但是,受到当时书写材料等历史条件的限制,以及手写体的因人而异,造成了文字... 在人类文明发祥地之一的古代西亚,苏美尔人创造了光辉灿烂的古西亚文明,对整个人类文明做出了巨大的贡献。楔形文字作为这种文明的载体,发挥着不可替代的作用。但是,受到当时书写材料等历史条件的限制,以及手写体的因人而异,造成了文字标准的不统一;后经时间的推移,使得出土文献部分缺失,这对通过原始文献来研究古文明的现代学者构成了极大的挑战。而采用径向基函数(RBF)人工神经网络对文献中的文字进行识别,使之标准化,其高度的容错性对缺失的文字可以进行很好的修补,定义特定的模糊模式,找出字义序列的规律,给研究古文明的学者创造了良好的条件。 展开更多
关键词 楔形文字 径向基函数 识别 模糊模式 字义序列
下载PDF
结合卷积神经网络和词语情感序列特征的中文情感分析 被引量:49
20
作者 陈钊 徐睿峰 +1 位作者 桂林 陆勤 《中文信息学报》 CSCD 北大核心 2015年第6期172-178,共7页
目前基于词嵌入的卷积神经网络文本分类方法已经在情感分析研究中取得了很好的效果。此类方法主要使用基于上下文的词嵌入特征,但在词嵌入过程中通常并未考虑词语本身的情感极性,同时此类方法往往缺乏对大量人工构建情感词典等资源的有... 目前基于词嵌入的卷积神经网络文本分类方法已经在情感分析研究中取得了很好的效果。此类方法主要使用基于上下文的词嵌入特征,但在词嵌入过程中通常并未考虑词语本身的情感极性,同时此类方法往往缺乏对大量人工构建情感词典等资源的有效利用。针对这些问题,该文提出了一种结合情感词典和卷积神经网络的情感分类方法,利用情感词典中的词条对文本中的词语进行抽象表示,在此基础上利用卷积神经网络提取抽象词语的序列特征,并用于情感极性分类。该文提出的相关方法在中文倾向性分析评测COAE2014数据集上取得了比目前主流的卷积神经网络以及朴素贝叶斯支持向量机更好的性能。 展开更多
关键词 卷积神经网络 情感分析 词语情感序列特征
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部