期刊文献+
共找到18篇文章
< 1 >
每页显示 20 50 100
基于本体的生物信息数据源的发现 被引量:5
1
作者 成瑜 何洁月 《微机发展》 2005年第1期38-40,103,共4页
随着互联网和生物信息的飞速发展,即时发现新的生物信息数据源来进行研究变得非常重要。传统的基于关键词的搜索引擎由于忽视了关键词本身所含的语义信息而得到较低的查全率和查准率,文中提出了基于本体的生物信息数据源发现的方法。通... 随着互联网和生物信息的飞速发展,即时发现新的生物信息数据源来进行研究变得非常重要。传统的基于关键词的搜索引擎由于忽视了关键词本身所含的语义信息而得到较低的查全率和查准率,文中提出了基于本体的生物信息数据源发现的方法。通过本体描述的领域知识和反映文档信息的特征短语来语义扩充用户请求,从而提高了检索的查全率和查准率。 展开更多
关键词 语义WEB 本体 资源描述框架/Web本体语言 特征短语 基因调控
下载PDF
向量空间模型中结合句法的文本表示研究 被引量:6
2
作者 杨玉珍 刘培玉 姜沛佩 《计算机工程》 CAS CSCD 北大核心 2011年第3期58-60,共3页
为增强向量空间模型(VSM)中项的语义描述性,克服VSM中各语义单元相互独立的缺陷,提出一种基于短语的特征粒度描述方法。该方法从文本的表示及特征项之间的组织方式入手,通过句法规则识别基本短语,构建特征与中心动词的关系树,利用基本... 为增强向量空间模型(VSM)中项的语义描述性,克服VSM中各语义单元相互独立的缺陷,提出一种基于短语的特征粒度描述方法。该方法从文本的表示及特征项之间的组织方式入手,通过句法规则识别基本短语,构建特征与中心动词的关系树,利用基本短语代替BOW中的词。实验结果表明,采用基本短语的文本表示可提高分类的性能,增加项之间的联系,克服特征项相互独立的缺陷,在特征数量较少的情况下仍能保持良好的分类效果。 展开更多
关键词 特征项 短语 句法规则 关系树 文本表示
下载PDF
大规模词序列中基于频繁词集的特征短语抽取模型 被引量:1
3
作者 余琴琴 彭敦陆 刘丛 《小型微型计算机系统》 CSCD 北大核心 2018年第5期1027-1032,共6页
目前,大多数文本特征抽取算法是针对特征词集进行抽取的,由于文本数据量大,且内容描述具有多义性和复杂性,以词为单元的特征抽取结果通常存在歧义.为了解决该问题,论文首先将文本生成词序列,综合考虑了词语在词序列中有序性、可重复性... 目前,大多数文本特征抽取算法是针对特征词集进行抽取的,由于文本数据量大,且内容描述具有多义性和复杂性,以词为单元的特征抽取结果通常存在歧义.为了解决该问题,论文首先将文本生成词序列,综合考虑了词语在词序列中有序性、可重复性和同义性,利用加权关联规则挖掘方法,对频繁词集进行组合生成特征短语.为提高计算效率,针对大规模文本数据特征短语抽取问题,采用MapReduce计算思想对所提算法进行了扩展.实验表明,该算法具有较高的运行效率,而且可以获得较为准确的特征短语. 展开更多
关键词 MAPREDUCE 词序列 加权关联规则 频繁词集 特征短语
下载PDF
基于依存信息融合特征的汉语韵律预测 被引量:1
4
作者 李勇 王柳渝 魏珰 《计算机工程》 CAS CSCD 北大核心 2018年第1期306-310,316,共6页
针对目前基于浅层语法特征和依存句法单特征的汉语韵律层级预测能力较弱的情况,提出一种改进的汉语韵律预测方法。通过从输入文本的依存句法分析结果中自动提取依存句法单特征,并对其中关键特征进行特征融合,得到依存信息融合特征。将... 针对目前基于浅层语法特征和依存句法单特征的汉语韵律层级预测能力较弱的情况,提出一种改进的汉语韵律预测方法。通过从输入文本的依存句法分析结果中自动提取依存句法单特征,并对其中关键特征进行特征融合,得到依存信息融合特征。将依存句法单特征与融合特征进行韵律层级预测实验对比,选取最优的依存特征组合与浅层语法特征相结合,利用决策树C4.5算法实现韵律结构层级的预测。经过大量的语料训练和测试结果表明,依存信息融合特征相比依存句法单特征整体韵律层级的预测准确率均有所提升,相对于浅层语法特征,韵律词和韵律短语的预测准确率分别提高了5.8%和15.4%。 展开更多
关键词 依存句法 融合特征 C4.5算法 语料 韵律词 韵律短语
下载PDF
结合空间语义信息的图像表示方法 被引量:1
5
作者 赵悦 于剑 谢博鋆 《计算机科学与探索》 CSCD 2013年第10期896-904,共9页
近年来词袋(bag-of-words,BoW)模型因为其较高的性能而被人们认可。词袋模型的改进方法主要包括两种,一种是在图像特征表示中加入空间信息,另一种是加入语义信息。研究了结合图像特征点间的空间和语义信息的高性能图像特征表示方法,通... 近年来词袋(bag-of-words,BoW)模型因为其较高的性能而被人们认可。词袋模型的改进方法主要包括两种,一种是在图像特征表示中加入空间信息,另一种是加入语义信息。研究了结合图像特征点间的空间和语义信息的高性能图像特征表示方法,通过计算图像中视觉词间的分布距离,并提取相似的视觉词组成视觉短语,来更好地表示图像。在UIUC-Sports8图像库和Scene-15图像库上进行图像分类实验,并与传统的词袋模型及其他模型进行比较,结果显示视觉词短语方法获得了更高的分类准确率。 展开更多
关键词 特征表示 词袋模型 视觉词 视觉短语
下载PDF
带有短语切分的中文文本分类方法(英文) 被引量:1
6
作者 田昕辉 李成基 《计算机技术与发展》 2010年第1期9-13,共5页
Internet文本信息量极速增加,在组织和处理这些文本数据时,文本分类技术显得尤为重要。利用统计学理论,特征提取和权重计算常常忽略了特征项之间的语法关系。文中提出了一种将短语切分与文本分类相结合的新方法。在经过TFIDF计算之后,... Internet文本信息量极速增加,在组织和处理这些文本数据时,文本分类技术显得尤为重要。利用统计学理论,特征提取和权重计算常常忽略了特征项之间的语法关系。文中提出了一种将短语切分与文本分类相结合的新方法。在经过TFIDF计算之后,在同一个短语中,特征项之间的关系被计算出来,然后调整权值向量,最后可以得到文本分类的正确率。同一般地文本分类方法相比,加入短语切分的文本分类方法的正确率平均提高了1.5%以上。 展开更多
关键词 特征提取 文本分类 短语切分 权值调整
下载PDF
基于后缀数组的Web文本重复短语识别
7
作者 张剑飞 李照欣 《高师理科学刊》 2007年第5期28-31,共4页
重复短语识别是网页文本的特征抽取过程中的关键性技术之一,通过重复短语的识别能够有效地解决网页文本内容特征抽取的难题.研究利用后缀数组进行重复短语识别和抽取的方法.实验表明,该方法进行重复短语识别后,得到的特征向量对于源网... 重复短语识别是网页文本的特征抽取过程中的关键性技术之一,通过重复短语的识别能够有效地解决网页文本内容特征抽取的难题.研究利用后缀数组进行重复短语识别和抽取的方法.实验表明,该方法进行重复短语识别后,得到的特征向量对于源网页文本的表示更具有代表性,网页相关性的挖掘可以获得更好效果. 展开更多
关键词 后缀数组 特征抽取 短语识别
下载PDF
《水浒传》中的“V在/到NL”
8
作者 于江 《上海大学学报(社会科学版)》 CSSCI 2001年第5期28-35,共8页
《水浒传》中“V在/到NL”式所表示的语法意义,主要视动词性质而定。不少动词后能直接带上宾语或补语,显现出“在/到”仍具有一定的动词性。“V在/到NL”式中那些异于现代汉语的特殊用法,有着明显的时代特征,同时也不可忽视方言间... 《水浒传》中“V在/到NL”式所表示的语法意义,主要视动词性质而定。不少动词后能直接带上宾语或补语,显现出“在/到”仍具有一定的动词性。“V在/到NL”式中那些异于现代汉语的特殊用法,有着明显的时代特征,同时也不可忽视方言间的相互影响。 展开更多
关键词 《水浒传》 动词 语义特征 方位短语 "V在/到NL"结构 句式 句法 语法意义 宾语 补语
下载PDF
与句子组合后的名词性结构的地位确定
9
作者 薛宏武 李慧兴 《新疆大学学报(社会科学版)》 CSSCI 北大核心 2002年第4期126-128,共3页
名词性结构(NP)和句子(S)组合后的语法分析,最为关键的是确定NP在这个组合序列中的地位,它直接影响句子的性质及其结构层次。本文根据含有[+顺序]的NP才具有陈述性,才能独立成句,借助有限语境、语用信息焦点及句子系统本身内在的语义语... 名词性结构(NP)和句子(S)组合后的语法分析,最为关键的是确定NP在这个组合序列中的地位,它直接影响句子的性质及其结构层次。本文根据含有[+顺序]的NP才具有陈述性,才能独立成句,借助有限语境、语用信息焦点及句子系统本身内在的语义语法关系去定位NP。这样做在一定程度上可以省去一些不必要的工作,为简单可行地定位NP找到了一条思路,这对于汉语教学,特别是对对外汉语教学有一定的意义和价值。 展开更多
关键词 句子组合 语义特征 包词性结构 语法 汉语 单句 复句
下载PDF
VP界性特征对时量短语的语义约束限制——兼论“V+了+时量短语+了”歧义格式 被引量:15
10
作者 税昌锡 《语言科学》 2006年第6期19-28,共10页
一个完整事件大体可以切分为活动、跨界和事态三个阶段,分别由活动动词语、跨界动词语和事态动词语来描写。活动动词语是无界的,后接时量短语表示活动持续的时间;事态动词语是有界的,后接时量短语表示事态的持续时间;而跨界动词语具有... 一个完整事件大体可以切分为活动、跨界和事态三个阶段,分别由活动动词语、跨界动词语和事态动词语来描写。活动动词语是无界的,后接时量短语表示活动持续的时间;事态动词语是有界的,后接时量短语表示事态的持续时间;而跨界动词语具有双重性,后接时量短语既可以表示活动持续的时间,又可以表示事态的持续时间。这种歧义可以通过确定空宾语的位置得以分解。“了”的分布对“动词+时量短语”结构的句法语义有很大影响,功能认知和话语环境对时量短语的所指也有导向作用和微调功能。 展开更多
关键词 事件动词语 界性特征 时量短语 语义约束限制
下载PDF
多特征融合的专利功效短语抽取
11
作者 游新冬 赵颖 +1 位作者 刘佳琦 吕学强 《计算机工程与设计》 北大核心 2024年第5期1413-1419,共7页
为提高专利功效短语抽取的准确率和召回率,保障专利布局等研究工作的高质量进行,提出一种融合多特征的专利功效短语抽取模型。基于Bert-BiLSTM-CRF的整体框架,利用Bert模型对文本进行向量化,融合偏旁部首、五笔、词长+词性等特征输入到B... 为提高专利功效短语抽取的准确率和召回率,保障专利布局等研究工作的高质量进行,提出一种融合多特征的专利功效短语抽取模型。基于Bert-BiLSTM-CRF的整体框架,利用Bert模型对文本进行向量化,融合偏旁部首、五笔、词长+词性等特征输入到BiLSTM或Transformer进行编码,使用CRF解码得到对应输入的标签序列,得到专利功效短语。实验采用新能源汽车领域的专利文本作为训练数据,尝试组合不同的特征进行实验,实验结果表明,所提模型在准确率、召回率、F1值上均取得了明显提升,验证了多特征融合在功效短语抽取任务上的有效性。 展开更多
关键词 多特征融合 专利功效短语 深度学习 词语抽取 双向长短期记忆模型 条件随机场模型 词向量模型
下载PDF
基于保序子矩阵和频繁序列模式挖掘的文本情感特征提取方法 被引量:3
12
作者 陈鑫 薛云 +3 位作者 卢昕 李万理 赵洪雅 胡晓晖 《山东大学学报(理学版)》 CAS CSCD 北大核心 2018年第3期36-45,53,共11页
特征提取是进行文本情感分析的关键步骤之一,是影响其结果好坏的主要因素。针对网络评论语句中表达形式多变的特点,结合语义相似度计算得到近义词TF-IDF(term frequency—inverse document frequency)权重向量;根据评论语句长短不一的特... 特征提取是进行文本情感分析的关键步骤之一,是影响其结果好坏的主要因素。针对网络评论语句中表达形式多变的特点,结合语义相似度计算得到近义词TF-IDF(term frequency—inverse document frequency)权重向量;根据评论语句长短不一的特点,基于OPSM(order-preserving submatrix)双聚类算法挖掘出权重向量中的局部模式;使用改进的Prefix Span算法挖掘分类频繁短语特征,这类特征能有效利用词语的顺序信息,同时也通过词语间隔等限制来提升频繁短语区分情感倾向的能力。最后将该方法用于处理商品评论语料,并进行情感分析任务实验,结果表明所提取的文本特征效果有较大的提升。 展开更多
关键词 特征提取 情感分析 双聚类 频繁短语特征
原文传递
汉语组块分析在产品特征提取中的应用研究 被引量:4
13
作者 杜思奇 李红莲 吕学强 《现代图书情报技术》 CSSCI 2015年第9期26-30,共5页
【目的】解决用户评论文本中的产品特征提取问题,尤其是名词性短语的识别问题。【方法】利用汉语组块分析进行产品特征提取,根据Apriori产生频繁项集以及TF-IDF阈值对候选产品特征进行过滤,得到产品特征集合,从而实现对用户评论中产品... 【目的】解决用户评论文本中的产品特征提取问题,尤其是名词性短语的识别问题。【方法】利用汉语组块分析进行产品特征提取,根据Apriori产生频繁项集以及TF-IDF阈值对候选产品特征进行过滤,得到产品特征集合,从而实现对用户评论中产品特征的自动提取。【结果】为验证该方法的有效性,以汽车评论文本为例,从中提取汽车类产品的特征,平均召回率达到76.89%,平均准确率达到84.03%。【局限】该方法的召回率较低,存在名词块识别错误的问题。【结论】实验结果表明引入汉语组块分析可以准确识别名词性短语,提高产品特征提取的准确率。 展开更多
关键词 产品特征提取 名词性短语识别 汉语组块分析 关联规则
原文传递
先秦文献中连词“而”的历时分布特征(上)——先秦文献连词“而”语法功能的系列研究之二 被引量:2
14
作者 裘燮君 《河池学院学报》 2006年第6期57-67,共11页
连词“而”最早见于西周后期的文献中。其组合分布只有VP组合一种,而且多为单句内的连动结构。其语义关系也只有表示时间先后的承接关系一种。春秋前期出现了AP组合、NP组合、“S而P”组合、“S之P”组合和疑代组合等,但主要见于口语的... 连词“而”最早见于西周后期的文献中。其组合分布只有VP组合一种,而且多为单句内的连动结构。其语义关系也只有表示时间先后的承接关系一种。春秋前期出现了AP组合、NP组合、“S而P”组合、“S之P”组合和疑代组合等,但主要见于口语的《国风》和《小雅》中。进入战国前期,连词“而”的各种组合已基本具备,其句法结构和语义关系也呈现复杂多样的形态。 展开更多
关键词 历时分布特征 句法结构 语义关系 连谓短语 成分从缺(隐含)
下载PDF
疾病命名短语识别的最大熵方法
15
作者 蔡晓白 樊孝忠 《北京理工大学学报》 EI CAS CSCD 北大核心 2006年第6期517-520,共4页
提出一种基于最大熵模型的中文疾病命名短语识别方法,在模型特征选择上,将领域本体信息作为模型的一种特征.由此实现的疾病命名短语识别分类器具备有监督学习和利用领域知识的能力.实验结果表明,对于疾病命名短语识别的准确率达到89.7%... 提出一种基于最大熵模型的中文疾病命名短语识别方法,在模型特征选择上,将领域本体信息作为模型的一种特征.由此实现的疾病命名短语识别分类器具备有监督学习和利用领域知识的能力.实验结果表明,对于疾病命名短语识别的准确率达到89.7%,召回率87.6%,F-评价值88.64%. 展开更多
关键词 最大熵模型 特征选择 本体 疾病命名短语识别
下载PDF
基于TAKE的中文关键短语提取算法研究 被引量:1
16
作者 刘晨晖 张德生 胡钢 《计算机工程与应用》 CSCD 北大核心 2020年第10期115-121,共7页
针对传统的中文关键短语提取算法所提取关键短语准确率低、歧义性强和涵盖信息量少等问题,在英文关键短语提取算法TAKE(Totally Automated Keyword Extraction)的启发下,加入基于多领域特异性的新词识别技术,并改进了原有算法的文本分... 针对传统的中文关键短语提取算法所提取关键短语准确率低、歧义性强和涵盖信息量少等问题,在英文关键短语提取算法TAKE(Totally Automated Keyword Extraction)的启发下,加入基于多领域特异性的新词识别技术,并改进了原有算法的文本分词、词语过滤和特征计算方法,提出了一种改进的TAKE算法,并应用于中文文本关键短语挖掘中。与多种传统关键短语提取算法的对比实验结果表明,该算法提取的精确率、召回率和F值指标的量化结果相比于传统算法有比较明显的提升。 展开更多
关键词 文本挖掘 分词 词语过滤 特征计算 关键短语提取
下载PDF
多角度的特征提取方法 被引量:1
17
作者 方莹 《郑州轻工业学院学报(自然科学版)》 CAS 2010年第3期74-77,109,共5页
以单个词语作为文本分类特征的传统方法会丢失词语的语义信息和必要的词语关系信息.在充分考虑词语的词频、语义信息和主要词语间依赖关系的基础上,提出了融合的多角度的特征提取方法.该方法利用词频和停用词表进行特征词的静态选择,基... 以单个词语作为文本分类特征的传统方法会丢失词语的语义信息和必要的词语关系信息.在充分考虑词语的词频、语义信息和主要词语间依赖关系的基础上,提出了融合的多角度的特征提取方法.该方法利用词频和停用词表进行特征词的静态选择,基于知网利用语义信息进一步精简特征词,融入共现词组体现词语搭配关系并提高重要词语的分类作用.基于VSM的文本分类实验证明,该特征提取方法全面可行且能有效提升分类效果. 展开更多
关键词 文本分类 特征提取 句法分析 共现词组
下载PDF
基于拼音分析的网民密码行为研究
18
作者 杨城 王云凯 洪瑞隆 《计算机工程》 CAS CSCD 2014年第9期174-177,182,共5页
从网民密码字符中26个字母与汉语拼音的关系入手,研究中国网民密码的文化特征。基于网络汉字频率及多音字处理方法进行拼音字母的频率统计,在简单阐述网民密码的一般性统计特征后,重点分析中西方网民密码与拼音文本、英语文本中字母频... 从网民密码字符中26个字母与汉语拼音的关系入手,研究中国网民密码的文化特征。基于网络汉字频率及多音字处理方法进行拼音字母的频率统计,在简单阐述网民密码的一般性统计特征后,重点分析中西方网民密码与拼音文本、英语文本中字母频率之间的相似性,揭示中国网民的密码设计与汉语拼音密切相关,并且习惯于采用拼音式的助记符密码。 展开更多
关键词 信息安全 密码 拼音 文化特色 相关性分析 助记符密码
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部