期刊文献+
共找到23篇文章
< 1 2 >
每页显示 20 50 100
基于新词发现和Lattice-LSTM的中文医疗命名实体识别 被引量:8
1
作者 赵耀全 车超 张强 《计算机应用与软件》 北大核心 2021年第1期161-165,249,共6页
在医疗命名实体识别中,由于存在大量医学专业术语和语料中语言不规范的原因,识别的准确率不高。为了识别未登录的医学术语和应对语言不规范问题,提出一种基于N-grams新词发现的Lattice-LSTM的多粒度命名实体识别模型。在医疗对话语料中... 在医疗命名实体识别中,由于存在大量医学专业术语和语料中语言不规范的原因,识别的准确率不高。为了识别未登录的医学术语和应对语言不规范问题,提出一种基于N-grams新词发现的Lattice-LSTM的多粒度命名实体识别模型。在医疗对话语料中使用N-grams算法提取新词并构造一个医疗相关的词典,通过Lattice-LSTM模型将输入的字符和所有能在词典匹配的单词一起编码,其中门结构能够使模型选择最相关的字符和单词。Lattice-LSTM能够利用发现的新词信息识别未登录的医学术语,从而得到更好的实验识别结果。 展开更多
关键词 医疗命名实体识别 n-grams 新词发现 Lattice-LSTM
下载PDF
协同学习环境中感知本体的构建方法 被引量:4
2
作者 詹永照 谢志峰 毛启容 《江苏大学学报(自然科学版)》 EI CAS 北大核心 2007年第2期164-167,共4页
为了对协同学习环境中的感知信息进行合理、有效的组织,提出了协同学习环境中的感知本体模型,其中包含成员概念、成员组概念、角色概念、知识域概念、事件概念、活动概念六个方面以及概念内部及概念之间的各种关系,可有效解决传统感知... 为了对协同学习环境中的感知信息进行合理、有效的组织,提出了协同学习环境中的感知本体模型,其中包含成员概念、成员组概念、角色概念、知识域概念、事件概念、活动概念六个方面以及概念内部及概念之间的各种关系,可有效解决传统感知信息组织能力受限、维护困难的问题,最大程度地提高协同学习效率.此外,在此模型的基础上提出了一种基于N-Grams的知识域相关关系提取方法,可以自动精确地提取相关关系,适合动态的感知信息处理. 展开更多
关键词 协同学习 感知本体模型 本体构建 ngrams 知识域
下载PDF
构建和剖析中英三元组可比语料库 被引量:5
3
作者 胡小鹏 袁琦 +1 位作者 耿鑫辉 朱姝 《计算机工程与应用》 CSCD 2014年第13期153-157,186,共6页
由于受到翻译腔的影响,中英平行语料库存在固有的扭斜的语言模型。显然,用这样的语料库训练的机器翻译、跨语言检索等自然语言处理系统也承袭了扭斜的语言模型,严重影响到应用系统的性能。为了克服平行语料库固有的缺陷,提出构建和剖析... 由于受到翻译腔的影响,中英平行语料库存在固有的扭斜的语言模型。显然,用这样的语料库训练的机器翻译、跨语言检索等自然语言处理系统也承袭了扭斜的语言模型,严重影响到应用系统的性能。为了克服平行语料库固有的缺陷,提出构建和剖析中英三元组可比语料库的技术研究。这项研究采用可比语料库和语言自动剖析技术,使用统计和规则相结合的方法,对由本族英语、中式英语和标准中文三元素所组成的三元组可比语料库中的本族英语和中式英语进行统计分析。在此基础上,利用n-元词串、关键词簇等自动抽取技术挖掘基于本族语言模型的双语资源,实现改进和发展机器翻译等自然语言的处理应用。 展开更多
关键词 三元组可比语料库 语言迁移 自动语言剖析 n-元词串
下载PDF
Identification of cytokine via an improved genetic algorithm 被引量:3
4
作者 Xiangxiang ZENG Sisi YUAN Xianxian HUANG Quan ZOU 《Frontiers of Computer Science》 SCIE EI CSCD 2015年第4期643-651,共9页
With the explosive growth in the number of pro- tein sequences generated in the postgenomic age, research into identifying cytokines from proteirls and detecting their biochemical mechanisms becomes increasingly impor... With the explosive growth in the number of pro- tein sequences generated in the postgenomic age, research into identifying cytokines from proteirls and detecting their biochemical mechanisms becomes increasingly important. Unfortunately, the identification of cytokines from proteins is challenging due to a lack of understanding of the struc- ture space provided by the proteins and the fact that only a small number of cytokines exists in massive proteins. In view of fact that a proteins sequence is conceptually similar to a mapping of words to meaning, n-gram, a type of probabilistic language model, is explored to extract features for proteins. The second challenge focused on in this work is genetic algo- rithms, a search heuristic that mimics the process of natural selection, that is utilized to develop a classifier for overcom- ing the protein imbalance problem to generate precise pre- diction of cytokines in proteins. Experiments carded on im- balanced proteins data set show that our methods outperform traditional algorithms in terms of the prediction ability. 展开更多
关键词 n-grams genetic algorithm cytokine identifica-tion sampling imbalanced data
原文传递
An Introduction to the Chinese Speech Recognition Front-End of the NICT/ATR Multi-Lingual Speech Translation System 被引量:3
5
作者 张劲松 Takatoshi Jitsuhiro +2 位作者 Hirofumi Yamamoto 胡新辉 Satoshi Nakamura 《Tsinghua Science and Technology》 SCIE EI CAS 2008年第4期545-552,共8页
This paper introduces several important features of the Chinese large vocabulary continuous speech recognition system in the NICT/ATR multi-lingual speech-to-speech translation system. The features include: (1) a f... This paper introduces several important features of the Chinese large vocabulary continuous speech recognition system in the NICT/ATR multi-lingual speech-to-speech translation system. The features include: (1) a flexible way to derive an information rich phoneme set based on mutual information between a text corpus and its phoneme set; (2) a hidden Markov network acoustic model and a successive state splitting algorithm to generate its model topology based on a minimum description length criterion; and (3) advanced language modeling using multi-class composite N-grams. These features allow a recognition performance of 90% character accuracy in tourism related dialogue with a real time response speed. 展开更多
关键词 Chinese speech recognition mutual information phoneme set design hidden Markov network minimum description length successive state splitting multi-class composite n-grams
原文传递
基于关键n-grams和门控循环神经网络的文本分类模型 被引量:3
6
作者 赵倩 吴悦 刘宗田 《上海大学学报(自然科学版)》 CAS CSCD 北大核心 2021年第3期544-552,共9页
提出一种基于关键n-grams和门控循环神经网络的文本分类模型.模型采用更为简单高效的池化层替代传统的卷积层来提取关键的n-grams作为重要语义特征,同时构建双向门控循环单元(gated recurrent unit,GRU)获取输入文本的全局依赖特征,最... 提出一种基于关键n-grams和门控循环神经网络的文本分类模型.模型采用更为简单高效的池化层替代传统的卷积层来提取关键的n-grams作为重要语义特征,同时构建双向门控循环单元(gated recurrent unit,GRU)获取输入文本的全局依赖特征,最后将两种特征的融合模型应用于文本分类任务.在多个公开数据集上评估模型的质量,包括情感分类和主题分类.与传统模型的实验对比结果表明:所提出的文本分类模型可有效改进文本分类的性能,在语料库20newsgroup上准确率提高约1.95%,在语料库Rotton Tomatoes上准确率提高约1.55%. 展开更多
关键词 文本分类 门控循环单元(gated recurrent unit GRU) n-grams 自然语言处理
下载PDF
Deep Learning with Natural Language Processing Enabled Sentimental Analysis on Sarcasm Classification
7
作者 Abdul Rahaman Wahab Sait Mohamad Khairi Ishak 《Computer Systems Science & Engineering》 SCIE EI 2023年第3期2553-2567,共15页
Sentiment analysis(SA)is the procedure of recognizing the emotions related to the data that exist in social networking.The existence of sarcasm in tex-tual data is a major challenge in the efficiency of the SA.Earlier... Sentiment analysis(SA)is the procedure of recognizing the emotions related to the data that exist in social networking.The existence of sarcasm in tex-tual data is a major challenge in the efficiency of the SA.Earlier works on sarcasm detection on text utilize lexical as well as pragmatic cues namely interjection,punctuations,and sentiment shift that are vital indicators of sarcasm.With the advent of deep-learning,recent works,leveraging neural networks in learning lexical and contextual features,removing the need for handcrafted feature.In this aspect,this study designs a deep learning with natural language processing enabled SA(DLNLP-SA)technique for sarcasm classification.The proposed DLNLP-SA technique aims to detect and classify the occurrence of sarcasm in the input data.Besides,the DLNLP-SA technique holds various sub-processes namely preprocessing,feature vector conversion,and classification.Initially,the pre-processing is performed in diverse ways such as single character removal,multi-spaces removal,URL removal,stopword removal,and tokenization.Secondly,the transformation of feature vectors takes place using the N-gram feature vector technique.Finally,mayfly optimization(MFO)with multi-head self-attention based gated recurrent unit(MHSA-GRU)model is employed for the detection and classification of sarcasm.To verify the enhanced outcomes of the DLNLP-SA model,a comprehensive experimental investigation is performed on the News Headlines Dataset from Kaggle Repository and the results signified the supremacy over the existing approaches. 展开更多
关键词 Sentiment analysis sarcasm detection deep learning natural language processing n-grams hyperparameter tuning
下载PDF
基于相关性及语义的n-grams特征加权算法 被引量:2
8
作者 邱云飞 刘世兴 +1 位作者 林明明 邵良杉 《模式识别与人工智能》 EI CSCD 北大核心 2015年第11期992-1001,共10页
n-grams作为文本分类特征时易造成分类准确率下降,并且在对n-grams加权时通常忽略单词间的冗余度和相关性.针对上述问题,文中提出基于相关性及语义的n-grams特征加权算法.在文本预处理时,对n-grams进行特征约简,降低内部冗余,再根据n-gr... n-grams作为文本分类特征时易造成分类准确率下降,并且在对n-grams加权时通常忽略单词间的冗余度和相关性.针对上述问题,文中提出基于相关性及语义的n-grams特征加权算法.在文本预处理时,对n-grams进行特征约简,降低内部冗余,再根据n-grams内单词与类别的相关性及n-grams与测试集的语义近似度加权.搜狗中文新闻语料库和网易文本分类语料库上的实验表明,文中算法能筛选高类别相关且低冗余的n-grams特征,在量化测试集时减少稀疏数据的产生. 展开更多
关键词 最大相关度最小冗余度(mRMR) 语义相似度 n-grams 特征加权
下载PDF
基于多尺度的n-grams特征选择加权及匹配算法 被引量:1
9
作者 刘世兴 《智能计算机与应用》 2020年第1期61-66,共6页
n-grams语言模型作为文本分类中常用的特征,具有结构简单、易筛选、携带语义量大以及对分类贡献值高等优点。但由于其固有的结构特点,在使用普通的选择加权及匹配算法时会造成权值区分不明显,并产生大量稀疏数据,使得建立的分类模型不准... n-grams语言模型作为文本分类中常用的特征,具有结构简单、易筛选、携带语义量大以及对分类贡献值高等优点。但由于其固有的结构特点,在使用普通的选择加权及匹配算法时会造成权值区分不明显,并产生大量稀疏数据,使得建立的分类模型不准确,进而导致最终分类结果的偏差。为解决上述问题,根据词性、语义及词汇的内在偏序关系,提出一种结合词汇、词性和语义的特征选择加权及匹配算法,使n-grams特征权值区分明显的同时避免在训练和测试过程中产生大量稀疏数据。在美国当代英语语料库和北京BBC汉语语料库中的实验结果表明,与传统的n-grams特征选择加权及匹配算法相比,基于多尺度的n-grams特征选择加权及匹配算法中得到的n-grams特征权值区分明显且稀疏数据大幅减少,在支持向量机(Support Vector Machine,SVM)中的分类效果更好。 展开更多
关键词 n-grams 特征选择 特征加权 偏序集 词性 语义近似度
下载PDF
谷歌图书与谷歌图书语料库比较 被引量:1
10
作者 汪兴富 Mark Davies 《外语电化教学》 CSSCI 北大核心 2012年第3期15-18,共4页
本文主要对比谷歌图书界面和语料库专家Mark Davies教授依据谷歌图书数据制作的谷歌图书语料库界面,在语料库界面可以查询谷歌图书收录的1810-2009年间130多万本美国英语书籍的1550多亿词汇中的信息,有比谷歌图书丰富的查询条件和限定范... 本文主要对比谷歌图书界面和语料库专家Mark Davies教授依据谷歌图书数据制作的谷歌图书语料库界面,在语料库界面可以查询谷歌图书收录的1810-2009年间130多万本美国英语书籍的1550多亿词汇中的信息,有比谷歌图书丰富的查询条件和限定范围,并且利于进行历时比较研究。 展开更多
关键词 谷歌图书 语料库 ngrams
原文传递
英语学习者口语复述中的n元组和关键词提取研究 被引量:1
11
作者 张蕾 鲍贵 《外国语文》 北大核心 2021年第4期150-160,共11页
本文采用混合因素设计调查112名英语专业学习者在口语复述中对n元组和关键词的提取。研究发现,英语中、高水平组在听力原文中提取的n元组和关键词在数量上相当,但是都超过英语低水平组。不管英语水平如何,随着n元组长度的增加,学习者提... 本文采用混合因素设计调查112名英语专业学习者在口语复述中对n元组和关键词的提取。研究发现,英语中、高水平组在听力原文中提取的n元组和关键词在数量上相当,但是都超过英语低水平组。不管英语水平如何,随着n元组长度的增加,学习者提取n元组的数量明显减少。学习者复述中使用的关键词以提取原文中的关键词为主,同义关键词的使用量不依赖于英语水平。这些发现加深了我们对学习者在口语复述中如何再现听力原文的认识,对英语口语教学有启示作用。 展开更多
关键词 口语复述 英语水平 n元组 关键词 词云
下载PDF
三元组可比语料库自动剖析技术研究与应用
12
作者 袁琦 肖健 +3 位作者 宋金平 朱姝 万缨 许亮 《计算机工程与应用》 CSCD 2012年第16期129-132,共4页
国内外基于语料库的翻译研究主要集中在翻译共性、翻译规范、译者风格和翻译培训等涉及翻译理论和翻译实践方面的研究;提出的基于三元组可比语料库的自动语言剖析技术扩大了该研究领域的内涵,使其包括面向自然语言处理的应用研究。从工... 国内外基于语料库的翻译研究主要集中在翻译共性、翻译规范、译者风格和翻译培训等涉及翻译理论和翻译实践方面的研究;提出的基于三元组可比语料库的自动语言剖析技术扩大了该研究领域的内涵,使其包括面向自然语言处理的应用研究。从工程可实现性考虑,创新性地提出了建造三元组可比语料库,利用n-元词串、关键词簇和语义多词表达等自动抽取技术,通过对比中式英语表达,发掘英语本族语言模型,实现改进和发展机器翻译、跨语言信息检索等自然语言处理应用的目标。 展开更多
关键词 基于语料库的翻译研究 三元组可比语料库 自动语言剖析 n元词串
下载PDF
面向法庭科学的多属性中文短文本作者归属
13
作者 罗文华 李孟林 《中国刑警学院学报》 2020年第2期119-123,共5页
针对当前主流的卷积神经网络分类模型偏重依赖训练集规模和参数的缺点,提出了基于传统N-grams模型并结合多属性特征综合计算中文短文本相似度的分析方法。首先采用N-grams模型提取词频分布和句子的语义逻辑关系特征,然后通过似然率算法... 针对当前主流的卷积神经网络分类模型偏重依赖训练集规模和参数的缺点,提出了基于传统N-grams模型并结合多属性特征综合计算中文短文本相似度的分析方法。首先采用N-grams模型提取词频分布和句子的语义逻辑关系特征,然后通过似然率算法求出中文短文本似然率,最后进一步结合发送时间、发送位置、发送频率、输入法等属性计算出中文短文本相似度。实验表明,采用N-grams模型并融合多属性综合计算相似度相较单纯使用N-grams,实现了对作者归属判断的更有力支撑。 展开更多
关键词 短文本 n-grams 多属性 似然率 余弦相似度
原文传递
一种混合的中文文本校对方法 被引量:21
14
作者 于勐 姚天顺 《中文信息学报》 CSCD 北大核心 1998年第2期31-36,共6页
本文以模式匹配的方法和3元文法分析的方法为基础,结合语法属性标注和分析的方法,提出了一种混合的中文文本校对方法,其结果优于任何一种方法的单独应用。
关键词 中文校对 n元文法 自然语言处理 中文文本
下载PDF
基于机器学习的科技文摘关键词自动提取方法 被引量:15
15
作者 刘佳宾 陈超 +1 位作者 邵正荣 吉翔华 《计算机工程与应用》 CSCD 北大核心 2007年第14期170-172,共3页
提出了一种基于机器学习的关键词自动抽取技术,主要是针对数字图书馆中的学术论文的摘要(Abstract)进行抽取。首次提出了以句子为基本抽取单位进行关键词抽取的思想。在提出关键词的候选词时采用n_grams方法和词性相结合的方法,在选取... 提出了一种基于机器学习的关键词自动抽取技术,主要是针对数字图书馆中的学术论文的摘要(Abstract)进行抽取。首次提出了以句子为基本抽取单位进行关键词抽取的思想。在提出关键词的候选词时采用n_grams方法和词性相结合的方法,在选取特征时考虑了词组的出现频率、词组在整个摘要中的位置、在所在句子中的位置和词组中单词的个数等特征。实验结果表明该方法能够适应各个领域的论文关键词提取,并且可以得到很好的效果。 展开更多
关键词 信息自动抽取 决策树 词性分析 n_grams方法
下载PDF
基于N-gram统计模型的搜索引擎中文纠错 被引量:7
16
作者 陈智鹏 吕玉琴 +2 位作者 刘华生 刘刚 屠辉 《中国电子科学研究院学报》 2009年第3期323-326,共4页
搜索引擎中的关键词纠错是提高检索效率的一项重要辅助功能。提出了一种完全通过分析上下文统计信息的方法,根据中文语言的特点,在建立N-gram统计模型并分析比较的基础上,再通过计算TF/IDF的权重来获得最优的纠错结果,最后通过实验验证... 搜索引擎中的关键词纠错是提高检索效率的一项重要辅助功能。提出了一种完全通过分析上下文统计信息的方法,根据中文语言的特点,在建立N-gram统计模型并分析比较的基础上,再通过计算TF/IDF的权重来获得最优的纠错结果,最后通过实验验证了该方法实现了搜索引擎中对输入关键词的自动检查和纠错。 展开更多
关键词 搜索引擎 输入纠错 n-GRAM模型 TF/IDF
下载PDF
W-POS语言模型及其选择与匹配算法 被引量:3
17
作者 邱云飞 刘世兴 +1 位作者 魏海超 邵良杉 《计算机应用》 CSCD 北大核心 2015年第8期2210-2214,2248,共6页
n-grams语言模型旨在利用多个词的组合形式生成文本特征,以此训练分类器对文本进行分类。然而n-grams自身存在冗余词,并且在与训练集匹配量化的过程中会产生大量稀疏数据,严重影响分类准确率,限制了其使用范围。对此,基于n-grams语言模... n-grams语言模型旨在利用多个词的组合形式生成文本特征,以此训练分类器对文本进行分类。然而n-grams自身存在冗余词,并且在与训练集匹配量化的过程中会产生大量稀疏数据,严重影响分类准确率,限制了其使用范围。对此,基于n-grams语言模型,提出一种改进的n-grams语言模型——W-POS。将分词后文本中出现概率较小的词和冗余词用词性代替,得到由词和词性的不规则排列组成的W-POS语言模型,并提出该语言模型的选择规则、选择算法以及与测试集的匹配算法。在复旦大学中文语料库和英文语料库20Newsgroups中的实验结果表明,W-POS语言模型既继承了n-grams语言模型减少特征数量、携带部分语义和提高精度的优点,又克服了n-grams语言模型产生大量稀疏数据、含有冗余词的缺陷,并验证了选择和匹配算法的有效性。 展开更多
关键词 n-grams语言模型 词性 冗余度 稀疏数据 特征选择
下载PDF
改进的关键词抽取方法研究 被引量:4
18
作者 邓箴 包宏 《计算机工程与设计》 CSCD 北大核心 2009年第20期4677-4680,4769,共5页
在关键词抽取方法研究中,提出了多步骤的,针对任意领域的文本关键词抽取方法。该方法采用多元文法进行候选关键词抽取,提出了基于语言学特征的扩展tf/idf关键词的加权计算方法,以及能够抽取未登录词的关键词的方法和对关键词抽取进行优... 在关键词抽取方法研究中,提出了多步骤的,针对任意领域的文本关键词抽取方法。该方法采用多元文法进行候选关键词抽取,提出了基于语言学特征的扩展tf/idf关键词的加权计算方法,以及能够抽取未登录词的关键词的方法和对关键词抽取进行优化的策略。首次提出了用支持向量机对最后的抽取结果进行优化。实验结果表明,该方法与单纯的tf/idf算法相比,具有更高的查准率和查全率。 展开更多
关键词 关键词抽取语言学特征 特征拟合 多元文法 支持向量机
下载PDF
基于主题N元语法模型的科技报告主题分析 被引量:2
19
作者 安欣 徐硕 《农业图书情报》 2019年第6期21-30,共10页
作为科技情报的重要载体之一,科技报告可以反映科技发展的脉络,可以揭示科技前沿的动态,甚至可以洞察科技发展的趋势等。中国科技报告的开发利用研究目前主要集中在书本型科技报告或电子出版物的出版发行、数据库建设、服务方式和知识... 作为科技情报的重要载体之一,科技报告可以反映科技发展的脉络,可以揭示科技前沿的动态,甚至可以洞察科技发展的趋势等。中国科技报告的开发利用研究目前主要集中在书本型科技报告或电子出版物的出版发行、数据库建设、服务方式和知识产权等方面,在深度数据挖掘方面的研究工作相对较少。笔者尝试利用主题N元语法模型对科技报告进行领域深层主题分析,为了确定特定领域科技报告的主题数目,笔者借助动态规划的思想针对主题N元语法模型提出了困惑度的有效计算方法。最后,以肿瘤领域1344条科技报告为实验数据,揭示了以“分子机制/肿瘤细胞”和“系统生物学/关键方法”为代表的70个主题,验证了利用主题N元语法模型揭示科技报告领域深层主题的可行性和有效性。 展开更多
关键词 科技报告 主题n元语法模型 主题分析 困惑度 热力图
下载PDF
基于基尼系数的n-grams特征约简加权算法
20
作者 张金美 舒希勇 《淮阴工学院学报》 CAS 2016年第1期25-28,共4页
目前,关于n-grams特征加权的计算方法大多是基于其出现频率进行设计的。这类加权计算方式存在一定的问题:n-grams特征是由多个词汇构造而成,由于其出现频率取决于多个词汇,即多个词汇的出现概率取交集,故经常造成出现频率过小而无法得... 目前,关于n-grams特征加权的计算方法大多是基于其出现频率进行设计的。这类加权计算方式存在一定的问题:n-grams特征是由多个词汇构造而成,由于其出现频率取决于多个词汇,即多个词汇的出现概率取交集,故经常造成出现频率过小而无法得到满意的加权效果。另外,构成n-grams特征的词汇中可能存在一部分与分类无关,传统方法无法对n-grams特征做进一步处理。为了对n-grams特征更好地加权并做进一步处理,利用基尼系数和洛伦茨曲线对ngrams特征内的词汇进行约简和加权,最终得到对n-grams特征的加权结果。通过支持向量机中的实验结果表明,经过基尼系数约简和加权后的n-grams特征在分类结果上要优于TF(Term Frequency)等加权方法,验证了算法的有效性。 展开更多
关键词 n-grams特征 基尼指数 洛伦茨曲线 支持向量机
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部