期刊文献+
共找到311篇文章
< 1 2 16 >
每页显示 20 50 100
使用最大熵模型进行中文文本分类 被引量:95
1
作者 李荣陆 王建会 +2 位作者 陈晓云 陶晓鹏 胡运发 《计算机研究与发展》 EI CSCD 北大核心 2005年第1期94-101,共8页
随着WWW的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术.由于最大熵模型可以综合观察到各种相关或不相关的概率知识,对许多问题的处理都可以达到较好的结果.但是,将最大熵模型应用在文本分类中的研究却非常少,而使用最大熵... 随着WWW的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术.由于最大熵模型可以综合观察到各种相关或不相关的概率知识,对许多问题的处理都可以达到较好的结果.但是,将最大熵模型应用在文本分类中的研究却非常少,而使用最大熵模型进行中文文本分类的研究尚未见到.使用最大熵模型进行了中文文本分类.通过实验比较和分析了不同的中文文本特征生成方法、不同的特征数目,以及在使用平滑技术的情况下,基于最大熵模型的分类器的分类性能.并且将其和Bayes,KNN,SVM三种典型的文本分类器进行了比较,结果显示它的分类性能胜于Bayes方法,与KNN和SVM方法相当,表明这是一种非常有前途的文本分类方法. 展开更多
关键词 文本分类 最大熵模型 特征 n-gram
下载PDF
基于词频统计的中文分词的研究 被引量:68
2
作者 费洪晓 康松林 +1 位作者 朱小娟 谢文彪 《计算机工程与应用》 CSCD 北大核心 2005年第7期67-68,100,共3页
论文介绍了一个基于词频统计的中文分词系统的设计和实现。通过这个系统,可以将输入的连续汉字串进行分词处理,输出分割后的汉语词串,一般是二字词串,并得到一个词典。词典中不重复地存储了每次处理中得到的词语,以及这些词语出现的频... 论文介绍了一个基于词频统计的中文分词系统的设计和实现。通过这个系统,可以将输入的连续汉字串进行分词处理,输出分割后的汉语词串,一般是二字词串,并得到一个词典。词典中不重复地存储了每次处理中得到的词语,以及这些词语出现的频率。这个系统选用了三种统计原理分别进行统计:互信息,N元统计模型和t-测试。文中还对这三种原理的处理结果进行了比较,以分析各种统计原理的统计特点,以及各自所适合的应用场合。 展开更多
关键词 中文分词 词频统计 互信息n元统计模型 t-测试
下载PDF
基于统计的汉语词性标注方法的分析与改进 被引量:31
3
作者 魏欧 吴健 +1 位作者 孙玉芳 sonata.iscas.ac.cn 《软件学报》 EI CSCD 北大核心 2000年第4期473-480,共8页
从词性概率矩阵与词汇概率矩阵的结构和数值变化等方面 ,对目前常用的基于统计的汉语词性标注方法中训练语料规模与标注正确率之间所存在的非线性关系作了分析 .为了充分利用训练语料库 ,提高标注正确率 ,从利用词语相关的语法属性和加... 从词性概率矩阵与词汇概率矩阵的结构和数值变化等方面 ,对目前常用的基于统计的汉语词性标注方法中训练语料规模与标注正确率之间所存在的非线性关系作了分析 .为了充分利用训练语料库 ,提高标注正确率 ,从利用词语相关的语法属性和加强对未知词的处理两个方面加以改进 ,提高了标注性能 .封闭测试和开放测试的正确率分别达到 96.5%和 96% . 展开更多
关键词 词性标注 n元语法 汉语词性 自然语言处理
下载PDF
基于改进互信息和邻接熵的微博新词发现方法 被引量:24
4
作者 夭荣朋 许国艳 宋健 《计算机应用》 CSCD 北大核心 2016年第10期2772-2776,共5页
针对目前微博新词发现算法中的数据稀疏、可移植性较差以及缺乏对多字词(大于三字)识别的问题,提出了基于改进互信息(MI)和邻接熵(BE)的微博新词发现算法——MBN-Gram。首先,利用N元递增算法(N-Gram)提取新词的候选项,对提取出来的候选... 针对目前微博新词发现算法中的数据稀疏、可移植性较差以及缺乏对多字词(大于三字)识别的问题,提出了基于改进互信息(MI)和邻接熵(BE)的微博新词发现算法——MBN-Gram。首先,利用N元递增算法(N-Gram)提取新词的候选项,对提取出来的候选新词使用频率和停用字等规则进行过滤;接着再利用改进MI和BE对候选项进行扩展及再过滤;最后,结合相应词典进行筛选,从而得到新词。通过理论及实验分析,MBN-Gram算法在准确率、召回率及F值上均有一定提高。实验结果表明,MBN-Gram算法是有效可行的。 展开更多
关键词 新词发现 多字词 n-gram 互信息 邻接熵
下载PDF
一种基于N-Gram改进的文本特征提取算法 被引量:17
5
作者 于津凯 王映雪 陈怀楚 《图书情报工作》 CSSCI 北大核心 2004年第8期48-50,43,共4页
介绍一种改进的文本特征提取及匹配算法。该算法基于N-Gram算法思路进行文本处理和特征提取,设计了gram关联矩阵用于统计与合并特征词,从而在固定长度N-Gram算法的基础上能够提取出不同长度的特征词。实验证明,该特征提取算法能够更为... 介绍一种改进的文本特征提取及匹配算法。该算法基于N-Gram算法思路进行文本处理和特征提取,设计了gram关联矩阵用于统计与合并特征词,从而在固定长度N-Gram算法的基础上能够提取出不同长度的特征词。实验证明,该特征提取算法能够更为准确地描述文本特征,可应用于文本检索、Web挖掘等信息处理领域。 展开更多
关键词 文本特征提取 n-gram 算法 gram关联矩阵
原文传递
一种基于N-Gram技术的中文文献自动分类方法 被引量:18
6
作者 何浩 杨海棠 《情报学报》 CSSCI 北大核心 2002年第4期421-427,共7页
本文介绍一种基于n gram技术的、与语言无关的文献分类方法K meansaxiales (KMA) ,及其在中文文献自动分类中的应用。这种方法将文献转换成由n gram(n个连续的字符 )频次构成的向量。为压缩存储空间、提高处理速度 ,我们运用哈希函数将n... 本文介绍一种基于n gram技术的、与语言无关的文献分类方法K meansaxiales (KMA) ,及其在中文文献自动分类中的应用。这种方法将文献转换成由n gram(n个连续的字符 )频次构成的向量。为压缩存储空间、提高处理速度 ,我们运用哈希函数将n gram映射为哈希码 ,对文献的分析实际上以哈希码频次为基础运行。采用KMA算法 ,我们对一个中文数据库进行了自动分类的实验研究 ,在比较实验结果的基础上 ,我们对KMA算法初始参数的选择进行了初步探讨。 展开更多
关键词 n-gram 汉字切分 哈密码 文献向量 KMA 自动分类 文献分类
下载PDF
一种语句级汉字输入技术的研究 被引量:14
7
作者 徐志明 王晓龙 姜守旭 《高技术通讯》 EI CAS CSCD 2000年第1期51-55,共5页
提出了一种语句级汉字输入技术,把Ngram统计语言模型与语言规则结合起来共同指导拼音流到文字流的转换过程。描述了拼音流自动切分、词网格生成、最优语句候选搜索和系统的自适应学习机制等技术。该语句级汉字输入技术的音字转换正确率... 提出了一种语句级汉字输入技术,把Ngram统计语言模型与语言规则结合起来共同指导拼音流到文字流的转换过程。描述了拼音流自动切分、词网格生成、最优语句候选搜索和系统的自适应学习机制等技术。该语句级汉字输入技术的音字转换正确率达9028%,目前它已用于Microsoft公司的微软拼音输入法中。 展开更多
关键词 词句级 n-gram 音字转换 语言元素 汉字输入技术
下载PDF
基于标记的规则统计模型与未登录词识别算法 被引量:13
8
作者 苏菲 王丹力 戴国忠 《计算机工程与应用》 CSCD 北大核心 2004年第15期43-45,91,共4页
该文针对小型词库,提出了基于规则统计模型的消歧方法和识别未登录词的词加权算法。通过大量语料库学习获取歧义高频字,作为歧义标记,利用规则统计模型对标记的上下文信息分类处理,剩下的部分进行正向或逆向动态最大匹配,对连续单字串... 该文针对小型词库,提出了基于规则统计模型的消歧方法和识别未登录词的词加权算法。通过大量语料库学习获取歧义高频字,作为歧义标记,利用规则统计模型对标记的上下文信息分类处理,剩下的部分进行正向或逆向动态最大匹配,对连续单字串使用词加权算法来判断其是否为未登录多字词。经过实验测试,该系统的准确率为98.88%,召回率为98.32%。 展开更多
关键词 歧义标记 规则统计模型 n元语法 词加权算法
下载PDF
基于最大匹配算法的似然导向中文分词方法 被引量:17
9
作者 杨贵军 徐雪 +1 位作者 凤丽洲 徐玉慧 《统计与信息论坛》 CSSCI 北大核心 2019年第3期18-23,共6页
综合基于规则的分词方法与基于统计的分词方法在分词效果上的优势,提出一种基于最大匹配算法的似然导向中文分词方法。新方法在分词阶段,将训练数据的统计信息融入到基于规则的最大匹配分词算法中,并根据共现性自动识别后续词;在判定阶... 综合基于规则的分词方法与基于统计的分词方法在分词效果上的优势,提出一种基于最大匹配算法的似然导向中文分词方法。新方法在分词阶段,将训练数据的统计信息融入到基于规则的最大匹配分词算法中,并根据共现性自动识别后续词;在判定阶段,利用具有马尔可夫性的n-gram模型对分词阶段获得的多组分词模式进行判定,并基于最大似然原理确定最优的分词模式以提高分词准确率。实验结果表明,新方法有效提高了分词准确率和召回率,适用于中文文本信息挖掘。 展开更多
关键词 中文分词 n-gram 最大匹配 似然导向
下载PDF
Maldetect:基于Dalvik指令抽象的Android恶意代码检测系统 被引量:15
10
作者 陈铁明 杨益敏 陈波 《计算机研究与发展》 EI CSCD 北大核心 2016年第10期2299-2306,共8页
提出了一个Android恶意代码的静态检测系统Maldetect,首先采用逆向工程将DEX文件转化为Dalvik指令并对其进行简化抽象,再将抽象后的指令序列进行N-Gram编码作为样本训练,最后利用机器学习算法创建分类检测模型,并通过对分类算法与N-Gra... 提出了一个Android恶意代码的静态检测系统Maldetect,首先采用逆向工程将DEX文件转化为Dalvik指令并对其进行简化抽象,再将抽象后的指令序列进行N-Gram编码作为样本训练,最后利用机器学习算法创建分类检测模型,并通过对分类算法与N-Gram序列的组合分析,提出了基于3-Gram和随机森林的优选检测方法.通过4 000个Android恶意应用样本与专业反毒软件进行的检测对比实验,表明Maldetect可更有效地进行Android恶意代码检测与分类,且获得较高的检测率. 展开更多
关键词 恶意代码 安卓 Dalvik指令 n-gram 机器学习
下载PDF
汉语词性标注方法的研究 被引量:6
11
作者 魏欧 孙玉芳 《计算机科学》 CSCD 北大核心 2000年第7期71-75,共5页
1 引言自然语言中,表达意义的符号(词)往往在各个层面上有歧义。在句法层面上,一个词可以兼好几种词性;在语义层面上,一个词可能有多个义项。词性歧义是由语言中的兼类词,即具有不止一个词性特征的词所引起的,只有在一定的上下文语境关... 1 引言自然语言中,表达意义的符号(词)往往在各个层面上有歧义。在句法层面上,一个词可以兼好几种词性;在语义层面上,一个词可能有多个义项。词性歧义是由语言中的兼类词,即具有不止一个词性特征的词所引起的,只有在一定的上下文语境关系中。 展开更多
关键词 汉语词性标注 自然语言处理 知识库
下载PDF
DGA恶意域名检测方法 被引量:13
12
作者 蒋鸿玲 戴俊伟 《北京信息科技大学学报(自然科学版)》 2019年第5期45-50,共6页
针对目前DGA(domain generation algorithm)恶意域名检测方法计算量较大、检测精确率不高等问题,提出了DGA恶意域名检测框架。首先对域名的字符统计特征和N-Gram模型特征进行分析,提取出区分度大的域名特征组合;然后利用正常域名和DGA... 针对目前DGA(domain generation algorithm)恶意域名检测方法计算量较大、检测精确率不高等问题,提出了DGA恶意域名检测框架。首先对域名的字符统计特征和N-Gram模型特征进行分析,提取出区分度大的域名特征组合;然后利用正常域名和DGA恶意域名数据集训练不同的机器学习模型,如朴素贝叶斯、多层感知器和XGBoost(extreme gradient boosting)模型,再用训练好的模型检测恶意域名。实验结果表明,采用域名的N-Gram模型特征的精确率和召回率都优于统计特征,多层感知器的精确率较高,误报率较低,其AUC(area under curve)值高于朴素贝叶斯和XGBoost模型。 展开更多
关键词 DGA 统计特征 n-gram 朴素贝叶斯 多层感知 极端梯度
下载PDF
使用最大熵模型进行文本分类 被引量:4
13
作者 陈雪天 李荣陆 《计算机工程与应用》 CSCD 北大核心 2004年第35期78-79,195,共3页
最大熵模型是一种在广泛应用于自然语言处理中的概率估计方法。文中使用最大熵模型进行了文本分类的研究。通过实验,将其和Bayes、KNN、SVM三种典型的文本分类器进行了比较,并且考虑了不同特征数目和平滑技术对基于最大熵模型的文本分... 最大熵模型是一种在广泛应用于自然语言处理中的概率估计方法。文中使用最大熵模型进行了文本分类的研究。通过实验,将其和Bayes、KNN、SVM三种典型的文本分类器进行了比较,并且考虑了不同特征数目和平滑技术对基于最大熵模型的文本分类器的影响。结果显示它的分类性能胜于Bayes方法,与KNN和SVM方法相当,表明这是一种非常有前途的文本分类方法。 展开更多
关键词 文本分类 最大熵模型 特征 n-gram
下载PDF
古籍文本抽词研究 被引量:10
14
作者 曾艳 侯汉清 《图书情报工作》 CSSCI 北大核心 2008年第1期132-135,共4页
古籍文本检索目前大多局限于篇、章及目录,即使是全文检索一般也是基于单汉字的检索,由于没有现成的古籍词表可用,古籍文本的标引和检索效率都受到了影响。现将常用于处理现代文本的N元组法移植到古籍文本中进行实义词提取,试验步骤包括... 古籍文本检索目前大多局限于篇、章及目录,即使是全文检索一般也是基于单汉字的检索,由于没有现成的古籍词表可用,古籍文本的标引和检索效率都受到了影响。现将常用于处理现代文本的N元组法移植到古籍文本中进行实义词提取,试验步骤包括:自动分词并统计词频;利用抽词词典和停用词词典得到候选词汇;通过简单计算对n元组进行剔除过滤;人工判别提取实词。试验从古籍文本《齐民要术》中提取普通语词和专有名词(包括书名、地名、人名官职名)3000多个,表明此试验方案基本可行。 展开更多
关键词 古籍数字化 n-gram 自动分词 实义词
原文传递
Gender Prediction on Twitter Using Stream Algorithms with N-Gram Character Features 被引量:10
15
作者 Zachary Miller Brian Dickinson Wei Hu 《International Journal of Intelligence Science》 2012年第4期143-148,共6页
The rapid growth of social networks has produced an unprecedented amount of user-generated data, which provides an excellent opportunity for text mining. Authorship analysis, an important part of text mining, attempts... The rapid growth of social networks has produced an unprecedented amount of user-generated data, which provides an excellent opportunity for text mining. Authorship analysis, an important part of text mining, attempts to learn about the author of the text through subtle variations in the writing styles that occur between gender, age and social groups. Such information has a variety of applications including advertising and law enforcement. One of the most accessible sources of user-generated data is Twitter, which makes the majority of its user data freely available through its data access API. In this study we seek to identify the gender of users on Twitter using Perceptron and Nai ve Bayes with selected 1 through 5-gram features from tweet text. Stream applications of these algorithms were employed for gender prediction to handle the speed and volume of tweet traffic. Because informal text, such as tweets, cannot be easily evaluated using traditional dictionary methods, n-gram features were implemented in this study to represent streaming tweets. The large number of 1 through 5-grams requires that only a subset of them be used in gender classification, for this reason informative n-gram features were chosen using multiple selection algorithms. In the best case the Naive Bayes and Perceptron algorithms produced accuracy, balanced accuracy, and F-measure above 99%. 展开更多
关键词 TWITTER GEnDER Identification STREAM MInInG n-gram Feature Selection TEXT MInInG
下载PDF
一种基于N-gram组合的中文垃圾邮件过滤方法 被引量:5
16
作者 刘新斌 李俊 《微电子学与计算机》 CSCD 北大核心 2004年第12期85-91,共7页
中文垃圾邮件的泛滥提出了极为迫切的技术诉求。本文使用了基于简单贝叶斯模型的过滤算法,同时使用N-gram对中文文本进行自动分词,并且组合多个N-gram来加快分类的收敛速度,这样分类是一种切实可行的垃圾邮件过滤方法。对于这种代价敏感... 中文垃圾邮件的泛滥提出了极为迫切的技术诉求。本文使用了基于简单贝叶斯模型的过滤算法,同时使用N-gram对中文文本进行自动分词,并且组合多个N-gram来加快分类的收敛速度,这样分类是一种切实可行的垃圾邮件过滤方法。对于这种代价敏感性(costsensitive)的分类,通过移动门限值的方法来处理;在评估结果时采用了TCR以及召回率穴SR雪和正确率穴SP雪等参数考察实验数据。实验表明:这种方法代价较小,而正确率较高。最后我们认为可以通过筛选训练邮件以及和其它措施相结合来满足ISP级别等应用场合的要求。 展开更多
关键词 垃圾邮件过滤 n-gram 中文文本 自动分词 ISP 算法 贝叶斯模型 TCR 正确率 召回
下载PDF
基于本体知识库的自动语义标注 被引量:9
17
作者 戚欣 肖敏 孙建鹏 《计算机应用研究》 CSCD 北大核心 2011年第5期1742-1744,1747,共4页
为了产生语义Web中的元数据,需要提取Web文档中的语义信息;面对海量的Web文档,自动语义标注相对人工和半自动的语义标注是可行的方法。提出的基于本体知识库的自动语义标注方法,旨在提高标注的质量。为识别出文档中的候选命名实体,设计... 为了产生语义Web中的元数据,需要提取Web文档中的语义信息;面对海量的Web文档,自动语义标注相对人工和半自动的语义标注是可行的方法。提出的基于本体知识库的自动语义标注方法,旨在提高标注的质量。为识别出文档中的候选命名实体,设计了语义词典的逻辑结构,论述了以实体之间语义关联路径计算语义距离的方法;语义标注中的复杂问题是语义消歧,提出了基于最短路径的语义消歧方法和基于N-gram的语义消歧方法。针对构建的测试数据集,进行的标注实验表明该方法能够依据本体知识库,有效地对Web文档进行自动语义标注。 展开更多
关键词 语义标注 n-gram 语义消歧 有向图 知识库
下载PDF
Automatic malware classification and new malware detection using machine learning 被引量:10
18
作者 Liu LIU Bao-sheng WANG +1 位作者 Bo YU Qiu-xi ZHONG 《Frontiers of Information Technology & Electronic Engineering》 SCIE EI CSCD 2017年第9期1336-1347,共12页
The explosive growth ofmalware variants poses a major threat to information security. Traditional anti-virus systems based on signatures fail to classify unknown malware into their corresponding families and to detect... The explosive growth ofmalware variants poses a major threat to information security. Traditional anti-virus systems based on signatures fail to classify unknown malware into their corresponding families and to detect new kinds of malware pro- grams. Therefore, we propose a machine learning based malware analysis system, which is composed of three modules: data processing, decision making, and new malware detection. The data processing module deals with gray-scale images, Opcode n-gram, and import fimctions, which are employed to extract the features of the malware. The decision-making module uses the features to classify the malware and to identify suspicious malware. Finally, the detection module uses the shared nearest neighbor (SNN) clustering algorithm to discover new malware families. Our approach is evaluated on more than 20 000 malware instances, which were collected by Kingsoft, ESET NOD32, and Anubis. The results show that our system can effectively classify the un- known malware with a best accuracy of 98.9%, and successfully detects 86.7% of the new malware. 展开更多
关键词 Malware classification Machine learning n-gram Gray-scale image Feature extraction Malware detection
原文传递
基于N-Gram的专业领域中文新词识别研究 被引量:10
19
作者 段宇锋 鞠菲 《现代图书情报技术》 CSSCI 北大核心 2012年第2期41-47,共7页
以植物学作为专业领域的样本,对专业领域的新词自动化识别进行探索。研究选取《中国植物志》作为样本集,在ICTCLAS切词的基础上采用N-Gram统计的方法提取新词的候选项,然后分别按照词频(TF)、文档频率(D)和平均词频(TF/D)对新词候选项排... 以植物学作为专业领域的样本,对专业领域的新词自动化识别进行探索。研究选取《中国植物志》作为样本集,在ICTCLAS切词的基础上采用N-Gram统计的方法提取新词的候选项,然后分别按照词频(TF)、文档频率(D)和平均词频(TF/D)对新词候选项排序,取一定范围内的候选项作为识别出的新词。实验结果表明,词频TF筛选新词候选项的识别效果最好,F值为0.65。该方法能够自动产生专业领域的用户词典,具有较强的可移植性。 展开更多
关键词 n-gram 新词识别 词频统计
原文传递
基于聚类和分类的金庸与古龙小说风格分析 被引量:12
20
作者 肖天久 刘颖 《中文信息学报》 CSCD 北大核心 2015年第5期167-177,共11页
该文以金庸与古龙的小说作为语料,从计算风格学的角度考察二人的风格差异。对比了两人小说的文本从众性、句子破碎度,同时,使用文本聚类的方法对词和词类的N元文法,标点符号的N元文法以及多种特征的总体情况进行了考察,还使用主成分分... 该文以金庸与古龙的小说作为语料,从计算风格学的角度考察二人的风格差异。对比了两人小说的文本从众性、句子破碎度,同时,使用文本聚类的方法对词和词类的N元文法,标点符号的N元文法以及多种特征的总体情况进行了考察,还使用主成分分析和文本分类对八种特征从总体上进行了比较,结果证实金庸与古龙小说风格存在较大差异:金庸小说从众性大于古龙,较多使用俚语方言,口语性更强,同时在语法结构、短语结构、文本节奏以及文本可读性和语言变化程度上也有较大的差异。 展开更多
关键词 计算风格学 n元文法 聚类 分类 句子破碎度
下载PDF
上一页 1 2 16 下一页 到第
使用帮助 返回顶部