期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于Bigram的特征词抽取及自动分类方法研究 被引量:5
1
作者 王笑旻 《计算机工程与应用》 CSCD 北大核心 2005年第22期177-179,210,共4页
用计算机信息处理技术实现文本自动分类是计算机自然语言理解学科共同关注的课题。该文提出了一种基于Bigram的无词典的中文文本特征词的抽取方法,并利用互信息概念对得到的特征词进行处理,提高了特征词抽取的准确性。此外,通过采用基... 用计算机信息处理技术实现文本自动分类是计算机自然语言理解学科共同关注的课题。该文提出了一种基于Bigram的无词典的中文文本特征词的抽取方法,并利用互信息概念对得到的特征词进行处理,提高了特征词抽取的准确性。此外,通过采用基于统计学习原理和结构风险最小原则的支持向量机算法对一些文本进行了分类,验证了由所提出的算法得到的特征词的有效性和可行性。 展开更多
关键词 自动文本分类 自动分词 互信息 Bigram
下载PDF
研究中文文本分类技术的辅助平台 被引量:2
2
作者 白若鹞 董渊 +1 位作者 张素琴 徐大伟 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2008年第7期1150-1153,共4页
为方便中文文本分类过程算法研究,阐述中文文本分类的基础技术,提出基于构件的中文文本分类技术研究辅助平台。该平台对大多数分类中使用的算法在中文文本分类中的应用效果进行了研究。实验结果表明:该平台可以通过计算分类器分类准确... 为方便中文文本分类过程算法研究,阐述中文文本分类的基础技术,提出基于构件的中文文本分类技术研究辅助平台。该平台对大多数分类中使用的算法在中文文本分类中的应用效果进行了研究。实验结果表明:该平台可以通过计算分类器分类准确率的宏平均值比较分类算法与特征选择算法的性能,可以评估语料库的可用性,能够用于研究中文分词、特征选择、分类算法等中文文本分类技术问题。 展开更多
关键词 自动文本分类 中文分词 特征选择 分类算法
原文传递
一个基于非法文本用词特征分析的文本分类器 被引量:1
3
作者 李东艳 张永奎 《电脑开发与应用》 2006年第10期2-3,6,共3页
针对互联网中的不健康内容,通过对这类文本中用词特征的形式及出现频率的统计与分析,提出一种基于符号密度计算的特殊的自动识别算法。首先通过对训练文本的统计,得到初始特殊词表作为识别的基础。在进行文本分类时,利用包含两次筛选的... 针对互联网中的不健康内容,通过对这类文本中用词特征的形式及出现频率的统计与分析,提出一种基于符号密度计算的特殊的自动识别算法。首先通过对训练文本的统计,得到初始特殊词表作为识别的基础。在进行文本分类时,利用包含两次筛选的特殊词自动识别算法动态更新特殊词表及其权值,从而将特殊词信息与二分文本分类器相结合,提高对不健康文本的识别精度。结果表明,加入特殊词自动识别及判断,有效地提高了非法文本的识别精度。 展开更多
关键词 特殊词 特征分析 符号密度 自动识别 二分文本分类器
下载PDF
WWW中文信息自动分类方法研究 被引量:9
4
作者 郑家恒 宋文中 《情报学报》 CSSCI 北大核心 2002年第5期532-536,共5页
本文采用一种基于词的归类技术。在类别词专指度的计算中 ,考虑了类别词在语料中的频度、集中度和分布性等因素。根据HTML语言的标记特性 ,应用三维加权分类算法计算类别权值。采用Bayes公式变型 ,计算WWW中文信息文件归类可信度 ,并按... 本文采用一种基于词的归类技术。在类别词专指度的计算中 ,考虑了类别词在语料中的频度、集中度和分布性等因素。根据HTML语言的标记特性 ,应用三维加权分类算法计算类别权值。采用Bayes公式变型 ,计算WWW中文信息文件归类可信度 ,并按可信度最大归类。对 10 8篇试语料进行测试 ,封闭测试的归类正确率为98 1% ,开放测试的正确率为 83 3%。 展开更多
关键词 类别权值 可信度 WWW 中文信息 自动分类 文本自动分类 类别词
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部