期刊导航
期刊开放获取
cqvip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
4
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于Bigram的特征词抽取及自动分类方法研究
被引量:
5
1
作者
王笑旻
《计算机工程与应用》
CSCD
北大核心
2005年第22期177-179,210,共4页
用计算机信息处理技术实现文本自动分类是计算机自然语言理解学科共同关注的课题。该文提出了一种基于Bigram的无词典的中文文本特征词的抽取方法,并利用互信息概念对得到的特征词进行处理,提高了特征词抽取的准确性。此外,通过采用基...
用计算机信息处理技术实现文本自动分类是计算机自然语言理解学科共同关注的课题。该文提出了一种基于Bigram的无词典的中文文本特征词的抽取方法,并利用互信息概念对得到的特征词进行处理,提高了特征词抽取的准确性。此外,通过采用基于统计学习原理和结构风险最小原则的支持向量机算法对一些文本进行了分类,验证了由所提出的算法得到的特征词的有效性和可行性。
展开更多
关键词
自动文本分类
自动分词
互信息
Bigram
下载PDF
职称材料
研究中文文本分类技术的辅助平台
被引量:
2
2
作者
白若鹞
董渊
+1 位作者
张素琴
徐大伟
《清华大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2008年第7期1150-1153,共4页
为方便中文文本分类过程算法研究,阐述中文文本分类的基础技术,提出基于构件的中文文本分类技术研究辅助平台。该平台对大多数分类中使用的算法在中文文本分类中的应用效果进行了研究。实验结果表明:该平台可以通过计算分类器分类准确...
为方便中文文本分类过程算法研究,阐述中文文本分类的基础技术,提出基于构件的中文文本分类技术研究辅助平台。该平台对大多数分类中使用的算法在中文文本分类中的应用效果进行了研究。实验结果表明:该平台可以通过计算分类器分类准确率的宏平均值比较分类算法与特征选择算法的性能,可以评估语料库的可用性,能够用于研究中文分词、特征选择、分类算法等中文文本分类技术问题。
展开更多
关键词
自动文本分类
中文分词
特征选择
分类算法
原文传递
一个基于非法文本用词特征分析的文本分类器
被引量:
1
3
作者
李东艳
张永奎
《电脑开发与应用》
2006年第10期2-3,6,共3页
针对互联网中的不健康内容,通过对这类文本中用词特征的形式及出现频率的统计与分析,提出一种基于符号密度计算的特殊的自动识别算法。首先通过对训练文本的统计,得到初始特殊词表作为识别的基础。在进行文本分类时,利用包含两次筛选的...
针对互联网中的不健康内容,通过对这类文本中用词特征的形式及出现频率的统计与分析,提出一种基于符号密度计算的特殊的自动识别算法。首先通过对训练文本的统计,得到初始特殊词表作为识别的基础。在进行文本分类时,利用包含两次筛选的特殊词自动识别算法动态更新特殊词表及其权值,从而将特殊词信息与二分文本分类器相结合,提高对不健康文本的识别精度。结果表明,加入特殊词自动识别及判断,有效地提高了非法文本的识别精度。
展开更多
关键词
特殊词
特征分析
符号密度
自动识别
二分文本分类器
下载PDF
职称材料
WWW中文信息自动分类方法研究
被引量:
9
4
作者
郑家恒
宋文中
《情报学报》
CSSCI
北大核心
2002年第5期532-536,共5页
本文采用一种基于词的归类技术。在类别词专指度的计算中 ,考虑了类别词在语料中的频度、集中度和分布性等因素。根据HTML语言的标记特性 ,应用三维加权分类算法计算类别权值。采用Bayes公式变型 ,计算WWW中文信息文件归类可信度 ,并按...
本文采用一种基于词的归类技术。在类别词专指度的计算中 ,考虑了类别词在语料中的频度、集中度和分布性等因素。根据HTML语言的标记特性 ,应用三维加权分类算法计算类别权值。采用Bayes公式变型 ,计算WWW中文信息文件归类可信度 ,并按可信度最大归类。对 10 8篇试语料进行测试 ,封闭测试的归类正确率为98 1% ,开放测试的正确率为 83 3%。
展开更多
关键词
类别权值
可信度
WWW
中文信息
自动分类
文本自动分类
类别词
下载PDF
职称材料
题名
基于Bigram的特征词抽取及自动分类方法研究
被引量:
5
1
作者
王笑旻
机构
北京工业大学网络中心
出处
《计算机工程与应用》
CSCD
北大核心
2005年第22期177-179,210,共4页
文摘
用计算机信息处理技术实现文本自动分类是计算机自然语言理解学科共同关注的课题。该文提出了一种基于Bigram的无词典的中文文本特征词的抽取方法,并利用互信息概念对得到的特征词进行处理,提高了特征词抽取的准确性。此外,通过采用基于统计学习原理和结构风险最小原则的支持向量机算法对一些文本进行了分类,验证了由所提出的算法得到的特征词的有效性和可行性。
关键词
自动文本分类
自动分词
互信息
Bigram
Keywords
automatic
text
category
,
automatic
word
acquisition,mutual
information,Bigram
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
研究中文文本分类技术的辅助平台
被引量:
2
2
作者
白若鹞
董渊
张素琴
徐大伟
机构
清华大学计算机科学与技术系
长春大学计算机科学技术学院
出处
《清华大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2008年第7期1150-1153,共4页
基金
国家自然科学基金资助项目(60573017)
国家海洋局数字海洋项目(908-03-01-13)
文摘
为方便中文文本分类过程算法研究,阐述中文文本分类的基础技术,提出基于构件的中文文本分类技术研究辅助平台。该平台对大多数分类中使用的算法在中文文本分类中的应用效果进行了研究。实验结果表明:该平台可以通过计算分类器分类准确率的宏平均值比较分类算法与特征选择算法的性能,可以评估语料库的可用性,能够用于研究中文分词、特征选择、分类算法等中文文本分类技术问题。
关键词
自动文本分类
中文分词
特征选择
分类算法
Keywords
automatic
text
category
chinese
word
segmentation
feature
selection
classification
algorithm
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
原文传递
题名
一个基于非法文本用词特征分析的文本分类器
被引量:
1
3
作者
李东艳
张永奎
机构
大连交通大学
山西大学
出处
《电脑开发与应用》
2006年第10期2-3,6,共3页
基金
国家自然科学基金(60475022)
山西省自然科学基金(20041041)资助
文摘
针对互联网中的不健康内容,通过对这类文本中用词特征的形式及出现频率的统计与分析,提出一种基于符号密度计算的特殊的自动识别算法。首先通过对训练文本的统计,得到初始特殊词表作为识别的基础。在进行文本分类时,利用包含两次筛选的特殊词自动识别算法动态更新特殊词表及其权值,从而将特殊词信息与二分文本分类器相结合,提高对不健康文本的识别精度。结果表明,加入特殊词自动识别及判断,有效地提高了非法文本的识别精度。
关键词
特殊词
特征分析
符号密度
自动识别
二分文本分类器
Keywords
special
words,
character
analysis,
symbol
density,
automatic
identifier
method,
dimidiate
text
category
分类号
TP393 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
WWW中文信息自动分类方法研究
被引量:
9
4
作者
郑家恒
宋文中
机构
山西大学计算机科学系
出处
《情报学报》
CSSCI
北大核心
2002年第5期532-536,共5页
文摘
本文采用一种基于词的归类技术。在类别词专指度的计算中 ,考虑了类别词在语料中的频度、集中度和分布性等因素。根据HTML语言的标记特性 ,应用三维加权分类算法计算类别权值。采用Bayes公式变型 ,计算WWW中文信息文件归类可信度 ,并按可信度最大归类。对 10 8篇试语料进行测试 ,封闭测试的归类正确率为98 1% ,开放测试的正确率为 83 3%。
关键词
类别权值
可信度
WWW
中文信息
自动分类
文本自动分类
类别词
Keywords
WWW,Chinese
information
automatic
categorization,
text
automatic
categorization,
category
-word.
分类号
G254.1 [文化科学—图书馆学]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于Bigram的特征词抽取及自动分类方法研究
王笑旻
《计算机工程与应用》
CSCD
北大核心
2005
5
下载PDF
职称材料
2
研究中文文本分类技术的辅助平台
白若鹞
董渊
张素琴
徐大伟
《清华大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2008
2
原文传递
3
一个基于非法文本用词特征分析的文本分类器
李东艳
张永奎
《电脑开发与应用》
2006
1
下载PDF
职称材料
4
WWW中文信息自动分类方法研究
郑家恒
宋文中
《情报学报》
CSSCI
北大核心
2002
9
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部