-
题名基于支持向量机的中文极短文本分类模型
被引量:30
- 1
-
-
作者
王杨
许闪闪
李昌
艾世成
张卫东
甄磊
孟丹
-
机构
安徽师范大学计算机与信息学院
-
出处
《计算机应用研究》
CSCD
北大核心
2020年第2期347-350,共4页
-
基金
国家自然科学基金资助项目(61871412)
安徽省自然科学基金资助项目(1808085MF178)
安徽省人文社科基金资助项目(SK2014ZD033,AHSKY2017D42).
-
文摘
为了有效提取极短文本中的关键特征信息,提出了一种基于支持向量机的极短文本分类模型。首先对原数据进行数据清洗并利用jieba分词将清洗过的数据进行处理;再将处理后的数据存入数据库,通过TF-IDF进行文本特征的提取;同时,利用支持向量机对极短文本进行分类。经过1-0检验,验证了模型的有效性。实验以芜湖市社管平台中的9906条极短文本数据作为样本进行算法检验与分析。结果表明在分类准确率方面,该方法相比于朴素贝叶斯、逻辑回归、决策树等传统方法得到有效提高;在误分度与精确度指标上匹配结果更加均衡。
-
关键词
支持向量机
jieba分词
极短文本分类
TF-IDF
-
Keywords
support vector machine(SVM)
jieba segmentation
extremely short text
TF-ID
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
TP181
[自动化与计算机技术—计算机科学与技术]
-
-
题名基于贝叶斯决策的极短文本分类模型
被引量:2
- 2
-
-
作者
张德成
王杨
赵传信
甄磊
李昌
-
机构
蚌埠医学院公共基础学院
安徽师范大学数学计算机科学学院
-
出处
《重庆科技学院学报(自然科学版)》
CAS
2018年第4期82-85,共4页
-
基金
国家自然科学基金项目"面向信息物理融合的可重塑异元嵌入式组件协同建模与验证方法"(61572036)
安徽省高校优秀青年人才基金项目"教学型PACS系统关键技术研究"(2009SQRZ127)
+2 种基金
安徽省自然科学基金项目"面向领域知识图谱构建的隐式文本知识获取及其应用研究"(1808085MF178)
安徽省社科规划项目"‘一带一路’背景下安徽省优势产能云服务推荐方法及应用研究"(AHSKY2017D42)
蚌埠医学院科研基金项目"基于B/S架构PACS的设计研究"(BY0839)
-
文摘
为了有效提取极短文本中的关键特征信息,提出一种基于贝叶斯决策的极短文本分类模型。首先对原数据进行数据清洗并利用Jieba分词对清洗过的数据进行处理;然后利用Kettle工具提取分类所需关键词,并将处理后的数据存入数据库;最后利用贝叶斯决策对极短文本进行分类。通过(1-0)检验,验证模型的有效性。以一批极短文本数据作为样本进行实验,结果显示出该方法能够有效提高匹配效率,误分度与精确度指标的匹配结果更加均衡。
-
关键词
Jieba分词
Kettle工具
极短文本分类
贝叶斯分类
-
Keywords
Jieba segmentation
Kettle tools
extremely short text
Bayesian classification
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-