-
题名基于支持向量机的中文极短文本分类模型
被引量:30
- 1
-
-
作者
王杨
许闪闪
李昌
艾世成
张卫东
甄磊
孟丹
-
机构
安徽师范大学计算机与信息学院
-
出处
《计算机应用研究》
CSCD
北大核心
2020年第2期347-350,共4页
-
基金
国家自然科学基金资助项目(61871412)
安徽省自然科学基金资助项目(1808085MF178)
安徽省人文社科基金资助项目(SK2014ZD033,AHSKY2017D42).
-
文摘
为了有效提取极短文本中的关键特征信息,提出了一种基于支持向量机的极短文本分类模型。首先对原数据进行数据清洗并利用jieba分词将清洗过的数据进行处理;再将处理后的数据存入数据库,通过TF-IDF进行文本特征的提取;同时,利用支持向量机对极短文本进行分类。经过1-0检验,验证了模型的有效性。实验以芜湖市社管平台中的9906条极短文本数据作为样本进行算法检验与分析。结果表明在分类准确率方面,该方法相比于朴素贝叶斯、逻辑回归、决策树等传统方法得到有效提高;在误分度与精确度指标上匹配结果更加均衡。
-
关键词
支持向量机
jieba分词
极短文本分类
TF-IDF
-
Keywords
support vector machine(SVM)
jieba segmentation
extremely short text
TF-ID
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
TP181
[自动化与计算机技术—计算机科学与技术]
-
-
题名基于贝叶斯决策的极短文本分类模型
被引量:2
- 2
-
-
作者
张德成
王杨
赵传信
甄磊
李昌
-
机构
蚌埠医学院公共基础学院
安徽师范大学数学计算机科学学院
-
出处
《重庆科技学院学报(自然科学版)》
CAS
2018年第4期82-85,共4页
-
基金
国家自然科学基金项目"面向信息物理融合的可重塑异元嵌入式组件协同建模与验证方法"(61572036)
安徽省高校优秀青年人才基金项目"教学型PACS系统关键技术研究"(2009SQRZ127)
+2 种基金
安徽省自然科学基金项目"面向领域知识图谱构建的隐式文本知识获取及其应用研究"(1808085MF178)
安徽省社科规划项目"‘一带一路’背景下安徽省优势产能云服务推荐方法及应用研究"(AHSKY2017D42)
蚌埠医学院科研基金项目"基于B/S架构PACS的设计研究"(BY0839)
-
文摘
为了有效提取极短文本中的关键特征信息,提出一种基于贝叶斯决策的极短文本分类模型。首先对原数据进行数据清洗并利用Jieba分词对清洗过的数据进行处理;然后利用Kettle工具提取分类所需关键词,并将处理后的数据存入数据库;最后利用贝叶斯决策对极短文本进行分类。通过(1-0)检验,验证模型的有效性。以一批极短文本数据作为样本进行实验,结果显示出该方法能够有效提高匹配效率,误分度与精确度指标的匹配结果更加均衡。
-
关键词
Jieba分词
Kettle工具
极短文本分类
贝叶斯分类
-
Keywords
Jieba segmentation
Kettle tools
extremely short text
Bayesian classification
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于情感倾向和SVM混合极短文本分类模型
被引量:4
- 3
-
-
作者
王鹤琴
王杨
-
机构
安徽警官职业学院信息管理系
安徽师范大学数学计算机科学学院
-
出处
《科技通报》
2018年第8期149-154,共6页
-
基金
国家自然科学基金(No.61572036)
安徽省高校自然科学研究重点项目(No.KJ2016A167)
安徽省高等学校自然科学研究重点项目(No.KJ2017A639)
-
文摘
随着智能终端设备的不断普及,微博、微信等国内最受欢迎的社交平台等富含情感倾向的中英文混合极短文本数据的信息呈爆发式增长。为了有效提取中英文混合极短文本中的情感倾向等关键特征信息,本文提出了一种基于情感倾向和SVM的极短文本分类模型。首先对原数据进行识别并利用kettle、N-Gram模型对数据进行处理;然后利用TF-IDF提取分类所需要的关键词;再将处理后的数据存入词向量集;最后利用SVM对混合极短文本进行分类。经过K-fold交叉验证,检验了模型的有效性。实验以微博等主流社交平台上的6905条极短文本数据作为样本进行实验与分析。结果表明在分类准确率方面,该方法能够有效提高匹配效率;同时在泛化误差与精确度指标上匹配结果更加均衡。
-
关键词
情感倾向
N-GRAM模型
KETTLE
混合极短文本
SVM
-
Keywords
emotional tendency
N-Gram model
kettle
hybrid extremely short text
SVM
-
分类号
TP39
[自动化与计算机技术—计算机应用技术]
-