-
题名基于新浪微博的冰雹实况信息提取方法和实用性研究
被引量:1
- 1
-
-
作者
张永瑞
张岳军
田瑞敏
王林
-
机构
山西省气象灾害防御技术中心
山西省气象科学研究所
-
出处
《科技与创新》
2020年第23期18-19,22,共3页
-
基金
山西省气象局科学技术青年课题(编号:SXKQNTC20195648)资助。
-
文摘
通过网络爬虫提取新浪微博的冰雹信息,比较文档频率(DF)、词频-逆向文件频率(TF-IDF)、信息增益(IG)、互信息(MI)、卡方检验(CHI)、类间词频方差(DAC)在SVM支持向量机、NB朴素贝叶斯分类器、KNN K近邻分类器、DT决策树以及Google公司BERT模型分类器的训练测试结果,发现互信息(MI)函数分类排序在朴素贝叶斯(NB)分类器训练的模型在对冰雹降雹事件识别准确率较高,制定了冰雹实况提取规则,并提取出冰雹的时间、地点、大小,与山西109个气象台站2010-02—2020-12的观测资料对比,通过微博提取的冰雹实况信息虽然不能替代气象台站的工作,但是有一定参考性。
-
关键词
网络爬虫
冰雹实况
文本分类
实况提取
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名基于新浪微博的冰雹实况信息挖掘
- 2
-
-
作者
王萍
王贺颖
-
机构
天津大学电气与自动化工程学院
-
出处
《计算机与现代化》
2016年第3期24-29,34,共7页
-
基金
天津市自然科学基金资助项目(14JCYBJC21800)
-
文摘
为更便捷快速地从新浪微博数据中得到准确的冰雹实况信息,设计并实现一个3层次识别系统,即通过网络爬虫技术的含"冰雹"微博的一次识别、基于分类器的降雹事件的二次识别和基于规则的冰雹实况要素的三次识别。为提高降雹事件的识别性能,新增一个用于提取样本特征的评估函数,提出使用多评估函数共同确定特征向量的方法,给出基于3分类器的组合分类方案。测试结果表明,该方法能够将隐含在新浪微博中的降雹事件的89.5%提取出来,误识信息低于13.4%;对冰雹事件中冰雹实况单要素的提取率超过96.0%,误识信息低于8.6%。
-
关键词
微博
冰雹实况
特征提取
文本分类
文本要素识别
网络爬虫
-
Keywords
microblog
hail information
feature extraction
text classification
text elements recognition
Web crawler
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-