期刊文献+

微博内容自动抽取方法研究

Automatically Extracting Microblog Posts From Different Service Platforms
下载PDF
导出
摘要 在采用分类机器学习算法的基础上,提出有效的特征集,实现不同微博平台上内容的自动抽取。根据对微博页面的预处理粒度不同,讨论了token和line两种粒度。在特征选取方面沿用了传统的Text-to-Tag Ratio,并结合微博内容文本的相关特性,提出了Text-to-Text Relation和Post-Social特征。实验结果表明,支持向量机与Text-to-Tag Ratio、Text-to-Text Relation和Post-Social 3个特征相结合的抽取结果最佳。 This paper aims at studying efficient algorithms to extract the microblog posts in a HTML page, based on machine learning algorithm. According to the different granularities of the web page prepossessing, we consider token and line based text blocks. Then in terms of feature selection, we propose the Text-to-Text Relation and Post-Social features that are combined with the traditional Text-to-Tag Ratio feature. Our experimental results show that SVM with the three features has the best performance in terms of precision.
作者 冯海涛 李琳 黄炎一 余小婷 FENG Hai-tao LI Lin HUANG Yan-yi YU Xiao-ting(School of Computer Science and Technology, Wuhan University of Technology, Wuhan 430070, China Air Force Early Warnming Academy, Wuhan 430021, China School of Management, Huazhong University of Science and Technology, Wuhan 430070, China)
出处 《辽宁工业大学学报(自然科学版)》 2017年第1期13-16,共4页 Journal of Liaoning University of Technology(Natural Science Edition)
基金 国家社会科学基金(15BGL048) 国家863计划项目(2015AA015403)
关键词 微博内容抽取 机器学习 特征选择 microblog content extraction machine learning feature selection
  • 相关文献

参考文献9

二级参考文献193

共引文献205

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部