摘要
针对个人技术博客缺乏深层次的主题挖掘,较少利用文本挖掘或机器学习算法研究其领域方向和演化态势的问题,提出了一种基于LDA模型和社交网络的个人技术博客文本挖掘算法。首先,通过Python抓取CSDN论坛的博客文本;其次,利用LDA模型和层次聚类算法挖掘技术博客的核心主题,揭示其博客创作的演化历程;最后,通过社交网络分析法构建技术博客的主题关系图谱,从而发现其核心主题社交群体。实验结果表明,提出的方法能有效识别出个人技术博客的热点主题,发现核心主题的关系图谱,挖掘主题演化脉络及构建博客画像,具有一定的学术价值。
作者
杨秀璋
武帅
于小民
项美玉
周既松
赵小明
YANG Xiuzhang;WU Shuai;YU Xiaomin;XIANG Meiyu;ZHOU Jisong;ZHAO Xiaoming
出处
《信息技术与信息化》
2021年第6期7-12,共6页
Information Technology and Informatization
基金
贵州省科技计划项目(No.黔科合基础〔2019〕1041,No.黔科合基础〔2020〕1Y279,No.黔科合基础〔2020〕1Y420)
贵州省教育厅青年科技人才成长项目(No.黔教合KY字〔2016〕175,No.黔教合KY字〔2018〕166,No.黔教合KY字〔2021〕135)
贵州财经大学2019年度校级项目(No.2019XQN01)。