摘要
互联网上信息浩瀚,但自动提取新闻标题并构建语料库的难度较大。本文自主设计了一个火狐浏览器插件,综合应用了DOM树、XPATH、文件读写、多线程控制等技术实现了VOA网站新闻标题的自动提取,另外利用工具Sele-nium实现了新华网新闻标题的自动提取。在此基础上,自建了2011年1月1日到2014年5月30日期间的VOA英文新闻语料库和新华网中文新闻语料库,并自编高频词提取算法对其进行高频词提取研究,为进一步完成新闻标题高频词解析、中美文化价值观异同比较的研究打下了坚实的基础。
出处
《江苏外语教学研究》
2016年第1期60-63,共4页
Jiangsu Foreign Language Teaching and Research
基金
2013年江苏省教育厅人文社科课题“中美文化价值取向比较及教育策略探讨——基于中美新闻报道标题中高频词的研究”阶段成果(项目编号:2013SJD740004)
2014年东南大学基本科研业务费基金人文社科基础扶持项目课题“中美文化价值取向比较及教育策略探讨——基于中美新闻报道标题中高频词的研究”阶段成果(项目编号:2242014S20094)