摘要
网络论坛作为一种信息交流的平台蕴含着大量由用户发表的主题信息,目前互联网上出现了越来越多的具有较高信息聚合度的网络论坛,它们分散在互联网的各个角落,形成了新的"信息孤岛"。用户往往需要访问多个网络论坛来获取这些分散的信息。因此,有必要整合这些"信息孤岛"中的信息,为用户提供一个统一的访问接口来获取网络论坛中的信息。该文首先通过设计一种多个论坛爬虫程序来获取多个网络论坛中的帖子,并将这些不同格式的帖子转换成统一格式的XML文件,最后使用Lucene构建了面向多个论坛的搜索引擎,从而满足了用户对多论坛信息获取的需求。
出处
《电脑知识与技术(过刊)》
2012年第3X期1968-1972,共5页
Computer Knowledge and Technology