期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于WSFT模型的深层网文本获取方法 被引量:1
1
作者 杨贯中 李虹萱 《计算机工程与应用》 CSCD 北大核心 2017年第18期236-242,共7页
Ajax技术在深层网(Deep Web)网站开发中得到了广泛应用。针对Ajax页面多状态、状态之间强关联的特性,提出一种构建WSFT(带权状态融合树)模型的方法,来进行Ajax页面文本信息预处理。引入了文本特征树作为状态指纹进行状态捕获,优化了当前... Ajax技术在深层网(Deep Web)网站开发中得到了广泛应用。针对Ajax页面多状态、状态之间强关联的特性,提出一种构建WSFT(带权状态融合树)模型的方法,来进行Ajax页面文本信息预处理。引入了文本特征树作为状态指纹进行状态捕获,优化了当前Ajax页面数据采集方法,同时通过StatusRank方法计算状态转移权值来分析状态迁移信息,最后生成WSFT。实验证明,该方法能有效地获取Ajax页面多状态文本信息,并且有助于后续Web挖掘的重要文本内容提取。 展开更多
关键词 Ajax爬虫 带权状态融合 文本挖掘 文本特征
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部