期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于语义相关度主题爬虫的语料采集方法 被引量:5
1
作者 周昆 王钊 于碧辉 《计算机系统应用》 2019年第5期190-195,共6页
针对特定领域语料采集任务,设计了基于语义相关度主题爬虫的语料采集方法.根据选定的主题词,利用页面描述信息,基于维基百科中文语料训练出的词分布式表示综合HowNet计算页面信息相关度,结合URL的结构信息预测未访问URL链指的页面内容... 针对特定领域语料采集任务,设计了基于语义相关度主题爬虫的语料采集方法.根据选定的主题词,利用页面描述信息,基于维基百科中文语料训练出的词分布式表示综合HowNet计算页面信息相关度,结合URL的结构信息预测未访问URL链指的页面内容与特定领域的相关程度.实验表明,系统能够有效的采集互联网中的党建领域页面内容作为党建领域生语料,在党建领域网站上的平均准确率达到94.87%,在门户网站上的平均准确率达到64.20%. 展开更多
关键词 生语料采集 语义相关度主题爬虫 页面信息相关度 url结构信息
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部