期刊文献+
共找到16篇文章
< 1 >
每页显示 20 50 100
新浪微博数据挖掘方案 被引量:120
1
作者 廉捷 周欣 +1 位作者 曹伟 刘云 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2011年第10期1300-1305,共6页
随着新浪微博用户群体的增长,新浪微博的数据获取是微博研究首先需要解决的问题。该文提出了基于新浪微博API与基于页面解析的新浪微博数据获取方案。程序逻辑控制API调用方法与频率,获取JSON对象并解析实现高效数据获取。同时将传统的... 随着新浪微博用户群体的增长,新浪微博的数据获取是微博研究首先需要解决的问题。该文提出了基于新浪微博API与基于页面解析的新浪微博数据获取方案。程序逻辑控制API调用方法与频率,获取JSON对象并解析实现高效数据获取。同时将传统的网络爬虫结合网页解析技术结合API同时使用,解决了因API接口开放不完善,且因在返回结果数量上限与调用频率方面的限制,导致不能有效实现新浪微博数据的全面获取的问题。经过实验测试,通过2套方案的结合可以实现新浪微博数据高效全面的获取。 展开更多
关键词 新浪微博 新浪API 数据检索 网页解析
原文传递
支持DOM模板可视化配置的网页抽取方法 被引量:4
2
作者 李健 马延周 《现代计算机》 2018年第7期56-60,共5页
为提高网页采集的效率和精准度,提出一种支持可视化模板配置的抽取方法。此方法通过在目标网页中点选元素的方式,自动生成基于DOM路径的抽取模板。将详细介绍基于DOM路径的抽取原理;研究可视化模板配置的关键技术;并将此方法应用于新闻... 为提高网页采集的效率和精准度,提出一种支持可视化模板配置的抽取方法。此方法通过在目标网页中点选元素的方式,自动生成基于DOM路径的抽取模板。将详细介绍基于DOM路径的抽取原理;研究可视化模板配置的关键技术;并将此方法应用于新闻采集系统,以测试其实用效果。 展开更多
关键词 网络爬虫 网页抽取 DOM模板 可视化配置
下载PDF
Tag-TextRank:一种基于Tag的网页关键词抽取方法 被引量:56
3
作者 李鹏 王斌 +2 位作者 石志伟 崔雅超 李恒训 《计算机研究与发展》 EI CSCD 北大核心 2012年第11期2344-2351,共8页
关键词抽取是从文本中抽取代表性关键词的过程,在文本处理领域中具有重要的应用价值.利用一种近年来受到广泛关注的新的信息源——社会化标签(tag)——来提高网页关键词抽取的质量.通过对Tag数据进行统计分析,发现用户往往对多个在话题... 关键词抽取是从文本中抽取代表性关键词的过程,在文本处理领域中具有重要的应用价值.利用一种近年来受到广泛关注的新的信息源——社会化标签(tag)——来提高网页关键词抽取的质量.通过对Tag数据进行统计分析,发现用户往往对多个在话题上相关的网页使用同样的标签词,一个特定的文档可以通过其标注信息找到相关文档.在此基础上,提出了利用Tag进行关键词抽取的框架,并给出了一种具体的实现方法Tag-TextRank.该方法在TextRank基础上,通过目标文档中的每个Tag引入相关文档来估计词项图的边权重并计算得到词项的重要度,最后将不同Tag下的词项权重计算结果进行融合.在公开语料上的实验表明,Tag-TextRank在各项评价指标上均优于经典的关键词抽取方法TextRank,并具有很好的推广性. 展开更多
关键词 社会化标注 标签 关键词抽取 网页关键词抽取 TextRank
下载PDF
基于可视块的多记录型复杂网页信息提取算法 被引量:13
4
作者 王卫红 梁朝凯 闵勇 《计算机科学》 CSCD 北大核心 2019年第10期63-70,共8页
网页具有丰富的内容和复杂多变的结构,现有的网页信息提取技术解决了单记录型简单页面的信息提取问题,但是对于多记录型复杂页面的信息提取效果往往不佳。文中提出了一种全新的基于可视块的复杂网页信息自动化提取算法(Visual Block Bas... 网页具有丰富的内容和复杂多变的结构,现有的网页信息提取技术解决了单记录型简单页面的信息提取问题,但是对于多记录型复杂页面的信息提取效果往往不佳。文中提出了一种全新的基于可视块的复杂网页信息自动化提取算法(Visual Block Based Information Extraction,VBIE),通过启发式规则构建可视块与可视块树,然后通过区域聚焦、噪声过滤及可视块筛选,实现了对复杂网页中数据记录的提取。该方法摒弃了以往算法对网页结构的特定假设,无需对HTML文档进行任何人工标记,保留了网页的原始结构,且能够在单页面上实现无监督的信息提取。实验结果表明,VBIE的网页信息提取精确度最高可达100%,在主流搜索引擎的结果页面和社区论坛的帖子页面上的F1均值分别为98.5%和96.1%。相比目前方法中在复杂网页上提取效果较好的CMDR方法,VBIE的F1值提高了近16.3%,证明了该方法能够有效解决复杂网页的信息提取问题。 展开更多
关键词 WEB数据抽取 WEB挖掘 数据记录提取 网页数据提取 结构化信息
下载PDF
搜索引擎中基于状态的Ajax动态网页提取研究 被引量:9
5
作者 陈莉莉 张丽 刘正龙 《计算机应用与软件》 CSCD 北大核心 2013年第7期217-220,共4页
Ajax(Asynchronous JavaScript and XML)动态网页的提取是目前搜索引擎研究的热点和难点。在分析已有Ajax动态网页提取方法的局限后,针对使用最广泛的基于DOM(Document Object Model)树的提取方法存在空间浪费和信息丢失的问题,引入状态... Ajax(Asynchronous JavaScript and XML)动态网页的提取是目前搜索引擎研究的热点和难点。在分析已有Ajax动态网页提取方法的局限后,针对使用最广泛的基于DOM(Document Object Model)树的提取方法存在空间浪费和信息丢失的问题,引入状态S的形式化定义,提出基于状态的页面元素、事件与函数绑定关系的提取算法AjaxCrawling,并说明算法提取得到的资源库在搜索引擎中的有效性。通过比较实验,得出AjaxCrawling具有保证提取到的信息的完整性和节约存储空间的优势。 展开更多
关键词 AJAX技术 动态网页 提取 DOM树 状态
下载PDF
基于分块的新闻网页信息抽取算法 被引量:6
6
作者 姬鑫 钟诚 《计算机应用与软件》 CSCD 2015年第4期317-322,共6页
为了更彻底地清洗网页噪音,减少网页噪音对新闻内容抽取准确率的影响,提出基于模板页的相同噪音块清洗方法和基于class属性的同类噪音块和特殊噪音块清洗方法;在此基础上,利用新闻网页在内容布局结构上的特征,提出基于起始块和终止块的... 为了更彻底地清洗网页噪音,减少网页噪音对新闻内容抽取准确率的影响,提出基于模板页的相同噪音块清洗方法和基于class属性的同类噪音块和特殊噪音块清洗方法;在此基础上,利用新闻网页在内容布局结构上的特征,提出基于起始块和终止块的新闻内容抽取方法。实验结果表明,与已有的算法相比,提出的方法抽取准确率更高,能够同时适应正文内容存放在单块和多块的情形,并且有效地解决了正文内容较短时的抽取问题。 展开更多
关键词 网页信息抽取 模板页 分块 相同噪音块 同类噪音块 特殊噪音块
下载PDF
改进的基于本体的Web信息抽取 被引量:6
7
作者 陈雪 梁永全 赵相彬 《计算机应用与软件》 CSCD 北大核心 2013年第7期14-16,42,共4页
针对Web信息抽取主要依据内容进行抽取的思想,通过对基于本体的Web信息抽取技术的分析,在对网页进行预处理的过程中引入网页分块思想。通过网页分块技术准确提取出所需信息的抽取区域,再根据本体抽取规则对得到的抽取区域进行处理,最终... 针对Web信息抽取主要依据内容进行抽取的思想,通过对基于本体的Web信息抽取技术的分析,在对网页进行预处理的过程中引入网页分块思想。通过网页分块技术准确提取出所需信息的抽取区域,再根据本体抽取规则对得到的抽取区域进行处理,最终得到需要的信息。实验验证了改进的基于本体的Web信息抽取算法具有更高的准确率和召回率,具有良好的应用前景。 展开更多
关键词 信息抽取 网页分块 本体 抽取规则 准确率
下载PDF
远程勘验取证分析软件开发与实现 被引量:4
8
作者 朱峰 刘捷 李军 《信息网络安全》 2011年第11期73-74,共2页
远程勘验分析技术是计算机取证技术的一个重要分支,而如何实现自动、智能远程勘验分析目标网站是一项重要研究课题。文章简要介绍了远程勘验取证分析软件"网际无痕特种兵"基本原理和功能,进行了实证性分析并取得了积极的成果。
关键词 计算机应用 网页数据提取 计算机成像 勘验分析
下载PDF
基于语义扩展模型的中文网页关键词抽取 被引量:4
9
作者 汪洋 帅建梅 《计算机工程》 CAS CSCD 2012年第22期163-166,共4页
提出一种基于语义扩展模型、分步骤的无监督关键词抽取方法。选择词语的网页结构特征、词性、词长、TF-IDF值等特征,通过聚类算法抽取候选关键词。根据n-gram语言模型理论,引入邻接变化数等特征构建基于词的语义扩展模型,采用无监督方... 提出一种基于语义扩展模型、分步骤的无监督关键词抽取方法。选择词语的网页结构特征、词性、词长、TF-IDF值等特征,通过聚类算法抽取候选关键词。根据n-gram语言模型理论,引入邻接变化数等特征构建基于词的语义扩展模型,采用无监督方法将候选关键词扩展为关键词串。实验结果表明,该方法能有效改善针对未登录词及短语的抽取结果,提高中文网页关键词抽取结果的质量。 展开更多
关键词 中文网页关键词抽取 语义扩展模型 邻接变化数 聚类算法 n—gram语言模型
下载PDF
基于统计的多文本网站文本内容抽取算法 被引量:2
10
作者 王晴 《安徽电子信息职业技术学院学报》 2021年第4期6-12,共7页
随着互联网的普及,网络数据的增长速度也呈现出井喷的态势。通过搜索引擎获取网络信息,已成为人们获取信息的主要途径,因此,搜索引擎的搜索精度,就成了亟待研究的问题。本文首先研究了文本摘要领域国内外的研究现状,分析了目前该领域的... 随着互联网的普及,网络数据的增长速度也呈现出井喷的态势。通过搜索引擎获取网络信息,已成为人们获取信息的主要途径,因此,搜索引擎的搜索精度,就成了亟待研究的问题。本文首先研究了文本摘要领域国内外的研究现状,分析了目前该领域的研究成果,对各种算法进行了综合分析,然后针对科研网站这类多文本内容的网站,提出了一种基于统计的网站文本信息的抽取算法。该算法利用宽度优先搜索策略爬虫,获取网站的HTML源码,对源码的结构进行分析,将其解析成DOM树,最后再利用基于统计的方法将网站的文本信息抽取出来。通过验证,该算法可以较好地实现用于网站摘要的综合文本的抽取。 展开更多
关键词 自动文本摘要 网页文本抽取 宽度优先搜索 DOM树 ROUGE评价
下载PDF
基于KNN及相关链接的中文网页分类研究 被引量:2
11
作者 金一宁 王华兵 王德峰 《哈尔滨商业大学学报(自然科学版)》 CAS 2011年第2期203-207,共5页
提出了中文网页相关链接提取算法,能够较好地抽取出中文网页中的相关链接,算法的时间复杂性低,准确率和召回率都令人满意.基于向量空间模型,采用KNN对中文网页进行分类,比较了基于网页标题分类、基于网页正文分类,以及将正文与相关链接... 提出了中文网页相关链接提取算法,能够较好地抽取出中文网页中的相关链接,算法的时间复杂性低,准确率和召回率都令人满意.基于向量空间模型,采用KNN对中文网页进行分类,比较了基于网页标题分类、基于网页正文分类,以及将正文与相关链接结合分类、将标题与相关链接结合分类的分类效果,印证了中文网页中相关链接对网页分类具有积极影响的设想,最终分类的准确率达到80%以上. 展开更多
关键词 中文网页分类 网页提取 相关链接 KNN
下载PDF
基于查询意图的中文信息类网页分类研究 被引量:2
12
作者 王晓艳 林昌意 《图书情报工作》 CSSCI 北大核心 2015年第1期113-118,126,共7页
[目的/意义]通过网页分类提高搜索引擎及内容网站的检索性能,根据查询意图分类更精确地满足用户需求。[方法/过程]以信息类中文网页为研究对象,采用人工归纳的方法构建信息类查询意图类目体系,提出根据该类目体系对信息类网页进行分类... [目的/意义]通过网页分类提高搜索引擎及内容网站的检索性能,根据查询意图分类更精确地满足用户需求。[方法/过程]以信息类中文网页为研究对象,采用人工归纳的方法构建信息类查询意图类目体系,提出根据该类目体系对信息类网页进行分类的方法,并通过实验进行验证。[结果/结论]实验结果表明,所提出的方法具有较强的可行性,有助于精确地满足用户信息需求,提高搜索引擎及内容网站的检索性能。 展开更多
关键词 查询意图 网页分类 特征提取 分类模型 搜索导航
原文传递
基于Web文本挖掘的论坛监控系统的设计 被引量:2
13
作者 邓娜娜 朱艺恺 胡文俊 《计算机应用与软件》 CSCD 2009年第12期161-163,共3页
当前BBS论坛日益成为人们通过网络进行信息交换的中心,被越来越多的用户使用。为了营造一个健康的网络环境,从网页抓取、信息抽取到主要的文本挖掘技术中文分词、特征表示和提取、文本分类和聚类等方面进行了详细的介绍,同时阐述了其工... 当前BBS论坛日益成为人们通过网络进行信息交换的中心,被越来越多的用户使用。为了营造一个健康的网络环境,从网页抓取、信息抽取到主要的文本挖掘技术中文分词、特征表示和提取、文本分类和聚类等方面进行了详细的介绍,同时阐述了其工作原理。此系统不仅可以防止恶意言论的传播,还大大节约了人力,极大地提高了工作效率。 展开更多
关键词 网页抓取 信息抽取 中文分词 特征抽取 文本分类 文本聚类
下载PDF
油气行业垂直搜索引擎关键问题解决方案
14
作者 王督 蔡永香 +1 位作者 李博涵 刘远刚 《计算机系统应用》 2018年第12期18-24,共7页
垂直搜索引擎构建是搜索领域的热点问题之一,应用领域广泛.现有的方法一般都只是对垂直搜索引擎构建中的某一个或几个阶段进行优化,且针对不同网站信息的获取往往需要人工配置操作,较为繁琐.本文在深入研究构建垂直搜索引擎技术的基础上... 垂直搜索引擎构建是搜索领域的热点问题之一,应用领域广泛.现有的方法一般都只是对垂直搜索引擎构建中的某一个或几个阶段进行优化,且针对不同网站信息的获取往往需要人工配置操作,较为繁琐.本文在深入研究构建垂直搜索引擎技术的基础上,运用Heritrix、Solr等JAVA开源工具,结合网页正文抽取和完整性词抽取算法,提出了一套自动化构建垂直搜索引擎的方法,对该方法实现各阶段的关键问题展开了研究,并给出相应的优化方案.实践表明,提出的方法与优化方案具有较强的实用性. 展开更多
关键词 垂直搜索引擎 信息爬取 网页正文抽取 完整词抽取 Heritrix和Solr
下载PDF
正则表达式在油价事件网页提取中的应用 被引量:1
15
作者 邵增荣 李英 范体军 《现代图书情报技术》 CSSCI 北大核心 2009年第2期83-88,共6页
利用正则表达式在字符串操作上的优势,实现从不规则含噪页面中对油价事件信息的抓取,指出实现中的难点要点,并验证正则表达式在字符串处理中强大的结构描述能力。
关键词 正则表达式 网页数据抓取 数据清洗 字符串处理
下载PDF
基于RTTI的特殊网页文本提取技术研究
16
作者 刘典型 欧阳柳波 《计算机应用与软件》 CSCD 2010年第9期63-65,共3页
在分析与总结对网页中的文字的提取方法研究的基础上,针对采用脚本限制提取文字的特殊网页,作了深入的研究和分析,提出RTTI运行期类型信息解除限制和过滤干扰码的文字提取方法,使特殊网页文本的提取成为可能,为公安机关进行网络监察取... 在分析与总结对网页中的文字的提取方法研究的基础上,针对采用脚本限制提取文字的特殊网页,作了深入的研究和分析,提出RTTI运行期类型信息解除限制和过滤干扰码的文字提取方法,使特殊网页文本的提取成为可能,为公安机关进行网络监察取证提供了技术支持。 展开更多
关键词 特殊网页 信息提取 RTTI 干扰码 脚本
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部