期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
网页信息自动抽取技术的研究 被引量:4
1
作者 胡少荣 孟嗣仪 +2 位作者 刘云 张彦超 丁飞 《铁路计算机应用》 2010年第9期37-40,共4页
在网络舆情分析中,经常要从大量的网页信息中抽取出有用的数据。但一般的网页信息抽取技术都是基于对HTML文档的分析。本文提出网页信息自动抽取的方法,可以滤除网页噪声,快速准确地获取所需要的网页信息。该方法首先将HTML转换为结构化... 在网络舆情分析中,经常要从大量的网页信息中抽取出有用的数据。但一般的网页信息抽取技术都是基于对HTML文档的分析。本文提出网页信息自动抽取的方法,可以滤除网页噪声,快速准确地获取所需要的网页信息。该方法首先将HTML转换为结构化的XML文档,然后结合DOM4J和XPath语言建立网页解析模板库,最后根据模板的抽取规则对网页信息进行抽取。实验证明,该方法具有较高的回召率和查准率。 展开更多
关键词 自动抽取 网页信息 解析模板 XPATH 网络舆情
下载PDF
基于解析器树的日志压缩优化方法 被引量:3
2
作者 刘吉强 何嘉豪 +1 位作者 张建成 黄学臻 《信息网络安全》 CSCD 北大核心 2022年第4期30-39,共10页
信息系统日志数据对安全分析非常重要,随着日志规模与日俱增,高效地进行日志数据存储和审计成为信息系统安全的关键问题之一。日志数据压缩能够减少对日志数据存储的巨大开销,已经成为日志数据领域的研究热点之一。传统的压缩工具、算... 信息系统日志数据对安全分析非常重要,随着日志规模与日俱增,高效地进行日志数据存储和审计成为信息系统安全的关键问题之一。日志数据压缩能够减少对日志数据存储的巨大开销,已经成为日志数据领域的研究热点之一。传统的压缩工具、算法在小规模文本的处理上效果较好,但对于信息系统产生的大规模日志数据并不适用。现有日志压缩算法通过提取日志结构的方式实现数据压缩,但对日志数据中数值变量部分的压缩率和压缩速度的提升不明显。文章提出一种基于解析器树的日志压缩优化方法(TOLC),通过解析器构造解析器树,提取相应的日志模板并进行模板压缩,进而对数值变量部分进行编码压缩。文章通过5个不同类型的大型日志数据集对TOLC进行评估,并与其他方法进行比较。实验结果表明,TOLC在所有数据集上都实现了最高的压缩率,且在大型日志数据集中也表现出了很好的压缩速度,整体上表现最优。 展开更多
关键词 解析器树 日志压缩 模板提取 数值编码 压缩率
下载PDF
消除C++分析器分析过程中的二义性
3
作者 连舒明 金茂忠 +1 位作者 刘超 郭聪宾 《微计算机信息》 北大核心 2006年第10X期159-161,共3页
C++语言的文法十分复杂,采用LL(k)或者LR(k)分析方法都面临二义性问题。另外,内联函数分析,名字查找,模板分析,需要采用特殊的方法解决,本文主要阐述了这些问题,并结合实际的分析器JLParser提出了其解决方法。
关键词 分析器 二义性 模板
下载PDF
结合有监督广度优先搜索策略的通用垂直爬虫方法 被引量:7
4
作者 高峰 刘震 高辉 《计算机工程》 CAS CSCD 北大核心 2018年第11期289-299,共11页
垂直爬虫程序无法直接移植到其他网站并且程序设计需要大量人工干预。为此,提出一种高可移植性的通用型垂直爬虫设计方法。自动识别目标主题和目录页面URL,并利用URL聚类生成URL正则表达式过滤器,以解决垂直爬虫中需人工维护初始URL队... 垂直爬虫程序无法直接移植到其他网站并且程序设计需要大量人工干预。为此,提出一种高可移植性的通用型垂直爬虫设计方法。自动识别目标主题和目录页面URL,并利用URL聚类生成URL正则表达式过滤器,以解决垂直爬虫中需人工维护初始URL队列的问题。然后,利用正则表达式过滤器和解析路径模板以及有监督的广度优先与网页赋权搜索策略,实现相关页面的精确定位和数据的快速准确提取。实验结果表明,该方法能够对不同网站实现高效、快速、通用的数据爬取。 展开更多
关键词 垂直爬虫 URL聚类 赋权网页 路径模板解析 有监督广度优先搜索策略
下载PDF
ASN.1分析及BER图形化编解码控件设计与实现 被引量:1
5
作者 周勃 黄俊伟 《通信技术》 2007年第11期275-276,352,共3页
文中概述了ASN.1的概念、关键技术和应用。对ASN.1语法分析、BER自动编解码系统功能,以及它在网络信令分析系统的应用前景进行了叙述,提出了PDU结构模板概念,分析了控件整体框架及重要模块的处理流程,并对进一步的应用研究及技术难点进... 文中概述了ASN.1的概念、关键技术和应用。对ASN.1语法分析、BER自动编解码系统功能,以及它在网络信令分析系统的应用前景进行了叙述,提出了PDU结构模板概念,分析了控件整体框架及重要模块的处理流程,并对进一步的应用研究及技术难点进行了讨论。 展开更多
关键词 ASN.1 语法分析 PDU结构模板 BER
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部