-
题名网页信息自动抽取技术的研究
被引量:4
- 1
-
-
作者
胡少荣
孟嗣仪
刘云
张彦超
丁飞
-
机构
北京交通大学网络舆论安全研究中心
-
出处
《铁路计算机应用》
2010年第9期37-40,共4页
-
基金
国家自然科学基金资助项目(60972012)
教育部培育基金项目(707006)
+3 种基金
教育部哲学人文社会科学研究重大课题(08WL1101)
铁道部科技研究开发计划重点课题(2008X019)
北京市教育委员会学科建设与研究生建设项目资助(JXKJD20090001)
通信与信息系统北京市重点实验室资助项目(JSYJD20090001)
-
文摘
在网络舆情分析中,经常要从大量的网页信息中抽取出有用的数据。但一般的网页信息抽取技术都是基于对HTML文档的分析。本文提出网页信息自动抽取的方法,可以滤除网页噪声,快速准确地获取所需要的网页信息。该方法首先将HTML转换为结构化的XML文档,然后结合DOM4J和XPath语言建立网页解析模板库,最后根据模板的抽取规则对网页信息进行抽取。实验证明,该方法具有较高的回召率和查准率。
-
关键词
自动抽取
网页信息
解析模板
XPATH
网络舆情
-
Keywords
automatic extraction
Web information
parser template
XPath
online public opinion
-
分类号
TP39
[自动化与计算机技术—计算机应用技术]
-
-
题名基于解析器树的日志压缩优化方法
被引量:3
- 2
-
-
作者
刘吉强
何嘉豪
张建成
黄学臻
-
机构
北京交通大学计算机与信息技术学院
山东省计算中心
山东正中信息技术股份有限公司
公安部第一研究所
-
出处
《信息网络安全》
CSCD
北大核心
2022年第4期30-39,共10页
-
基金
国家重点研发计划[2020YFB2103800]
中国国家铁路集团有限公司科技研究开发计划[N2020W005]
山东省重大科技创新工程项目[2019JZZY020128]。
-
文摘
信息系统日志数据对安全分析非常重要,随着日志规模与日俱增,高效地进行日志数据存储和审计成为信息系统安全的关键问题之一。日志数据压缩能够减少对日志数据存储的巨大开销,已经成为日志数据领域的研究热点之一。传统的压缩工具、算法在小规模文本的处理上效果较好,但对于信息系统产生的大规模日志数据并不适用。现有日志压缩算法通过提取日志结构的方式实现数据压缩,但对日志数据中数值变量部分的压缩率和压缩速度的提升不明显。文章提出一种基于解析器树的日志压缩优化方法(TOLC),通过解析器构造解析器树,提取相应的日志模板并进行模板压缩,进而对数值变量部分进行编码压缩。文章通过5个不同类型的大型日志数据集对TOLC进行评估,并与其他方法进行比较。实验结果表明,TOLC在所有数据集上都实现了最高的压缩率,且在大型日志数据集中也表现出了很好的压缩速度,整体上表现最优。
-
关键词
解析器树
日志压缩
模板提取
数值编码
压缩率
-
Keywords
parser tree
log compression
template extraction
numerical code
compression ratio
-
分类号
TP309
[自动化与计算机技术—计算机系统结构]
-
-
题名消除C++分析器分析过程中的二义性
- 3
-
-
作者
连舒明
金茂忠
刘超
郭聪宾
-
机构
北京北京航空航天大学计算机学院
-
出处
《微计算机信息》
北大核心
2006年第10X期159-161,共3页
-
基金
国家863高技术项目:2004AA112030
-
文摘
C++语言的文法十分复杂,采用LL(k)或者LR(k)分析方法都面临二义性问题。另外,内联函数分析,名字查找,模板分析,需要采用特殊的方法解决,本文主要阐述了这些问题,并结合实际的分析器JLParser提出了其解决方法。
-
关键词
分析器
二义性
模板
-
Keywords
parser,Ambiguity,template
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名结合有监督广度优先搜索策略的通用垂直爬虫方法
被引量:7
- 4
-
-
作者
高峰
刘震
高辉
-
机构
电子科技大学计算机科学与工程学院
电子科技大学大数据研究中心
-
出处
《计算机工程》
CAS
CSCD
北大核心
2018年第11期289-299,共11页
-
基金
国家自然科学基金(61300018)
-
文摘
垂直爬虫程序无法直接移植到其他网站并且程序设计需要大量人工干预。为此,提出一种高可移植性的通用型垂直爬虫设计方法。自动识别目标主题和目录页面URL,并利用URL聚类生成URL正则表达式过滤器,以解决垂直爬虫中需人工维护初始URL队列的问题。然后,利用正则表达式过滤器和解析路径模板以及有监督的广度优先与网页赋权搜索策略,实现相关页面的精确定位和数据的快速准确提取。实验结果表明,该方法能够对不同网站实现高效、快速、通用的数据爬取。
-
关键词
垂直爬虫
URL聚类
赋权网页
路径模板解析
有监督广度优先搜索策略
-
Keywords
vertical crawler
URL clustering
weighted Web page
parser of the path template
supervised breadth-first search strategy
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名ASN.1分析及BER图形化编解码控件设计与实现
被引量:1
- 5
-
-
作者
周勃
黄俊伟
-
机构
重庆邮电大学移动通信重点实验室
-
出处
《通信技术》
2007年第11期275-276,352,共3页
-
文摘
文中概述了ASN.1的概念、关键技术和应用。对ASN.1语法分析、BER自动编解码系统功能,以及它在网络信令分析系统的应用前景进行了叙述,提出了PDU结构模板概念,分析了控件整体框架及重要模块的处理流程,并对进一步的应用研究及技术难点进行了讨论。
-
关键词
ASN.1
语法分析
PDU结构模板
BER
-
Keywords
ASN. 1
syntax parser
PDU structure template
BER
-
分类号
TP311.52
[自动化与计算机技术—计算机软件与理论]
-