期刊文献+
共找到112篇文章
< 1 2 6 >
每页显示 20 50 100
基于双层决策的新闻网页正文精确抽取 被引量:16
1
作者 胡国平 张巍 王仁华 《中文信息学报》 CSCD 北大核心 2006年第6期1-9,103,共10页
本文提出了基于双层决策的新闻网页正文的精确抽取算法,双层决策是指对新闻网页正文所在区域的全局范围决策和对正文范围内每段文字是否确是正文的局部内容决策。首先根据实际应用的需要给出了新闻网页正文的严格界定,然后分析了新闻网... 本文提出了基于双层决策的新闻网页正文的精确抽取算法,双层决策是指对新闻网页正文所在区域的全局范围决策和对正文范围内每段文字是否确是正文的局部内容决策。首先根据实际应用的需要给出了新闻网页正文的严格界定,然后分析了新闻网页及其正文的特性,提出了基于双层决策的正文抽取策略,基于特征向量提取和决策树学习算法对上述双层决策进行了建模,并在国内10个主要新闻网站的1687个新闻页面上开展了模型训练和测试实验。实验结果表明,上述基于双层决策的方法能够精确地抽取出新闻网页的正文,最终正文抽取与人工标注不完全一致的网页比例仅为18.14%,比单纯局部正文内容决策的方法相对下降了29.85%,同时抽取误差率大于10%的网页比例更是仅为7.11%,满足了实际应用的需要。 展开更多
关键词 计算机应用 中文信息处理 信息抽取 特征向量 决策树 正文抽取
下载PDF
基于标签路径特征融合的在线Web新闻内容抽取 被引量:23
2
作者 吴共庆 胡骏 +4 位作者 李莉 徐喆昊 刘鹏程 胡学钢 吴信东 《软件学报》 EI CSCD 北大核心 2016年第3期714-735,共22页
精准地抽取新闻网页的内容,是提高Web新闻分析等应用系统工作质量的关键技术之一.由于缺少Web新闻出版的标准,存在大量不同的出版格式,并且Web本身是一种具有高度异构性的大数据载体,导致Web新闻内容抽取成为一个开放性问题.经大量实例... 精准地抽取新闻网页的内容,是提高Web新闻分析等应用系统工作质量的关键技术之一.由于缺少Web新闻出版的标准,存在大量不同的出版格式,并且Web本身是一种具有高度异构性的大数据载体,导致Web新闻内容抽取成为一个开放性问题.经大量实例分析发现,新闻网页内容与其上的标签路径存在潜在的关联性.因此,设计了标签路径特征系,以从不同视角区分网页内容和噪音.在特征相似性分析的基础上,提出了一种基于组合特征选择的特征融合策略,并设计了基于融合特征的Web新闻内容抽取方法 CEPF.CEPF是一种快速的通用、无需训练的在线Web新闻内容抽取算法,可抽取多种来源、多种风格、多种语言的Web新闻网页.在Clean Eval等测试数据集上的实验结果表明,CEPF方法优于CETR等抽取方法. 展开更多
关键词 内容抽取 WEB新闻 标签路径特征 组合特征选择 特征融合
下载PDF
基于统计与正文特征的中文网页正文抽取研究 被引量:16
3
作者 周佳颖 朱珍民 高晓芳 《中文信息学报》 CSCD 北大核心 2009年第5期80-85,共6页
该文提出了一种基于统计与正文特征的网页正文抽取方法。该方法继承了统计方法的优点,同时利用正文特征克服了原有基于统计的方法无法抽取多正文体网页的缺陷。源于多正文体在网页的DOM树中对应着正文区域下的多棵具有相似特征的正文子... 该文提出了一种基于统计与正文特征的网页正文抽取方法。该方法继承了统计方法的优点,同时利用正文特征克服了原有基于统计的方法无法抽取多正文体网页的缺陷。源于多正文体在网页的DOM树中对应着正文区域下的多棵具有相似特征的正文子树,该文首先基于统计的方法获取一条正文路径,然后学习该路径的正文特征识别正文区域和子树主干,最后根据区域及该主干具有的正文特征进而得到完整的正文。实验表明该方法抽取单正文和多正文的精确率分别为94%和91%。 展开更多
关键词 计算机应用 中文信息处理 正文抽取 单正文体 多正文体
下载PDF
结合网页结构与文本特征的正文提取方法 被引量:15
4
作者 熊忠阳 蔺显强 +1 位作者 张玉芳 牙漫 《计算机工程》 CAS CSCD 2013年第12期200-203,210,共5页
网页中存在正文信息以及与正文无关的信息,无关信息的存在对Web页面的分类、存储及检索等带来负面的影响。为降低无关信息的影响,从网页的结构特征和文本特征出发,提出一种结合网页结构特征与文本特征的正文提取方法。通过正则表达式去... 网页中存在正文信息以及与正文无关的信息,无关信息的存在对Web页面的分类、存储及检索等带来负面的影响。为降低无关信息的影响,从网页的结构特征和文本特征出发,提出一种结合网页结构特征与文本特征的正文提取方法。通过正则表达式去除网页中的无关元素,完成对网页的初次过滤。根据网页的结构特征对网页进行线性分块,依据各个块的文本特征将其区分为链接块与文本块,并利用噪音块连续出现的结果完成对正文部分的定位,得到网页正文信息。实验结果表明,该方法能够快速准确地提取网页的正文内容。 展开更多
关键词 正文提取 网页去噪 网页分块 主题爬行 信息检索 WEB挖掘
下载PDF
基于文本密度模型的Web正文抽取 被引量:13
5
作者 朱泽德 李淼 +2 位作者 张健 陈雷 曾新华 《模式识别与人工智能》 EI CSCD 北大核心 2013年第7期667-672,共6页
为从大量无关信息中获取有用内容,正文抽取成为Web数据应用不可或缺的组成部分.文中提出一种基于文本密度模型的新闻网页正文抽取方法.主要通过融合网页结构和语言特征的统计模型,将网页文档按文本行转化成正、负密度序列,再根据邻近行... 为从大量无关信息中获取有用内容,正文抽取成为Web数据应用不可或缺的组成部分.文中提出一种基于文本密度模型的新闻网页正文抽取方法.主要通过融合网页结构和语言特征的统计模型,将网页文档按文本行转化成正、负密度序列,再根据邻近行的内容连续性,利用高斯平滑技术修正文本密度序列,最后采用改进的最大子序列分割序列抽取正文内容.该方法保持正文完整性并排除噪声干扰,且无需人工干预或反复训练.实验结果表明基于文本密度抽取正文对不同数据源具有广泛的适应性,且准确率和召回率优于现有统计模型. 展开更多
关键词 WEB挖掘 正文抽取 文本密度 高斯平滑 最大子序列
下载PDF
含有位置坐标树的Web页面分析和内容提取框架 被引量:8
6
作者 封化民 刘飚 +2 位作者 刘艳敏 方勇 宋国森 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2005年第S1期1767-1771,共5页
随着In ternet的发展,W eb上信息呈爆炸式增长趋势,呈现方式也愈发多种多样,这就给信息检索、信息提取等计算机处理带来了巨大困难。针对HTM L的半结构化特征和DOM缺乏位置信息的不足,该文提出了一种新型的W eb页面分析和内容提取框架,... 随着In ternet的发展,W eb上信息呈爆炸式增长趋势,呈现方式也愈发多种多样,这就给信息检索、信息提取等计算机处理带来了巨大困难。针对HTM L的半结构化特征和DOM缺乏位置信息的不足,该文提出了一种新型的W eb页面分析和内容提取框架,该框架既包括一种新型的含有位置信息的坐标树模型,还包括能反映空间关系的图模型,将HTM L文档转换为坐标树,并结合位置特征和空间关系对网页进行分析和提取内容。对来自120个网站的5 000个网页进行测试后的结果表明该方法可达到93.78%的准确率。 展开更多
关键词 坐标树 页面结构分析 内容抽取 DOM 启发式规则
原文传递
科技文本中术语细粒度共现关系抽取与可视化分析 被引量:10
7
作者 周萌 陈果 《情报科学》 CSSCI 北大核心 2019年第3期81-87,共7页
【目的/意义】传统共现分析方法应用于文本挖掘时,因关系粒度过粗导致难以有效利用文本内容中的语义关系。本文以武器装备简氏文本为例,提出基于文本内容的细粒度关系抽取和可视化分析方法。【方法/过程】首先,对原始简氏文本进行解析... 【目的/意义】传统共现分析方法应用于文本挖掘时,因关系粒度过粗导致难以有效利用文本内容中的语义关系。本文以武器装备简氏文本为例,提出基于文本内容的细粒度关系抽取和可视化分析方法。【方法/过程】首先,对原始简氏文本进行解析以提取武器装备名称,然后进行共现句子的提取,再扫描这些共现句子中的高频动名词作为候选特征词;随后结合领域专家给出的武器装备细粒度关系词并根据在线同义词典进行特征词的归类和扩展,以确立武器装备细粒度共现关系类型(包括替换、升级改造、配备安装、相似四种)和相应的特征词,并构建具有多种类型边的武器装备细粒度共现网络。【结果/结论】最后,对该网络进行可视化分析,包括:按边类型划分子网络、以节点为中心的武器多维关联分析和武器装备演化分析。细粒度共现网络的构建和分析有助于更全面、具体地揭示该领域的整体、微观知识结构和知识演化情况。 展开更多
关键词 共现分析 细粒度 概念关联 文本挖掘 内容抽取
原文传递
突发事件新闻标题与正文提取方法 被引量:10
8
作者 罗永莲 赵昌垣 《计算机应用》 CSCD 北大核心 2014年第10期2865-2868,2873,共5页
针对突发事件新闻网页语料处理问题,提出了一种基于此类新闻特点与网页标记信息的抽取和定位新闻内容的方法。该方法将网页标记与文本相似度作为机器学习的特征项,利用贝叶斯分类方法提取新闻标题。利用事件新闻的用词稳定性与网页标记... 针对突发事件新闻网页语料处理问题,提出了一种基于此类新闻特点与网页标记信息的抽取和定位新闻内容的方法。该方法将网页标记与文本相似度作为机器学习的特征项,利用贝叶斯分类方法提取新闻标题。利用事件新闻的用词稳定性与网页标记的嵌套特点,减少了文本处理数量,降低了文本向量维数,在此基础上计算向量相似度以定位新闻篇首与篇尾。实验结果表明,该方法抽取标题的准确率达到86.5%,抽取正文的平均准确率在78%以上,能有效抽取新闻内容,且易于实现,对其他网页文本处理中挖掘标记信息与文本自身信息具有一定的借鉴意义。 展开更多
关键词 朴素贝叶斯模型 向量空间模型 突发事件新闻 网页标记 内容提取
下载PDF
基于正文特征及网页结构的主题网页信息抽取 被引量:10
9
作者 段晓丽 王宇 +1 位作者 谷静 刘玮楠 《计算机工程与应用》 CSCD 2012年第30期151-156,共6页
Web正文信息抽取是信息检索、文本挖掘等Web信息处理工作的基础。在统计分析了主题网页的正文特征及结构特征的基础上,提出了一种结合网页正文信息特征及HTML标签特点的主题网页正文信息抽取方法。在将Web页面解析成DOM树的基础上,根据... Web正文信息抽取是信息检索、文本挖掘等Web信息处理工作的基础。在统计分析了主题网页的正文特征及结构特征的基础上,提出了一种结合网页正文信息特征及HTML标签特点的主题网页正文信息抽取方法。在将Web页面解析成DOM树的基础上,根据页面DOM树结构获取正文信息块,分析正文信息块块内噪音信息的特点,去除块内噪音信息。实验证明,这种方法具有很好的准确率及召回率。 展开更多
关键词 正文特征 标签信息 正文抽取
下载PDF
基于权值优化的网页正文内容提取算法 被引量:8
10
作者 吴麒 陈兴蜀 谭骏 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2011年第4期32-37,共6页
目前网页上出现越来越多的广告信息,使得准确抽取网页正文信息变得越来越难.针对这一问题,文中提出了一种基于权值优化的网页正文内容提取算法.该算法首先通过分析网页正文内容的特点,确定主题块的特征属性,得出这些属性的统计特征;然后... 目前网页上出现越来越多的广告信息,使得准确抽取网页正文信息变得越来越难.针对这一问题,文中提出了一种基于权值优化的网页正文内容提取算法.该算法首先通过分析网页正文内容的特点,确定主题块的特征属性,得出这些属性的统计特征;然后,利用各个特征属性具有不同重要性的特点,使用粒子群优化算法对特征权值及阈值进行了优化和确定,使其性能得到进一步的提升;最后通过实验对该方法进行验证.结果表明,与未经权值优化的提取算法相比,在基本维持相同精确率的基础上,该方法可使网页正文内容提取的召回率提升至95.8%. 展开更多
关键词 权值优化 正文内容提取 特征属性 统计特征 准确率 召回率
下载PDF
基于DBSCAN算法的网页正文提取 被引量:6
11
作者 欧阳佳 林丕源 《计算机工程》 CAS CSCD 北大核心 2011年第3期64-66,69,共4页
针对网页正文提取问题,提出一种基于分段因子的方法对网页源文件进行过滤得到纯文本段,将每段看作二维空间中的一个点,利用DBSCAN聚类算法对这些点进行聚类得到正文内容。该方法复杂度低,并且不依赖于网站布局风格,适应性强。对各大国... 针对网页正文提取问题,提出一种基于分段因子的方法对网页源文件进行过滤得到纯文本段,将每段看作二维空间中的一个点,利用DBSCAN聚类算法对这些点进行聚类得到正文内容。该方法复杂度低,并且不依赖于网站布局风格,适应性强。对各大国内外新闻类网站进行实验,结果表明,该方法对中英文新闻类网站的正文提取效果明显,具有较高的平均准确率。 展开更多
关键词 主题爬虫 正文提取 DBSCAN算法 密度
下载PDF
Web News Extraction via Tag Path Feature Fusion Using DS Theory 被引量:4
12
作者 Gong-Qing Wu Lei Li Xindong Wu 《Journal of Computer Science & Technology》 SCIE EI CSCD 2016年第4期661-672,共12页
Contents, layout styles, and parse structures of web news pages differ greatly from one page to another. In addition, the layout style and the parse structure of a web news page may change from time to time. For these... Contents, layout styles, and parse structures of web news pages differ greatly from one page to another. In addition, the layout style and the parse structure of a web news page may change from time to time. For these reasons, how to design features with excellent extraction performances for massive and heterogeneous web news pages is a challenging issue. Our extensive case studies indicate that there is potential relevancy between web content layouts and their tag paths. Inspired by the observation, we design a series of tag path extraction features to extract web news. Because each feature has its own strength, we fuse all those features with the DS (Dempster-Shafer) evidence theory, and then design a content extraction method CEDS. Experimental results on both CleanEval datasets and web news pages selected randomly from well-known websites show that the Fl-score with CEDS is 8.08% and 3.08% higher than existing popular content extraction methods CETR and CEPR-TPR respectively. 展开更多
关键词 content extraction web news tag path extraction feature Dempster-Shafer (DS) theory
原文传递
基于文本块密度和标签路径覆盖率的网页正文抽取 被引量:5
13
作者 刘鹏程 胡骏 吴共庆 《计算机应用研究》 CSCD 北大核心 2018年第6期1645-1650,共6页
大多数网页除了正文信息外,还包括导航、广告和免责声明等噪声信息。为了提高网页正文抽取的准确性,提出了一种基于文本块密度和标签路径覆盖率的抽取方法(CETD-TPC)。结合网页文本块密度特征和标签路径特征的优点,设计了融合两种特征... 大多数网页除了正文信息外,还包括导航、广告和免责声明等噪声信息。为了提高网页正文抽取的准确性,提出了一种基于文本块密度和标签路径覆盖率的抽取方法(CETD-TPC)。结合网页文本块密度特征和标签路径特征的优点,设计了融合两种特征的新特征,利用新特征抽取网页中的最佳文本块,最后,抽取该文本块中的正文内容。该方法有效地解决了网页正文中噪声块信息过滤和短文本难以抽取的问题,且无须训练和人工处理。在Clean Eval数据集和从知名网站上随机选取的新闻网页数据集上的实验结果表明,CETD-TPC方法在不同数据源上均具有很好的适用性,抽取性能优于CETR、CETD和CEPR算法。 展开更多
关键词 正文抽取 文本块密度 标签路径覆盖率 特征融合
下载PDF
基于网页DOM树节点路径相似度的正文抽取 被引量:4
14
作者 潘心宇 陈长福 +1 位作者 刘蓉 王美清 《微型机与应用》 2016年第19期74-77,共4页
由于人工抽取网页信息效率低、成本高,因此根据对大量网页结构的观察,提出基于网页文档对象模型DOM树节点路径相似度的正文抽取方法。依据同网站下的网页结构相同的特点去除网页噪声得到网页的主题内容,然后结合正文节点在DOM树中的路... 由于人工抽取网页信息效率低、成本高,因此根据对大量网页结构的观察,提出基于网页文档对象模型DOM树节点路径相似度的正文抽取方法。依据同网站下的网页结构相同的特点去除网页噪声得到网页的主题内容,然后结合正文节点在DOM树中的路径的相似度抽取正文。通过对不同类型的中文新闻网站上的1 000个网页进行实验,结果表明该方法对于97.6%的网页都能够去除大部分噪声并保持正文内容的完整性,正文抽取结果有93.30%的准确率和95.59%的召回率。所提算法对不同类型的网页都有较好的适应性。 展开更多
关键词 DOM树 信息抽取 HTML标签 网页去噪 正文抽取
下载PDF
基于内容提取的短链接生成算法研究 被引量:4
15
作者 薛富 高一男 《网络安全技术与应用》 2014年第2期114-114,116,共2页
短网址服务通过将较长的目标网址缩短,来方便人们记忆并分享。社交网络尤其是近年来微博的盛行,使短网址服务获得广泛的应用。然而,现在短网址服务同时被不法分子盯上,他们利用短网址来伪装恶意链接,尤其是钓鱼网站链接,利用微博平台进... 短网址服务通过将较长的目标网址缩短,来方便人们记忆并分享。社交网络尤其是近年来微博的盛行,使短网址服务获得广泛的应用。然而,现在短网址服务同时被不法分子盯上,他们利用短网址来伪装恶意链接,尤其是钓鱼网站链接,利用微博平台进行快速传播,最终窃取用户敏感信息甚至诈骗钱财,危害互联网安全。本文提出了一种新的短链接生成算法,通过对链接进行分析并在短网址中插入简短的目的网址内容,使用户在点击链接前能够辨识短网址的链接目标,以达到防范网络钓鱼的目的。 展开更多
关键词 反钓鱼 短网址生成 内容提取
原文传递
一种基于特征符号的网页主题信息抽取方法 被引量:4
16
作者 王舒 朱敏 +2 位作者 张明 牛颢 赵瑜 《计算机应用研究》 CSCD 北大核心 2009年第12期4539-4541,共3页
随着Internet网络的日益普及,W eb上的海量数据给文本挖掘尤其是网页主题提取带来了更多的挑战,现有的文本提取方法在保证高准确率的同时无法满足W eb挖掘方法的通用性。通过对W eb网页结构进行研究,对网页生成树模型进行了改进,找到网... 随着Internet网络的日益普及,W eb上的海量数据给文本挖掘尤其是网页主题提取带来了更多的挑战,现有的文本提取方法在保证高准确率的同时无法满足W eb挖掘方法的通用性。通过对W eb网页结构进行研究,对网页生成树模型进行了改进,找到网页结构的通用规则,提出一种基于特征符号的提取方法CECS(contentextraction characteristic symbols),结合相关度对网页主题内容进行提取。实验证明,所提算法具有很高的准确性和通用性。 展开更多
关键词 生成树模型 特征符号 相关度 主题提取
下载PDF
Web全文检索中间件的设计与应用 被引量:2
17
作者 张维刚 徐永东 +1 位作者 雷小强 何辉 《计算机应用》 CSCD 北大核心 2011年第8期2261-2264,共4页
为了更好地为Web站内检索提供服务,对Web全文检索的关键技术进行了研究,设计并实现了一个用于Web全文检索的中间件。该中间件通过多线程网页爬虫程序来抓取网页;对抓取结果采用基于Bloom-Filter的大规模URL去重算法来进行高效消重;应用... 为了更好地为Web站内检索提供服务,对Web全文检索的关键技术进行了研究,设计并实现了一个用于Web全文检索的中间件。该中间件通过多线程网页爬虫程序来抓取网页;对抓取结果采用基于Bloom-Filter的大规模URL去重算法来进行高效消重;应用所提出的新的基于标签的正文提取方法来进行网页正文提取,实验结果表明该正文提取方法是有效可行的;此外,为了改善用户的搜索体验,该中间件还提供了一些个性化搜索辅助功能。最后,实现了一个完整的博客搜索系统Boso(博搜)来验证中间件的性能,结果说明该中间件是可以投入实际应用的。 展开更多
关键词 Web全文检索 中间件 URL去重 网页标签 正文提取
下载PDF
基于标签样式和密度模型的网页正文自动抽取 被引量:3
18
作者 廖建军 《情报科学》 CSSCI 北大核心 2018年第7期123-129,共7页
【目的/意义】为给数字出版知识服务系统提供高质量的文本语料以供知识抽取,本文提出了基于标签样式和密度模型来抽取网页正文的方法。【方法/过程】该方法先根据标签样式将网页文本进行分块,再根据各块文本内容的文本密度、标点密度、... 【目的/意义】为给数字出版知识服务系统提供高质量的文本语料以供知识抽取,本文提出了基于标签样式和密度模型来抽取网页正文的方法。【方法/过程】该方法先根据标签样式将网页文本进行分块,再根据各块文本内容的文本密度、标点密度、非超链接密度计算出综合密度,最后通过阈值判断抽取出网页中信息含量高的正文。【结果/结论】该方法简单高效无需人工编写规则或训练,能完整地抽取出网页正文。通过随机选取新闻网页进行实验,结果表明该方法能有效地自动抽取网页正文,适用于不同设计风格的网站,而且准确率和召回率优于基于统计的CEPR抽取方法。 展开更多
关键词 正文抽取 标签样式 密度模型 网页分块 信息抽取
原文传递
基于正文相关度的维吾尔网页正文提取 被引量:2
19
作者 王瑞 周喜 李晓 《计算机工程》 CAS CSCD 2012年第21期153-156,160,共5页
网页表达的主要信息通常隐藏在大量无关的结构与文字中,使正文信息不能被迅速获取,影响文本检测的效率。为此,根据维吾尔网页的非规范化编码、论坛型网页较多等特点,提出一种基于正文相关度的正文提取算法,并建立上下文正文密度和节点... 网页表达的主要信息通常隐藏在大量无关的结构与文字中,使正文信息不能被迅速获取,影响文本检测的效率。为此,根据维吾尔网页的非规范化编码、论坛型网页较多等特点,提出一种基于正文相关度的正文提取算法,并建立上下文正文密度和节点间正文比例等数学模型对算法进行改进。对大量维吾尔网页的实验结果表明,该算法具有较好的正文提取正确率和召回率,能够有效地从维吾尔网页中提取到所需的正文信息。 展开更多
关键词 正文提取 正文相关度 信息安全 自然语言处理 正文密度
下载PDF
基于通配符节点话题权重的Web新闻抽取方法 被引量:3
20
作者 张恺航 徐克付 张闯 《计算机工程》 CAS CSCD 北大核心 2019年第4期275-280,共6页
现有Web新闻内容自动抽取方法多数未考虑文本中的话题特征,容易将样式排版与正文相似的噪音文本识别为正文内容。为此,提出基于通配符节点话题权重的抽取方法。将HTML文档解析成DOM树后,匹配DOM树对应的通配符树,并计算每个通配符中的... 现有Web新闻内容自动抽取方法多数未考虑文本中的话题特征,容易将样式排版与正文相似的噪音文本识别为正文内容。为此,提出基于通配符节点话题权重的抽取方法。将HTML文档解析成DOM树后,匹配DOM树对应的通配符树,并计算每个通配符中的话题权重,将高权重话题的通配符节点所覆盖的文本节点识别为正文节点。实验结果表明,与传统新闻抽取方法相比,该方法能降低Web新闻内容边缘噪音文本的错误识别率,抽取的新闻内容准确率更高。 展开更多
关键词 内容抽取 通配符节点 最大相容类 OTSU算法 话题生成
下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部