期刊导航
期刊开放获取
cqvip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
4
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
改进的中文静态网页新闻正文自动抽取算法
被引量:
2
1
作者
何春辉
王孟然
《东莞理工学院学报》
2018年第5期46-50,共5页
网页新闻正文自动抽取属于信息抽取领域中的重要研究问题,现有基于行块分布进行新闻正文自动抽取的方法对短文本段落的新闻正文抽取效果较差。为了改善这种现状,提出了一种改进的中文静态网页新闻正文自动抽取算法。该方法给出了较好的...
网页新闻正文自动抽取属于信息抽取领域中的重要研究问题,现有基于行块分布进行新闻正文自动抽取的方法对短文本段落的新闻正文抽取效果较差。为了改善这种现状,提出了一种改进的中文静态网页新闻正文自动抽取算法。该方法给出了较好的行块分割策略来构建行块分布函数,并提出使用最长公共子序列作为新闻正文内容起始行块和结束行块的快速定位方法的判别准则。最后在1 000个新闻网页上对算法的性能进行了实验验证,得出新算法的平均抽取准确率为95. 0%,平均召回率为96. 54%,正文平均遗失率为1. 6%,抽取单个网页的平均耗时为0. 13 s。实验结果充分说明了新算法能适应大规模的网页新闻正文自动抽取任务。
展开更多
关键词
行
块
分布
自动抽取
快速定位
最长公共子序列
下载PDF
职称材料
一种DOM树标签路径和行块密度结合的Web信息抽取方法
被引量:
4
2
作者
马晓慧
李泓莹
《智能计算机与应用》
2017年第4期13-16,20,共5页
本文提出了一种标签路径和行块分布函数相结合的信息抽取方法来实现Web页面的信息抽取。该方法将Web页面解析成DOM树,使用视觉特征和标签过滤的规则将树进行剪枝,引入标签路径特征的方法粗略划分出网页的正文内容和噪音内容,最终使用行...
本文提出了一种标签路径和行块分布函数相结合的信息抽取方法来实现Web页面的信息抽取。该方法将Web页面解析成DOM树,使用视觉特征和标签过滤的规则将树进行剪枝,引入标签路径特征的方法粗略划分出网页的正文内容和噪音内容,最终使用行块分布函数的方法进行抽取,获得正文文本。实验结果表明,这种抽取方法有效地防止了正文内容误删及噪音内容漏删的现象,使得提取的正文信息更加准确,准确度达到91%,召回率达到95%,F值达到93%。本算法对于包含过多短文本的网页抽取的准确度还有待提高。
展开更多
关键词
DOM树
视觉特征
标签路径特征
行
块
分布
函数
下载PDF
职称材料
基于标题机器学习的网页分割方法
被引量:
1
3
作者
李进生
乐惠骁
童名文
《计算机科学》
CSCD
北大核心
2018年第B06期583-587,共5页
针对已有网页分割方法都基于文档对象模型实现且实现难度较高的问题,提出了一种采用字符串数据模型实现网页分割的新方法。该方法通过机器学习获取网页标题的特征,利用标题实现网页分割。首先,利用网页行块分布函数和网页标题标签学习...
针对已有网页分割方法都基于文档对象模型实现且实现难度较高的问题,提出了一种采用字符串数据模型实现网页分割的新方法。该方法通过机器学习获取网页标题的特征,利用标题实现网页分割。首先,利用网页行块分布函数和网页标题标签学习得到网页标题特征;然后,基于标题将网页分割成内容块;最后,利用块深度对内容块进行合并,完成网页分割。理论分析与实验结果表明,该方法中的算法具有O(n)的时间复杂度和空间复杂度,该方法对于高校门户、博客日志和资源网站等类型的网页具有较好的分割效果,并且可以用于网页信息管理的多种应用中,具有良好的应用前景。
展开更多
关键词
网页分割
标题
行
块
分布
函数
块
深度
机器学习
下载PDF
职称材料
新闻正文信息在线提取方法研究
4
作者
王年丰
费潇潇
《软件导刊》
2017年第4期9-13,共5页
新闻正文信息提取对信息检索、存储和舆情监测等具有极其重要的意义。为实现新闻信息的正确提取,考虑到DOM等几种技术的优势,结合DOM技术、动态型网页信息抽取技术和行块分布算法等技术优点,重点研究了新闻信息的提取方法,尤其针对动态...
新闻正文信息提取对信息检索、存储和舆情监测等具有极其重要的意义。为实现新闻信息的正确提取,考虑到DOM等几种技术的优势,结合DOM技术、动态型网页信息抽取技术和行块分布算法等技术优点,重点研究了新闻信息的提取方法,尤其针对动态网页的信息提取,设计了一套有效的新闻正文信息提取方法。实验结果表明,该方法能有效实现新闻的正文信息抽取,准确率高,具有一定推广价值。
展开更多
关键词
信息抽取
DOM技术
动态型网页
行
块
分布
算法
下载PDF
职称材料
题名
改进的中文静态网页新闻正文自动抽取算法
被引量:
2
1
作者
何春辉
王孟然
机构
湘潭大学工程训练中心
出处
《东莞理工学院学报》
2018年第5期46-50,共5页
文摘
网页新闻正文自动抽取属于信息抽取领域中的重要研究问题,现有基于行块分布进行新闻正文自动抽取的方法对短文本段落的新闻正文抽取效果较差。为了改善这种现状,提出了一种改进的中文静态网页新闻正文自动抽取算法。该方法给出了较好的行块分割策略来构建行块分布函数,并提出使用最长公共子序列作为新闻正文内容起始行块和结束行块的快速定位方法的判别准则。最后在1 000个新闻网页上对算法的性能进行了实验验证,得出新算法的平均抽取准确率为95. 0%,平均召回率为96. 54%,正文平均遗失率为1. 6%,抽取单个网页的平均耗时为0. 13 s。实验结果充分说明了新算法能适应大规模的网页新闻正文自动抽取任务。
关键词
行
块
分布
自动抽取
快速定位
最长公共子序列
Keywords
block distribution
automatic extraction
rapid positioning
longest common subsequence
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
一种DOM树标签路径和行块密度结合的Web信息抽取方法
被引量:
4
2
作者
马晓慧
李泓莹
机构
山西大学商务学院
出处
《智能计算机与应用》
2017年第4期13-16,20,共5页
基金
山西大学商务学院2016年科研基金(2016008)
文摘
本文提出了一种标签路径和行块分布函数相结合的信息抽取方法来实现Web页面的信息抽取。该方法将Web页面解析成DOM树,使用视觉特征和标签过滤的规则将树进行剪枝,引入标签路径特征的方法粗略划分出网页的正文内容和噪音内容,最终使用行块分布函数的方法进行抽取,获得正文文本。实验结果表明,这种抽取方法有效地防止了正文内容误删及噪音内容漏删的现象,使得提取的正文信息更加准确,准确度达到91%,召回率达到95%,F值达到93%。本算法对于包含过多短文本的网页抽取的准确度还有待提高。
关键词
DOM树
视觉特征
标签路径特征
行
块
分布
函数
Keywords
DOM tree
visual features
label path characteristics
block distribution function
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于标题机器学习的网页分割方法
被引量:
1
3
作者
李进生
乐惠骁
童名文
机构
武汉市广播电视大学现代教育技术中心
华中师范大学教育信息技术学院
出处
《计算机科学》
CSCD
北大核心
2018年第B06期583-587,共5页
基金
教育部人文社科基金资助项目:数字化学习资源无障碍适配决策模型研究(15YJA880062)资助
文摘
针对已有网页分割方法都基于文档对象模型实现且实现难度较高的问题,提出了一种采用字符串数据模型实现网页分割的新方法。该方法通过机器学习获取网页标题的特征,利用标题实现网页分割。首先,利用网页行块分布函数和网页标题标签学习得到网页标题特征;然后,基于标题将网页分割成内容块;最后,利用块深度对内容块进行合并,完成网页分割。理论分析与实验结果表明,该方法中的算法具有O(n)的时间复杂度和空间复杂度,该方法对于高校门户、博客日志和资源网站等类型的网页具有较好的分割效果,并且可以用于网页信息管理的多种应用中,具有良好的应用前景。
关键词
网页分割
标题
行
块
分布
函数
块
深度
机器学习
Keywords
Webpage segmentation
Title
Liner block function
Block depth
Machine learning
分类号
TP37 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
新闻正文信息在线提取方法研究
4
作者
王年丰
费潇潇
机构
华中师范大学物理科学与技术学院
出处
《软件导刊》
2017年第4期9-13,共5页
文摘
新闻正文信息提取对信息检索、存储和舆情监测等具有极其重要的意义。为实现新闻信息的正确提取,考虑到DOM等几种技术的优势,结合DOM技术、动态型网页信息抽取技术和行块分布算法等技术优点,重点研究了新闻信息的提取方法,尤其针对动态网页的信息提取,设计了一套有效的新闻正文信息提取方法。实验结果表明,该方法能有效实现新闻的正文信息抽取,准确率高,具有一定推广价值。
关键词
信息抽取
DOM技术
动态型网页
行
块
分布
算法
分类号
TP301 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
改进的中文静态网页新闻正文自动抽取算法
何春辉
王孟然
《东莞理工学院学报》
2018
2
下载PDF
职称材料
2
一种DOM树标签路径和行块密度结合的Web信息抽取方法
马晓慧
李泓莹
《智能计算机与应用》
2017
4
下载PDF
职称材料
3
基于标题机器学习的网页分割方法
李进生
乐惠骁
童名文
《计算机科学》
CSCD
北大核心
2018
1
下载PDF
职称材料
4
新闻正文信息在线提取方法研究
王年丰
费潇潇
《软件导刊》
2017
0
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部