-
题名图模型框架下的报道性新闻自动摘要方法研究
- 1
-
-
作者
袁琳
孙巍
马晓敏
李周晶
项芮
-
机构
中国农业科学院农业信息研究所
北京夏初科技集团有限公司
农业农村部农业大数据重点实验室
-
出处
《图书情报工作》
CSSCI
北大核心
2024年第17期122-135,共14页
-
基金
国家重点研发计划项目“科技文献内容深度挖掘及智能分析关键技术和软件”(项目编号:2022YFF0711900)
“中国农业科学院基本科研业务经费专项农业科技政策发展动向分析解读”(项目编号:Y2022ZK06)研究成果之一。
-
文摘
[目的/意义]针对现有文本自动摘要形成过程中重要技术节点——图模型框架下摘要知识表达方式中内容语义揭示深度不够的问题,提出报道性新闻自动摘要模型方案,为相关领域利用经过摘要处理后的网页报道性新闻文本数据开展实践研究提供借鉴参考。[方法/过程]利用ETM(Embedded Topic Model)融合词向量的主题模型分析工具,在图模型框架下针对目标摘要句的主题构造环节,加入主题重要度特征和语义相关性特征并重新设计报道性新闻句间统计特征,对报道性新闻文本深层次主题语义信息进行挖掘、过滤,以此初步形成报道性新闻自动摘要抽取模型;后续依据报道性新闻摘要主要功能需求提出摘要主题测度功能量化指标体系,建立测度标准与句子统计特征量化方法的对应关系,以此优化调整提出的报道性新闻自动摘要抽取模型。[结果/结论]利用图模型框架下的报道性新闻自动摘要方法具体选取农业领域科技动态报道性新闻的摘要抽取过程进行实证,建立报道性新闻自动摘要测度标准进一步得到优化后报道性新闻摘要模型方案,结果显示在外部报道性功能及内部ROUGE评价测评综合表现上优于对比方法,可以有效提高报道性新闻自动摘要抽取的准确性。
-
关键词
图模型
报道性新闻自动摘要
嵌入式主题模型
rouge评价
-
Keywords
graph model
automatic summary of reportable news
Embedded Topic Model ETM
rouge evaluation
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于统计的多文本网站文本内容抽取算法
被引量:2
- 2
-
-
作者
王晴
-
机构
徐州开放大学
-
出处
《安徽电子信息职业技术学院学报》
2021年第4期6-12,共7页
-
基金
2019年度江苏开放大学(江苏城市职业学院)“十三五”科研规划课题“基于SPOC的高职混合教学模式探讨”(19TXZC-10)。
-
文摘
随着互联网的普及,网络数据的增长速度也呈现出井喷的态势。通过搜索引擎获取网络信息,已成为人们获取信息的主要途径,因此,搜索引擎的搜索精度,就成了亟待研究的问题。本文首先研究了文本摘要领域国内外的研究现状,分析了目前该领域的研究成果,对各种算法进行了综合分析,然后针对科研网站这类多文本内容的网站,提出了一种基于统计的网站文本信息的抽取算法。该算法利用宽度优先搜索策略爬虫,获取网站的HTML源码,对源码的结构进行分析,将其解析成DOM树,最后再利用基于统计的方法将网站的文本信息抽取出来。通过验证,该算法可以较好地实现用于网站摘要的综合文本的抽取。
-
关键词
自动文本摘要
网页文本抽取
宽度优先搜索
DOM树
rouge评价
-
Keywords
automatic text summarization
webpage text extraction
breadth-first search
DOM tree
rouge evaluation
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-