-
题名大语言模型引导的文本摘要技术与系统
- 1
-
-
作者
黄君豪
朱锦文
向宗元
李萌坚
毛瑞琛
-
机构
之江实验室
-
出处
《计算机应用》
CSCD
北大核心
2024年第S01期29-33,共5页
-
基金
之江实验室跨媒体智能短视频生成关键技术项目(108001-AC2101)。
-
文摘
在实际业务中时,常面临文本与它对应的其他模态在时间响应上难以同步的问题。例如,数字人实时手语表演无法与新闻口播同步播放。为了解决长度可控问题,提出一种基于大语言模型(LLM)的文本摘要解决方案,旨在保持原文语义不变的前提下将文本压缩至指定长度。首先通过模板调优和人工评估的方式,确定最适合长度可控文本摘要的LLM和模板;在此基础上,利用ChatGPT得到一定量优质的满足长度需求的文本摘要训练样本;其次,结合低秩自适应微调(LoRA)技术,利用生成的数据样本集对选定的大语言模型Baichuan-13B-Chat进行微调。在推理阶段,通过微调后的LLM生成多个结果和文本筛选模块打分,最终得到语义相对完整且长度满足要求的摘要文本。实验结果表明,所提方案在亚运手语新闻数据中指标显著提升,人工评估的平均满意度达到88.53%,整体压缩达标率达到73.7%,基本满足实际生产应用的需求。
-
关键词
文本摘要
长度可控
大语言模型
低秩自适应微调
模板调优
文本筛选
-
Keywords
text summarization
length controllability
Large Language Model(LLM)
Low-Rank Adaptation(LoRA)
prompt tuning
text filtering
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-