期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于开源LLMs的中文学术文本标题生成研究——以人文社科领域为例
1
作者 吴娜 沈思 王东波 《情报科学》 CSSCI 北大核心 2024年第7期137-145,共9页
[目的/意义]标题作为论文的压缩表示和主旨精髓,在检索、标引等环节中发挥着重要作用。以人文社会科学领域的学术文本标题生成任务为例,为大语言模型在学术文本挖掘中的应用提供参考。[方法/过程]从实证的角度出发,探索当前的开源中文... [目的/意义]标题作为论文的压缩表示和主旨精髓,在检索、标引等环节中发挥着重要作用。以人文社会科学领域的学术文本标题生成任务为例,为大语言模型在学术文本挖掘中的应用提供参考。[方法/过程]从实证的角度出发,探索当前的开源中文大语言模型Qwen-7B在学术文本标题生成任务中的有效性,以及将人文社会科学领域的学术文本数据知识注入开源基座大语言模型的可行性。使用ROUGE和BLUE指标进行词汇级召回率和准确率评分,同时使用ChatGPT智能对话系统进行语句流畅度和语义相关性评分。[结果/结论]研究发现将中文人文社会科学领域的学术文本知识注入Qwen-7B基座模型中并不能有效提升模型在标题生成任务中的能力,开源基座大模型Qwen-7B在中文上的特征和语义学习能力有待进一步增强;LLaMA2-7B模型在中文学术文本标题生成上的能力优于Qwen-7B模型。[创新/局限]基于Qwen-7B模型和人文社会科学领域的学术全文本数据,论证了当前国内的主流开源大语言模型在学术文本标题生成上的应用能力和应用路径,为学术全文本挖掘和组织提供了理论与实践参考。本文使用的对照模型和训练方法受资源限制较为单一,有待进一步拓展以充分地探索大语言模型在学术全文本知识挖掘和组织中的边界。 展开更多
关键词 自然语言处理 标题自动生成 学术文本 大语言模型 ChatGPT
原文传递
中文科技论文标题自动生成系统的设计与实现 被引量:1
2
作者 王宇飞 张智雄 +2 位作者 赵旸 张梦婷 李雪思 《数据分析与知识发现》 CSSCI CSCD 北大核心 2023年第2期61-71,共11页
【目的】设计中文科技论文标题自动生成系统,根据科技论文摘要自动生成论文标题,辅助研究人员进行科技论文标题的写作。【方法】重点解决系统构建过程中涉及的三个关键问题:基于中国科学引文数据库构建大规模训练数据集,为系统提供数据... 【目的】设计中文科技论文标题自动生成系统,根据科技论文摘要自动生成论文标题,辅助研究人员进行科技论文标题的写作。【方法】重点解决系统构建过程中涉及的三个关键问题:基于中国科学引文数据库构建大规模训练数据集,为系统提供数据支撑;基于BERT-UniLM构建标题生成模型,以取得较好的生成效果;基于HTTP设计应用程序接口,以实现系统的开放调用。【结果】初步实现了中文科技论文标题自动生成系统,能够生成较为恰当地反映论文内容的标题。【局限】BERT模型具有最大输入长度限制,对于输入超过长度限制的摘要会自动截断,因此较长摘要的标题生成效果可能会受到影响。【结论】重点从数据、模型、开放调用三个方面设计和实现了中文科技论文标题自动生成系统,为科研人员及文献服务机构提供便捷易用工具,并为其他科技文本进行标题自动生成提供了一种实践路径。 展开更多
关键词 标题自动生成系统 中文科技论文摘要 文本生成任务 BERT-UniLM
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部