期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于大模型的轻量级智能出版知识服务:理论基础与实现路径 被引量:1
1
作者 许洁 袁小群 +1 位作者 朱瑞 孟繁永 《中国数字出版》 2024年第1期25-35,共11页
以ChatGPT为代表的大型预训练模型(简称大模型)广泛应用于信息抽取、自动摘要、问答、纠错、续写等,为出版行业带来新机遇。然而,由于大模型训练门槛高,出版行业利用大模型存在困难。武汉大学牵头的语义出版与知识服务实验室研发了基于... 以ChatGPT为代表的大型预训练模型(简称大模型)广泛应用于信息抽取、自动摘要、问答、纠错、续写等,为出版行业带来新机遇。然而,由于大模型训练门槛高,出版行业利用大模型存在困难。武汉大学牵头的语义出版与知识服务实验室研发了基于大模型的轻量级智能出版知识服务平台,为出版业低成本、高效率地利用大模型开展知识服务提供了解决方案。该平台采用“大模型+知识检索”和“预训练+微调”两条路径来运用大模型开展智能出版知识服务。实现了真正意义上的低代码、轻量化运行,减少了出版单位的负担,为降本增效、高质量发展提供有效支撑。 展开更多
关键词 模型 预训练 智能出版 知识服务 出版模型
原文传递
数据引擎驱动的学术出版大模型——实测检验大规模高质量数据在构建高性能模型中的核心地位
2
作者 薛德军 师庆辉 +6 位作者 毕琰虹 芦筱菲 陈婧 王旭 王海山 耿崇 吴晨 《数字出版研究》 2024年第3期122-132,共11页
在构建高性能大模型时,大规模高质量数据的重要性不容忽视。本研究旨在深入探究这一核心要素,并系统评估其在专业领域中的实际应用效果与潜在价值。本研究基于中国知网大量专业文献,构建了一个包含1316.45亿token的学术资源数据集AcaDS... 在构建高性能大模型时,大规模高质量数据的重要性不容忽视。本研究旨在深入探究这一核心要素,并系统评估其在专业领域中的实际应用效果与潜在价值。本研究基于中国知网大量专业文献,构建了一个包含1316.45亿token的学术资源数据集AcaDS和2700万条指令的下游微调数据集AcaDSI,采用Transformer架构设计并训练了一个70亿参数规模的生成式学术大模型AcaLM-7B。通过实验评测,AcaLM-7B在面向学术研究的6个核心应用场景中获得总积分第一、3个单项第一和2个单项第二,验证了大规模高质量数据资源在构建专业大模型中的核心地位。此外,本研究在数字出版行业具有实际应用价值,有利于提升内容生产效率并优化用户体验。 展开更多
关键词 高质量数据 学术模型 出版模型 知网模型 专业应用场景 模型评测
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部