期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
数据引擎驱动的学术出版大模型——实测检验大规模高质量数据在构建高性能模型中的核心地位
1
作者 薛德军 师庆辉 +6 位作者 毕琰虹 芦筱菲 陈婧 王旭 王海山 耿崇 吴晨 《数字出版研究》 2024年第3期122-132,共11页
在构建高性能大模型时,大规模高质量数据的重要性不容忽视。本研究旨在深入探究这一核心要素,并系统评估其在专业领域中的实际应用效果与潜在价值。本研究基于中国知网大量专业文献,构建了一个包含1316.45亿token的学术资源数据集AcaDS... 在构建高性能大模型时,大规模高质量数据的重要性不容忽视。本研究旨在深入探究这一核心要素,并系统评估其在专业领域中的实际应用效果与潜在价值。本研究基于中国知网大量专业文献,构建了一个包含1316.45亿token的学术资源数据集AcaDS和2700万条指令的下游微调数据集AcaDSI,采用Transformer架构设计并训练了一个70亿参数规模的生成式学术大模型AcaLM-7B。通过实验评测,AcaLM-7B在面向学术研究的6个核心应用场景中获得总积分第一、3个单项第一和2个单项第二,验证了大规模高质量数据资源在构建专业大模型中的核心地位。此外,本研究在数字出版行业具有实际应用价值,有利于提升内容生产效率并优化用户体验。 展开更多
关键词 高质量数据 学术大模型 出版大模型 知网大模型 专业应用场景 模型评测
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部