期刊导航
期刊开放获取
cqvip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
数据引擎驱动的学术出版大模型——实测检验大规模高质量数据在构建高性能模型中的核心地位
1
作者
薛德军
师庆辉
+6 位作者
毕琰虹
芦筱菲
陈婧
王旭
王海山
耿崇
吴晨
《数字出版研究》
2024年第3期122-132,共11页
在构建高性能大模型时,大规模高质量数据的重要性不容忽视。本研究旨在深入探究这一核心要素,并系统评估其在专业领域中的实际应用效果与潜在价值。本研究基于中国知网大量专业文献,构建了一个包含1316.45亿token的学术资源数据集AcaDS...
在构建高性能大模型时,大规模高质量数据的重要性不容忽视。本研究旨在深入探究这一核心要素,并系统评估其在专业领域中的实际应用效果与潜在价值。本研究基于中国知网大量专业文献,构建了一个包含1316.45亿token的学术资源数据集AcaDS和2700万条指令的下游微调数据集AcaDSI,采用Transformer架构设计并训练了一个70亿参数规模的生成式学术大模型AcaLM-7B。通过实验评测,AcaLM-7B在面向学术研究的6个核心应用场景中获得总积分第一、3个单项第一和2个单项第二,验证了大规模高质量数据资源在构建专业大模型中的核心地位。此外,本研究在数字出版行业具有实际应用价值,有利于提升内容生产效率并优化用户体验。
展开更多
关键词
高质量数据
学术大模型
出版大模型
知网大模型
专业应用场景
模型评测
下载PDF
职称材料
题名
数据引擎驱动的学术出版大模型——实测检验大规模高质量数据在构建高性能模型中的核心地位
1
作者
薛德军
师庆辉
毕琰虹
芦筱菲
陈婧
王旭
王海山
耿崇
吴晨
机构
同方知网数字出版技术股份有限公司
出处
《数字出版研究》
2024年第3期122-132,共11页
基金
国家重点研发计划“面向办案的检察机关法律监督知识融合与智能交互关键技术研究”(项目编号:2020YFC0833003)
国家卓越行动计划“科技期刊数字化运营国际平台服务项目”(项目编号:WKZB1911BJM501173/02)。
文摘
在构建高性能大模型时,大规模高质量数据的重要性不容忽视。本研究旨在深入探究这一核心要素,并系统评估其在专业领域中的实际应用效果与潜在价值。本研究基于中国知网大量专业文献,构建了一个包含1316.45亿token的学术资源数据集AcaDS和2700万条指令的下游微调数据集AcaDSI,采用Transformer架构设计并训练了一个70亿参数规模的生成式学术大模型AcaLM-7B。通过实验评测,AcaLM-7B在面向学术研究的6个核心应用场景中获得总积分第一、3个单项第一和2个单项第二,验证了大规模高质量数据资源在构建专业大模型中的核心地位。此外,本研究在数字出版行业具有实际应用价值,有利于提升内容生产效率并优化用户体验。
关键词
高质量数据
学术大模型
出版大模型
知网大模型
专业应用场景
模型评测
Keywords
High-quality
data
academic
large
model
Publishing
large
model
CNKI
large
model
Professional
application
scenarios
model
evalution
分类号
G230.7 [文化科学]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
数据引擎驱动的学术出版大模型——实测检验大规模高质量数据在构建高性能模型中的核心地位
薛德军
师庆辉
毕琰虹
芦筱菲
陈婧
王旭
王海山
耿崇
吴晨
《数字出版研究》
2024
0
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部