期刊导航
期刊开放获取
cqvip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
2
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于大模型的轻量级智能出版知识服务:理论基础与实现路径
被引量:
1
1
作者
许洁
袁小群
+1 位作者
朱瑞
孟繁永
《中国数字出版》
2024年第1期25-35,共11页
以ChatGPT为代表的大型预训练模型(简称大模型)广泛应用于信息抽取、自动摘要、问答、纠错、续写等,为出版行业带来新机遇。然而,由于大模型训练门槛高,出版行业利用大模型存在困难。武汉大学牵头的语义出版与知识服务实验室研发了基于...
以ChatGPT为代表的大型预训练模型(简称大模型)广泛应用于信息抽取、自动摘要、问答、纠错、续写等,为出版行业带来新机遇。然而,由于大模型训练门槛高,出版行业利用大模型存在困难。武汉大学牵头的语义出版与知识服务实验室研发了基于大模型的轻量级智能出版知识服务平台,为出版业低成本、高效率地利用大模型开展知识服务提供了解决方案。该平台采用“大模型+知识检索”和“预训练+微调”两条路径来运用大模型开展智能出版知识服务。实现了真正意义上的低代码、轻量化运行,减少了出版单位的负担,为降本增效、高质量发展提供有效支撑。
展开更多
关键词
大
模型
预训练
智能
出版
知识服务
出版
大
模型
原文传递
数据引擎驱动的学术出版大模型——实测检验大规模高质量数据在构建高性能模型中的核心地位
2
作者
薛德军
师庆辉
+6 位作者
毕琰虹
芦筱菲
陈婧
王旭
王海山
耿崇
吴晨
《数字出版研究》
2024年第3期122-132,共11页
在构建高性能大模型时,大规模高质量数据的重要性不容忽视。本研究旨在深入探究这一核心要素,并系统评估其在专业领域中的实际应用效果与潜在价值。本研究基于中国知网大量专业文献,构建了一个包含1316.45亿token的学术资源数据集AcaDS...
在构建高性能大模型时,大规模高质量数据的重要性不容忽视。本研究旨在深入探究这一核心要素,并系统评估其在专业领域中的实际应用效果与潜在价值。本研究基于中国知网大量专业文献,构建了一个包含1316.45亿token的学术资源数据集AcaDS和2700万条指令的下游微调数据集AcaDSI,采用Transformer架构设计并训练了一个70亿参数规模的生成式学术大模型AcaLM-7B。通过实验评测,AcaLM-7B在面向学术研究的6个核心应用场景中获得总积分第一、3个单项第一和2个单项第二,验证了大规模高质量数据资源在构建专业大模型中的核心地位。此外,本研究在数字出版行业具有实际应用价值,有利于提升内容生产效率并优化用户体验。
展开更多
关键词
高质量数据
学术
大
模型
出版
大
模型
知网
大
模型
专业应用场景
模型
评测
下载PDF
职称材料
题名
基于大模型的轻量级智能出版知识服务:理论基础与实现路径
被引量:
1
1
作者
许洁
袁小群
朱瑞
孟繁永
机构
语义出版与知识服务实验室
武汉大学出版研究院
出处
《中国数字出版》
2024年第1期25-35,共11页
文摘
以ChatGPT为代表的大型预训练模型(简称大模型)广泛应用于信息抽取、自动摘要、问答、纠错、续写等,为出版行业带来新机遇。然而,由于大模型训练门槛高,出版行业利用大模型存在困难。武汉大学牵头的语义出版与知识服务实验室研发了基于大模型的轻量级智能出版知识服务平台,为出版业低成本、高效率地利用大模型开展知识服务提供了解决方案。该平台采用“大模型+知识检索”和“预训练+微调”两条路径来运用大模型开展智能出版知识服务。实现了真正意义上的低代码、轻量化运行,减少了出版单位的负担,为降本增效、高质量发展提供有效支撑。
关键词
大
模型
预训练
智能
出版
知识服务
出版
大
模型
Keywords
Large model
Pre-training
Intelligent publishing
Knowledge services
分类号
TP3 [自动化与计算机技术—计算机科学与技术]
原文传递
题名
数据引擎驱动的学术出版大模型——实测检验大规模高质量数据在构建高性能模型中的核心地位
2
作者
薛德军
师庆辉
毕琰虹
芦筱菲
陈婧
王旭
王海山
耿崇
吴晨
机构
同方知网数字出版技术股份有限公司
出处
《数字出版研究》
2024年第3期122-132,共11页
基金
国家重点研发计划“面向办案的检察机关法律监督知识融合与智能交互关键技术研究”(项目编号:2020YFC0833003)
国家卓越行动计划“科技期刊数字化运营国际平台服务项目”(项目编号:WKZB1911BJM501173/02)。
文摘
在构建高性能大模型时,大规模高质量数据的重要性不容忽视。本研究旨在深入探究这一核心要素,并系统评估其在专业领域中的实际应用效果与潜在价值。本研究基于中国知网大量专业文献,构建了一个包含1316.45亿token的学术资源数据集AcaDS和2700万条指令的下游微调数据集AcaDSI,采用Transformer架构设计并训练了一个70亿参数规模的生成式学术大模型AcaLM-7B。通过实验评测,AcaLM-7B在面向学术研究的6个核心应用场景中获得总积分第一、3个单项第一和2个单项第二,验证了大规模高质量数据资源在构建专业大模型中的核心地位。此外,本研究在数字出版行业具有实际应用价值,有利于提升内容生产效率并优化用户体验。
关键词
高质量数据
学术
大
模型
出版
大
模型
知网
大
模型
专业应用场景
模型
评测
Keywords
High-quality data
Academic large model
Publishing large model
CNKI large model
Professional application scenarios
Model evalution
分类号
G230.7 [文化科学]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于大模型的轻量级智能出版知识服务:理论基础与实现路径
许洁
袁小群
朱瑞
孟繁永
《中国数字出版》
2024
1
原文传递
2
数据引擎驱动的学术出版大模型——实测检验大规模高质量数据在构建高性能模型中的核心地位
薛德军
师庆辉
毕琰虹
芦筱菲
陈婧
王旭
王海山
耿崇
吴晨
《数字出版研究》
2024
0
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部