大语言模型能力评价体系构建及问题研究

Construction and Investigation of Evaluation System for Large Language Model Capabilities

下载PDF

导出

摘要 [目的/意义]大语言模型是人工智能领域的一项新型技术,因其强大而专业的能力已应用于多个领域,探究大语言模型能力体系及对大语言模型做出评价有助于其研究与应用。[方法/过程]收集各领域评价大语言模型榜单共20个,基于扎根理论构建大语言模型能力评价体系,选取12个大语言模型对其进行实证分析。[结果/结论]基于人类能力体系构建的大语言模型能力评价体系具有合理性与可行性,现有大语言模型能力评价中存在变量未控制、流程不规范、结果可行性存疑等问题,并给出解决对策,为大语言模型评价提供理论参考。 [Purpose/significance]Large language models represent an emerging technology in the field of artificial intelligence.Due to their powerful and specialized capabilities,they have been applied across various domains.Investigating the capabilities of large language models and evaluating them is beneficial for both research and application.[Method/process]This study collects 20 lists of evaluating large language models from different domains and constructs an evaluation framework for these models based on grounded theory,and empirically analyzes 12 selected large language models.[Result/conclusion]The evaluation system for large language model capabilities built on the basis of human capability system is reasonable and feasible.Current evaluations of large language model capabilities show issues such as uncontrolled variables,non-standardized processes,and doubtful feasibility of results.The study provides solutions to these problems and offers a theoretical reference for the evaluation of large language models.

作者符鹏杨海平 Fu Peng;Yang Haiping(School of Information Management,Nanjing University,Nanjing Jiangsu 210023)

机构地区南京大学信息管理学院

出处《情报探索》 2024年第11期34-40,共7页 Information Research

关键词大语言模型人工智能体系构建扎根理论 large language model artificial intelligence system construction grounded theory

分类号 G202 [文化科学—传播学]

引文网络
相关文献

参考文献10

1赵鑫,窦志成,文继荣.大语言模型时代下的信息检索研究发展趋势[J].中国科学基金,2023,37(5):786-792. 被引量：8
2刘细文,孙蒙鸽,王茜,付芸,王燕鹏,郑新曼.DIKIW逻辑链下GPT大模型对文献情报工作的潜在影响分析[J].图书情报工作,2023,67(21):3-12. 被引量：5
3叶鹰,朱秀珠,魏雪迎,王静静,王婉茹.从ChatGPT爆发到GPT技术革命的启示[J].情报理论与实践,2023,46(6):33-37. 被引量：45
4刘静,郭龙腾.GPT-4对多模态大模型在多模态理解、生成、交互上的启发[J].中国科学基金,2023,37(5):793-802. 被引量：14
5李耕,王梓烁,何相腾,彭宇新.从ChatGPT到多模态大模型:现状与未来[J].中国科学基金,2023,37(5):724-734. 被引量：23
6刘倩倩,刘圣婴,刘炜.图书情报领域大模型的应用模式和数据治理[J].图书馆杂志,2023,42(12):22-35. 被引量：21
7赵浜,曹树金.国内外生成式AI大模型执行情报领域典型任务的测试分析[J].情报资料工作,2023,44(5):6-17. 被引量：20
8郭全中,张金熠.AI向善:AI大模型价值观对齐的内容与实践[J].新闻爱好者,2023(11):19-24. 被引量：9
9吴毅,吴刚,马颂歌.扎根理论的起源、流派与应用方法述评——基于工作场所学习的案例分析[J].远程教育杂志,2016,34(3):32-41. 被引量：197
10孙福胜.马克思恩格斯关于人的能力体系研究探析[J].前沿,2022(5):30-38. 被引量：1

二级参考文献66

1费小冬.扎根理论研究方法论：要素、研究程序和评判标准[J].公共行政评论,2008,1(3):23-43. 被引量：354
2邓凡艳.英汉语言差异与中西思维模式[J].湖南师范大学社会科学学报,1999,28(3):115-119. 被引量：27
3高清海.论哲学科学的对象和体系[J].社会科学战线,1982(1):26-34. 被引量：2
4钱学森.科技情报工作的科学技术[J].情报理论与实践,1983,6(6):3-10. 被引量：38
5叶鹰.智能信息分析的理论基础与技术模型[J].情报学报,2005,24(2):233-236. 被引量：16
6[美]迈尔斯·休伯曼著,张芬芬译.质性资料的分析:方法与实践[M].重庆:重庆大学出版社,2008. 被引量：1
7Crotty,M..The Foundations of Social Research: Meaning and Perspective in the Research Process[M]. London: Sage,1998:4. 被引量：1
8Suddaby, R.. From the editors: what grounded theory is not[J]. Academy of Management Journal, 2006,49(4):633-642. 被引量：1
9Shah, S.K. and Corley, K.G.. Building better theory by bridging the quantitative-qualitative divide[J]. Journal of Management Studies, 2006,43(8):1825-1835. 被引量：1
10Denzin, N. and Lincoln, Y.. Handbook of Qualitative Research[M]. Thousand Oaks, CA: Sage,1994. 被引量：1

共引文献322

1苏春景,焦迎娜,史梅.社会主义核心价值观视阈下高职生价值观的现状及其培育[J].职业技术教育,2021,42(10):60-65. 被引量：5
2陈婉菁,姚刚,芮阅.基于扎根理论的苏北传统村落环境归属感重塑研究[J].中外建筑,2019,0(11):114-117. 被引量：2
3辛如镜,王皓.职教本科学生专业志趣成长机制的扎根分析[J].职业教育,2023(30):12-18.
4张雅妮,徐曼,王懿.我国生成式人工智能发展进展、问题及建议[J].新一代信息技术,2023,6(20):30-33.
5王亮宇,刘英杰.互嵌、割裂与流动:乡村土味短视频中城乡青年的互动结构——基于扎根理论的质化分析[J].新媒体研究,2023,9(3):95-102.
6王若佳,范科鸣,刘智锋,王继民.生成式人工智能环境下用户信息检索式行为研究[J].数据分析与知识发现,2024,8(8):20-30. 被引量：2
7韩朔.《个人信息保护法》对APP隐私政策的影响研究[J].知识管理论坛,2022(6):662-673.
8张婧怡.基于扎根理论的图书馆形象用户感知研究——来自大众点评网用户评论[J].图书馆工作与研究,2021(S01):5-9. 被引量：7
9竭婧,林雪婧.网络欺凌的产生、扩散和消退机制[J].社区心理学研究,2022(2):257-276. 被引量：2
10孙纪磊,何爱霞.继续教育阻断农民贫困代际传递的模型构建及保障路径[J].教育发展研究,2022,42(3):6-14. 被引量：6

1王文娇.基于贪婪算法的俄语字音快速转换方法[J].自动化技术与应用,2022,41(10):77-80.
2贺发明.现代信息技术与地理教学的有效结合[J].中国科技经济新闻数据库教育,2016(8):129-129.
3周鸣爱(编译).AI拐点重塑人类潜力(上)[J].产城,2024(7):74-79.
4包中清.浅谈小学语文课堂中现代信息技术的应用[J].中文科技期刊数据库（全文版）教育科学,2016(12):127-127.
5赵延平.大数据下提升生态风景园林建设水平的有效措施[J].中华传奇（上旬）,2021(16):0182-0183.
6陈士弘.大模型驱动的智能媒资数据平台的设计与实现[J].影视制作,2024,30(11):81-86.
7郑明璐,刘林澍,叶浩生.社会等级的进阶路径及其演化:来自比较研究的启示[J].心理科学进展,2024,32(6):951-964.
8史天运,李国华,代明睿,李文浩,杨涛存.铁路计算机视觉大模型研究[J].铁路计算机应用,2024,33(11):8-16.
9徐向东.道德生物增强与道德认知[J].复印报刊资料（伦理学）,2023(11):69-82.

情报探索

2024年第11期

浏览历史

内容加载中请稍等...

大语言模型能力评价体系构建及问题研究

参考文献10

二级参考文献66

共引文献322

相关作者

相关机构

相关主题

浏览历史