期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
分割一切模型SAM的潜力与展望:综述 被引量:1
1
作者 王淼 黄智忠 +3 位作者 何晖光 卢湖川 单洪明 张军平 《中国图象图形学报》 CSCD 北大核心 2024年第6期1479-1509,共31页
随着基于对比文本—图像对的预训练(contrastive language-image pre-training,CLIP)方法或者模型、聊天生成预训练转换器(chat generative pre-trained Transformer,ChatGPT)、生成预训练转换器-4(generative pre-trained Transformer-... 随着基于对比文本—图像对的预训练(contrastive language-image pre-training,CLIP)方法或者模型、聊天生成预训练转换器(chat generative pre-trained Transformer,ChatGPT)、生成预训练转换器-4(generative pre-trained Transformer-4,GPT-4)等基础大模型的出现,通用人工智能(artificial general intelligence, AGI)的研究得到快速发展。AGI旨在为人工智能系统赋予更强大的执行能力,使其能够自主学习、不断进化,解决各种问题和处理不同的任务,从而在多个领域得到广泛应用。这些基础模型在大规模数据集上进行训练后,能够成功应对多样的下游任务。在这一背景下,Meta公司提出的分割一切模型(segment anything model,SAM)于2023年取得重要突破,在图像分割领域获得了优异的性能,以至于被称为图像分割终结者。其原因之一是,通过SAM数据引擎方法用三阶段采集的、包含1 100万图像和超过10亿掩码的分割一切—十亿(segment anything 1 billion,SA-1B)图像分割数据集,同时保证了掩码的品质和多样性,继续导致在分割领域的突破。在SAM开源后不久,科研人员提出了一系列改进的方法和应用。为了能全面深入了解分割一切模型的发展脉络、优势与不足,本文对SAM的研究进展进行了梳理和综述。首先,从基础模型、数据引擎和数据集等多个方面简要介绍了分割一切模型的背景和核心框架。在此基础上,本文详细梳理了目前分割一切模型的改进方法,包括提高推理速度和增进预测精度两个关键方向。然后,深入探讨分割一切模型在图像处理任务、视频相关任务以及其他领域中的广泛应用。这一部分详细介绍了模型在各种任务和数据类型上的卓越性能,突出其在多个领域的泛用性和发展潜力。最后,对分割一切模型未来的发展方向和潜在应用前景进行了深入分析和讨论。 展开更多
关键词 通用人工智能(AGI) 计算机视觉 图像分割 视觉基础模型 分割一切模型(SAM) 大型语言模型(llm)
原文传递
不同大型语言模型与不同水平医学专业人士回答眼科问题的对比研究
2
作者 黄慧 胡瑾瑜 +7 位作者 王晓宇 叶书苑 吴世楠 陈程 何良琪 曾艳梅 魏红 邵毅 《国际眼科杂志》 CAS 2024年第3期458-462,共5页
目的:评估3种不同的大型语言模型(LLM,包括GPT-3.5、GPT-4和PaLM2)在回答眼科专业问题中的表现并与3种不同水平的专业人群(医学本科生、医学硕士、主治医师)进行比较。方法:分别对三种不同的LLM和3种不同水平的专业人群(包括了本科生9名... 目的:评估3种不同的大型语言模型(LLM,包括GPT-3.5、GPT-4和PaLM2)在回答眼科专业问题中的表现并与3种不同水平的专业人群(医学本科生、医学硕士、主治医师)进行比较。方法:分别对三种不同的LLM和3种不同水平的专业人群(包括了本科生9名,专业型研究生6名,主治医师3名)进行一项由100道眼科单项选择题组成的测试,问题涵盖了眼科基础知识、临床知识、眼科检查诊断方法以及眼病相关治疗手段。从平均得分、答题稳定性和答题自信心等方面综合评估LLM的性能并与人类组进行比较。结果:在平均测试得分中,每个LLM都在总体上优于本科生(GPT-4:56分,GPT-3.5:42分,PaLM2:47分,本科生:40分),其中GPT-3.5、PaLM2略低于硕士水平(硕士:51分),而GPT-4则表现出与主治医师相当的水平(主治医师:62分)。另外,GPT-4表现出明显高于GPT-3.5和PaLM2的答题稳定性和答题自信心。结论:以GPT-4为代表的LLM在眼科领域表现的较为出色,LLM模型可为临床医生和医学教育进行临床决策及教学辅助。 展开更多
关键词 大型语言模型(llm) 自然语言处理 眼科问题
下载PDF
大型语言模型在法律文本零样本语义标注中不可思议的有效性
3
作者 凯文·阿什利 孙自豪(译) 《法律方法》 2024年第2期247-276,共30页
ChatGPT的出现使得包括法律界在内的公众认识到大型语言模型(LLMs)的潜在用途(如文件起草、问题回答和摘要)。尽管该技术在以法律文本为重点的各种语义注释任务中表现良好,但随着更新、功能更强(GPT-4)或更具成本效益(GPT-3.5-turbo)的... ChatGPT的出现使得包括法律界在内的公众认识到大型语言模型(LLMs)的潜在用途(如文件起草、问题回答和摘要)。尽管该技术在以法律文本为重点的各种语义注释任务中表现良好,但随着更新、功能更强(GPT-4)或更具成本效益(GPT-3.5-turbo)的模型涌入,需要探讨其对法律文本进行语义标注能力的最新进展。在向成熟的生成式人工智能系统过渡的过程中,通过检验GPT-4和GPT-3.5-turbo(-16k)的性能,并将其与上一代GPT模型进行比较,结果显示GPT-4和GPT-3.5-turbo(-16k)在涉及判决意见、合同条款或法律条文的三项法律文本注释任务中表现出色。比较各类模型的性能和成本发现,GPT-4模型在三项任务中的两项上明显优于GPT-3.5模型,性价比高的GPT-3.5-turbo与价格高出20倍的text-davinci-003模型性能相当。虽然可以在单个提示中注释多个数据点,但其性能会随着批量的增加而降低。这项工作为许多实际应用(如合同审查)和研究项目(如实证法律研究)提供了有价值的信息。法律学者和执业律师都可以利用这些发现来指导他们将大型语言模型整合到涉及法律文本语义标注的各种工作流程中的决策。 展开更多
关键词 法律文本分析 大型语言模型(llm) 零样本分类 语义标注 文本标注
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部