当前位置：首页 > 文章列表 > 文章 > 软件教程 > 全球首个LLM竞技场上线，23模型对决揭秘

全球首个LLM竞技场上线，23模型对决揭秘

2025-08-20 08:40:13 0浏览收藏

各位小伙伴们，大家好呀！看看今天我又给各位带来了什么文章？本文标题是《全球首个LLM竞技场上线，23模型激烈比拼》，很明显是关于文章的文章哈哈哈，其中内容主要会涉及到等等，如果能帮到你，觉得很不错的话，欢迎各位多多点评和分享！

【新智元导读】近日，由Ai2、耶鲁大学与纽约大学联手打造的科研版「Chatbot Arena」——SciArena正式亮相。全球23款顶尖大模型同台竞技真实科研任务，OpenAI o3强势登顶，DeepSeek紧随其后，超越Gemini跻身前四！然而评估结果显示，当前自动评分系统在预测科研人员偏好方面仍力不从心。

如今，利用AI大模型辅助撰写论文已成为科研人员的日常操作。

根据ZIPDO 2025年教育报告，AI已深度融入70%的研究实验室，五年间相关科研论文数量激增150%。

全球首个科研LLM竞技场上线！23款顶尖模型火拼：o3夺冠，DeepSeek第四图片尽管AI在科研辅助领域飞速发展，但一个核心问题始终未解：

「大模型到底能不能胜任复杂的科研任务？」

传统评测基准往往静态且局限，难以反映科研所需的深度理解与逻辑推理能力。

为此，Ai2联合耶鲁和NYU推出SciArena，标志着科学智能正式进入「擂台对决」时代！

全球首个科研LLM竞技场上线！23款顶尖模型火拼：o3夺冠，DeepSeek第四图片论文地址：https://arxiv.org/pdf/2507.01001

目前已有23个最先进大语言模型加入SciArena的比拼，涵盖OpenAI、Anthropic、DeepSeek、Google等主流产品。

全球首个科研LLM竞技场上线！23款顶尖模型火拼：o3夺冠，DeepSeek第四图片其中，OpenAI o3以绝对优势领跑全场，在所有科学领域均表现最佳，其生成的论文解读更具专业深度。

全球首个科研LLM竞技场上线！23款顶尖模型火拼：o3夺冠，DeepSeek第四图片其他模型则在细分领域各展所长：

例如Claude-4-Opus在医疗健康领域知识扎实，而DeepSeek-R1-0528在自然科学方向表现突出。

全球首个科研LLM竞技场上线！23款顶尖模型火拼：o3夺冠，DeepSeek第四图片值得一提的是，SciArena一经发布便获得Nature专题报道，被誉为「窥探大模型知识架构的新窗口」。

全球首个科研LLM竞技场上线！23款顶尖模型火拼：o3夺冠，DeepSeek第四图片那么，SciArena凭什么成为衡量科研AI能力的可靠标准？

SciArena：专为科研打造的AI「试金石」

SciArena是首个专为科学文献任务设计的大模型开放式评估平台。

全球首个科研LLM竞技场上线！23款顶尖模型火拼：o3夺冠，DeepSeek第四图片科研人员可在该平台提交问题，并匿名对比不同模型的回答，通过投票决定更优输出。

团队采用Chatbot Arena风格的众包、双盲对决机制，用真实科研场景检验模型实力。

针对科研任务特有的复杂性与开放性，SciArena优化了评估流程，弥补了通用基准在科研应用中的不足。

平台由三大核心模块构成：

SciArena平台：用户在此提问并对比模型回复，进行偏好选择。排行榜：基于Elo评分系统动态更新各模型排名，提供实时性能参考。SciArena-Eval：基于人类偏好数据构建的元评估基准，旨在测试AI能否准确预测人类判断。对决背后的机制揭秘

从提问到投票：完整评估流程解析

SciArena的评估流程包括论文检索、模型响应生成和用户评判三个阶段。

相比普通问答，科研类问题更强调以权威文献为依据。

为保障检索质量，团队改进了AI2的Scholar QA系统，构建了一套多阶段检索流水线。

全球首个科研LLM竞技场上线！23款顶尖模型火拼：o3夺冠，DeepSeek第四图片该流程包含查询拆解、段落提取与结果重排序等环节。

当用户提出问题后，系统启动检索流程，获取相关科研论文作为上下文。

随后，将问题与上下文同时发送给两个随机选取的基础模型。

两模型分别生成内容详实、附带规范引用的长篇回答。

平台对两份回答进行标准化处理，转换为统一格式的纯文本，避免用户识别出模型来源。

最后，用户在匿名条件下对两份答案进行比较，并选出更满意的一方。

全球首个科研LLM竞技场上线！23款顶尖模型火拼：o3夺冠，DeepSeek第四图片需要指出的是，SciArena主要聚焦于可横向比较的「通用基础模型」。

像OpenAI Deep Research这类定制化智能体或闭源系统，并不在评估范围内。

102位专家，13000张选票

高质量评估，离不开高质量数据。

SciArena团队对数据质量把控极为严格。

在平台上线初期四个月内，共收集了来自102位科研专家的超过13000次投票。

全球首个科研LLM竞技场上线！23款顶尖模型火拼：o3夺冠，DeepSeek第四图片这些专家并非普通用户，而是活跃在科研一线的研究生，平均发表论文超过两篇。

所有标注人员均接受过一小时的专业培训，确保评判标准统一。

结合双盲机制，每一条评估结果都具备高度可信度。

在如此严苛的标准下，平台数据展现出极高的内部一致性（加权科恩系数κ=0.91），评审间一致性也达到良好水平（κ=0.76）。

全球首个科研LLM竞技场上线！23款顶尖模型火拼：o3夺冠，DeepSeek第四图片这13000余次有效投票，为SciArena建立了坚实可靠的评估基础。

最强AI，也难猜科研人心

基于SciArena-Eval基准，研究团队测试了「模型评估模型」的自动评分能力：

给定一个问题和两个模型的回答，让评估模型预测哪个更可能被人类选中。

结果令人深思。

即便是最强的o3模型，准确率也仅为65.1%，而Gemini-2.5-Flash和LLaMA-4系列的表现几乎等同于随机猜测。

全球首个科研LLM竞技场上线！23款顶尖模型火拼：o3夺冠，DeepSeek第四图片相比之下，通用领域的AlpacaEval、WildChat等基准中，评估模型准确率普遍超过70%，可见科研任务的判断难度显著更高。

尽管整体表现不尽如人意，但仍见亮点。

具备推理能力的模型在判断优劣时更具优势。

例如，o4-mini比GPT-4.1高出2.9%，DeepSeek-R1也略胜于自家的DeepSeek-V3。

这表明，具备推理能力的AI更能把握科研问题的核心。

研究团队认为，SciArena-Eval有望成为未来科研AI评估的新标杆，帮助我们判断AI是否真正理解了科研人员的思维逻辑。

参考资料：

https://allenai.org/blog/sciarena

https://arxiv.org/pdf/2507.01001

https://the-decoder.com/sciarena-lets-scientists-compare-llms-on-real-research-questions/

以上就是本文的全部内容了，是否有顺利帮助你解决问题？若是能给你带来学习上的帮助，请大家多多支持golang学习网！更多关于文章的相关知识，也可关注golang学习网公众号。

自动评分 SciArena LLM竞技场科研任务大模型评估

豆包AI视频合并技巧全解析

豆包AI视频合并技巧全解析

上一篇: 豆包AI视频合并技巧全解析

花呗还款日提醒关闭教程

下一篇: 花呗还款日提醒关闭教程

查看更多

最新文章

文章 · 软件教程 | 1小时前 |

取消Win11文件夹只读属性方法

239浏览收藏
文章 · 软件教程 | 1小时前 |

微博访客记录怎么查？手把手教程详解

173浏览收藏
文章 · 软件教程 | 1小时前 |

聚水潭ERP官网入口与登录方法

144浏览收藏
文章 · 软件教程 | 1小时前 |

高德地图上报充电桩故障步骤

312浏览收藏
文章 · 软件教程 | 1小时前 |

电脑休眠文件过大怎么处理

369浏览收藏
文章 · 软件教程 | 1小时前 |

学习通如何查看班级通讯录

269浏览收藏
文章 · 软件教程 | 1小时前 |

Win7如何添加闹钟？详细教程

134浏览收藏
文章 · 软件教程 | 1小时前 |

悦跑圈周报导出与数据查看教程

147浏览收藏
文章 · 软件教程 | 1小时前 |

注册会计师考试官网及报名流程详解

379浏览收藏
文章 · 软件教程 | 1小时前 |

Windows11语音控制怎么开？

311浏览收藏
文章 · 软件教程 | 1小时前 |

番茄小说书籍搜不到怎么解决

195浏览收藏
文章 · 软件教程 | 1小时前 |

Word插入对勾符号快捷键及WPS打勾技巧

146浏览收藏

资料下载

编程学习资料下载

精选编程（Golang、Python、Java、C++、JavaScript等）教程、电子书与示例源码，一键打包本地下载学习。

立即下载

查看更多

课程推荐

前端进阶之JavaScript设计模式

设计模式是开发人员在软件开发过程中面临一般问题时的解决方案，代表了最佳的实践。本课程的主打内容包括JS常见设计模式以及具体应用场景，打造一站式知识长龙服务，适合有JS基础的同学学习。

543次学习
GO语言核心编程课程

本课程采用真实案例，全面具体可落地，从理论到实践，一步一步将GO核心编程技术、编程思想、底层实现融会贯通，使学习者贴近时代脉搏，做IT互联网时代的弄潮儿。

516次学习
简单聊聊mysql8与网络通信

如有问题加微信：Le-studyg；在课程中，我们将首先介绍MySQL8的新特性，包括性能优化、安全增强、新数据类型等，帮助学生快速熟悉MySQL8的最新功能。接着，我们将深入解析MySQL的网络通信机制，包括协议、连接管理、数据传输等，让

500次学习
JavaScript正则表达式基础与实战

在任何一门编程语言中,正则表达式,都是一项重要的知识,它提供了高效的字符串匹配与捕获机制,可以极大的简化程序设计。

487次学习
从零制作响应式网站—Grid布局

本系列教程将展示从零制作一个假想的网络科技公司官网，分为导航，轮播，关于我们，成功案例，服务流程，团队介绍，数据部分，公司动态，底部信息等内容区块。网站整体采用CSSGrid布局，支持响应式，有流畅过渡和展现动画。

485次学习

查看更多

AI推荐

ChatExcel酷表

ChatExcel酷表是由北京大学团队打造的Excel聊天机器人，用自然语言操控表格，简化数据处理，告别繁琐操作，提升工作效率！适用于学生、上班族及政府人员。

5871次使用
Any绘本

探索Any绘本（anypicturebook.com/zh），一款开源免费的AI绘本创作工具，基于Google Gemini与Flux AI模型，让您轻松创作个性化绘本。适用于家庭、教育、创作等多种场景，零门槛，高自由度，技术透明，本地可控。

6304次使用
可赞AI

可赞AI，AI驱动的办公可视化智能工具，助您轻松实现文本与可视化元素高效转化。无论是智能文档生成、多格式文本解析，还是一键生成专业图表、脑图、知识卡片，可赞AI都能让信息处理更清晰高效。覆盖数据汇报、会议纪要、内容营销等全场景，大幅提升办公效率，降低专业门槛，是您提升工作效率的得力助手。

6112次使用
星月写作

星月写作是国内首款聚焦中文网络小说创作的AI辅助工具，解决网文作者从构思到变现的全流程痛点。AI扫榜、专属模板、全链路适配，助力新人快速上手，资深作者效率倍增。

8081次使用
MagicLight

MagicLight.ai是全球首款叙事驱动型AI动画视频创作平台，专注于解决从故事想法到完整动画的全流程痛点。它通过自研AI模型，保障角色、风格、场景高度一致性，让零动画经验者也能高效产出专业级叙事内容。广泛适用于独立创作者、动画工作室、教育机构及企业营销，助您轻松实现创意落地与商业化。

6508次使用

查看更多

相关文章

pe系统下载好如何重装的具体教程

2023-05-01 501浏览
qq游戏大厅怎么开启蓝钻提醒功能-qq游戏大厅开启蓝钻提醒功能教程

2023-04-29 501浏览
吉吉影音怎样播放网络视频吉吉影音播放网络视频的操作步骤

2023-04-09 501浏览
腾讯会议怎么使用电脑音频腾讯会议播放电脑音频的方法

2023-04-04 501浏览
PPT制作图片滚动效果的简单方法

2023-04-26 501浏览

Golang学习网：公益在线Go学习平台，帮助Go学习者快速成长！

技术交流群

Copyright 2023 http://www.17golang.com/ All Rights Reserved ｜苏ICP备2023003363号-1

关注公众号

Golang学习网

微信登录更方便

密码登录
注册账号

登录即同意用户协议和隐私政策

返回登录

重置密码