-
露出 porn OpenAI o1 全地点 SOTA 登顶 lmsys 排名榜:数学才调碾压 Claude 和谷歌 Gemini 模子,o1-mini 并排第一
发布日期:2024-10-07 12:39 点击次数:116o1 模子发布 1 周露出 porn,lmsys 的 6k + 投票就将 o1-preview 奉上了排名榜榜首。同期,为卓越意全球对模子「IOI 金牌水平」的兴趣心,OpenAI 放出了 o1 测评时提交的系数代码。
万众注意的最新模子 OpenAI o1,终于迎来了 lmsys 竞技场的测评驱散。不出巧合,o1-preview 在各式限制裕如登顶,教导了最新版的 GPT-4o,在数学、清苦教唆和编码限制阐发出色;
而 o1-mini 诚然名字中自带「mini」,但也和最新版的 GPT-4o 并排轮廓排名第二,清苦教唆、编码、数学等限制和 o1-preview 不异登顶第一。
居然,o1 模子不愧是通用推理限制的新王。lmsys 社区官方发推暗示,这项测试驱散网罗了 6k + 社区投票,并将 OpenAI 此次获得的进展描绘为「令东谈主难以置信的里程碑」。
单纯看排名榜的排名可能不够具有劝服力,于是 lmsys 有益统计了总榜向前 25 名模子的 1v1 胜率。
不错看到,o1-preview 对系数模子的胜率齐教导了 50%,对比 04-09 版 GPT-4-Turbo 的胜率最高,达到了 88%。
o1-mini 若是对战 o1-preview,胜率为 46%,对 09-03 版 GPT-4o 的胜率为 48%,不错说是大体平手、略逊一筹的现象。
值得正经的是,诚然 Grok-2-mini 和 Claude 3.5 Sonnet 齐排在相比靠后的位置,但 o1-preview 对这两个模子的胜率并不高,区别是 58% 和 57%,大大小于排名第四的 Gemini 1.5 Pro 的 69%。
若是看到细分限制的排名榜,尤其是数学 / 推理限制,后果则愈加惊艳。o1-preview 和 o1-mini 不仅是登顶数学排名榜,而况是体现出了裕如的最初上风。
排在第三、第四的 Claude 3.5 Sonnet、Gemini 1.5 Pro 和 08-08 版 ChatGPT-4o 的中分齐在 1275 足下,不相险阻;o1-preview 和 o1-mini 则一骑绝尘,分数飙到 1360 隔邻,奏凯碾压。
o1 推理团队的指点者之一 William Fedus 看到这张图亦然特殊焕发,他暗示这张图「很好地用视觉抒发了范式诊疗」。
看来最新的 o1 模子在 STEM 学科和通用推理方面果真又达到了新高度,用实质测评驱散回话了「AI 遇冷」、「OpenAI 碰壁」的质疑声。
「那就持续期待 OpenAI 接下来的发布吧!」
但一些东谈主齰舌「改日可期」的同期,另一些东谈主思到了我方未几的智商和头发。
「模子搞得这样好了,测试就不稳健我这种蠢东谈主了。」
同期,也有一些东谈主抒发了对 lmsys 排名榜驱散的质疑。
比如,家喻户晓的 o1 模子推理工夫长,因而回答的延时也长,和其他模子齐有彰着隔离;而况不同于种种基准测试的客不雅圭臬,lmsys 社区中完全基于用户的主不雅评分,难说这内部是否存在「安危剂效应」。
也有东谈主拒抗 o1 在编码排名榜上的第一,以为诚然 o1-mini 止境稳健进行名目计较,但在 Cursor 这类编码助手中也曾 Claude 模子的阐发最好。
排名榜的驱散天然不是沿途,o1 模子能否持续赢得口碑,同期保执住才略水平不变蠢,还要看接下来的一段工夫。
IOI 金牌代码全公开说到 o1 模子的编码才调,不知谈你也曾否铭记,刚发布时 OpenAI 提到了这样一个筹谋:若是放宽提交拘谨到每个问题允许 1 万次提交,o1 不错达到高于 IOI 金牌门槛的分数。
在模拟进行的 Codeforces 编程竞赛中,使用疏浚的法例进行评估,o1-preview 不错击败 62% 的东谈主类选手,郑再版 o1 则高潮到超越 89% 的敌手。
专门微调过的 o1-ioi 模子,阐发优于 93% 的竞争敌手。
此外,前段工夫有效户在及时的 Codeforces 比赛中使用了 o1 模子,驱散是超越了 99.8% 的东谈主类选手。
由于 o1 在编程竞赛限制的阐发如斯杰出,引起了 AI 社区热烈的风趣和兴趣,OpenAI 于是采用发布 o1 模子提交的代码内容,包括 6 个问题的沿途 C++ 代码以及审视。
发文的 yummy 是 o1 模子的中枢孝顺者 Alexander Wei关于 o1 的惊艳阐发,Alexander Wei 我方齐很惊诧。
他本东谈主在 9 年前曾投入 IOI 竞赛,但从未思到我方这样快就需要和 AI 竞争,模子展现出的推理进程的复杂进程令东谈主印象深远。
博文暗示,诚然 o1 模子距离东谈主类的顶级阐发还有很长的一段路要走,但咱们期待有一天能驱散这个方向。
午夜伦理伦理片在线观这个发展轨迹让东谈主思起了 AlphaGo—— 从水平荣华,到能和东谈主类顶级能手不分赢输,再到 5-0 完全碾压李世石。
OpenAI 思要达成的,测度即是究极进化的、能在编程上碾压东谈主类顶级能手的 AlphaZero。
此处公布代码的 6 个问题具体如下:
有网友指出,其中最令东谈主印象深远的应该是象形翰墨(hieroglyphs)问题,o1 模子所有得到 44 分,在现场的系数选手中排名第四。这标明,模子能够不错破译一些东谈主类无法处理的子任务。
前几天,一位当今在 NASA 职责的天体物理学博士就尝试让 o1 复现我方论文中的代码,驱散一试吓一跳 —— 我方读博时花了 1 年写出的代码,o1 只用了一小时就写收场。
这还仅仅裸模子,若是加上代码诠释器、齐集及时搜索等各式器具,后果思必愈加惊艳。
而况,Reddit 网友还送来了温馨教唆:这仅仅 o1 预览版哦,不错狠狠期待一下不到一个月就行将问世的郑再版 o1 了。
此外,这位网友还暗示,o1 基本沿用了 GPT-4 的架构;那你思,改动架构后的 GPT-5(也即是传闻中的猎户座)能达到什么高度。
参考辛勤:
https://x.com/lmsysorg/status/1836443278033719631
https://codeforces.com/blog/entry/134091
告白声明:文内含有的对外跳转衔接(包括不限于超衔接、二维码、口令等花样),用于传递更多信息,节俭甄选工夫,驱散仅供参考露出 porn,IT之家系数著作均包含本声明。