• 露出 porn OpenAI o1 全地点 SOTA 登顶 lmsys 排名榜:数学才调碾压 Claude 和谷歌 Gemini 模子,o1-mini 并排第一

    发布日期:2024-10-07 12:39    点击次数:116

    露出 porn OpenAI o1 全地点 SOTA 登顶 lmsys 排名榜:数学才调碾压 Claude 和谷歌 Gemini 模子,o1-mini 并排第一

    o1 模子发布 1 周露出 porn,lmsys 的 6k + 投票就将 o1-preview 奉上了排名榜榜首。同期,为卓越意全球对模子「IOI 金牌水平」的兴趣心,OpenAI 放出了 o1 测评时提交的系数代码。

    万众注意的最新模子 OpenAI o1,终于迎来了 lmsys 竞技场的测评驱散。不出巧合,o1-preview 在各式限制裕如登顶,教导了最新版的 GPT-4o,在数学、清苦教唆和编码限制阐发出色;

    而 o1-mini 诚然名字中自带「mini」,但也和最新版的 GPT-4o 并排轮廓排名第二,清苦教唆、编码、数学等限制和 o1-preview 不异登顶第一。

    居然,o1 模子不愧是通用推理限制的新王。lmsys 社区官方发推暗示,这项测试驱散网罗了 6k + 社区投票,并将 OpenAI 此次获得的进展描绘为「令东谈主难以置信的里程碑」。

    单纯看排名榜的排名可能不够具有劝服力,于是 lmsys 有益统计了总榜向前 25 名模子的 1v1 胜率。

    不错看到,o1-preview 对系数模子的胜率齐教导了 50%,对比 04-09 版 GPT-4-Turbo 的胜率最高,达到了 88%。

    o1-mini 若是对战 o1-preview,胜率为 46%,对 09-03 版 GPT-4o 的胜率为 48%,不错说是大体平手、略逊一筹的现象。

    值得正经的是,诚然 Grok-2-mini 和 Claude 3.5 Sonnet 齐排在相比靠后的位置,但 o1-preview 对这两个模子的胜率并不高,区别是 58% 和 57%,大大小于排名第四的 Gemini 1.5 Pro 的 69%。

    若是看到细分限制的排名榜,尤其是数学 / 推理限制,后果则愈加惊艳。o1-preview 和 o1-mini 不仅是登顶数学排名榜,而况是体现出了裕如的最初上风。

    排在第三、第四的 Claude 3.5 Sonnet、Gemini 1.5 Pro 和 08-08 版 ChatGPT-4o 的中分齐在 1275 足下,不相险阻;o1-preview 和 o1-mini 则一骑绝尘,分数飙到 1360 隔邻,奏凯碾压。

    o1 推理团队的指点者之一 William Fedus 看到这张图亦然特殊焕发,他暗示这张图「很好地用视觉抒发了范式诊疗」。

    看来最新的 o1 模子在 STEM 学科和通用推理方面果真又达到了新高度,用实质测评驱散回话了「AI 遇冷」、「OpenAI 碰壁」的质疑声。

    「那就持续期待 OpenAI 接下来的发布吧!」

    但一些东谈主齰舌「改日可期」的同期,另一些东谈主思到了我方未几的智商和头发。

    「模子搞得这样好了,测试就不稳健我这种蠢东谈主了。」

    同期,也有一些东谈主抒发了对 lmsys 排名榜驱散的质疑。

    比如,家喻户晓的 o1 模子推理工夫长,因而回答的延时也长,和其他模子齐有彰着隔离;而况不同于种种基准测试的客不雅圭臬,lmsys 社区中完全基于用户的主不雅评分,难说这内部是否存在「安危剂效应」。

    也有东谈主拒抗 o1 在编码排名榜上的第一,以为诚然 o1-mini 止境稳健进行名目计较,但在 Cursor 这类编码助手中也曾 Claude 模子的阐发最好。

    排名榜的驱散天然不是沿途,o1 模子能否持续赢得口碑,同期保执住才略水平不变蠢,还要看接下来的一段工夫。

    IOI 金牌代码全公开

    说到 o1 模子的编码才调,不知谈你也曾否铭记,刚发布时 OpenAI 提到了这样一个筹谋:若是放宽提交拘谨到每个问题允许 1 万次提交,o1 不错达到高于 IOI 金牌门槛的分数。

    在模拟进行的 Codeforces 编程竞赛中,使用疏浚的法例进行评估,o1-preview 不错击败 62% 的东谈主类选手,郑再版 o1 则高潮到超越 89% 的敌手。

    专门微调过的 o1-ioi 模子,阐发优于 93% 的竞争敌手。

    此外,前段工夫有效户在及时的 Codeforces 比赛中使用了 o1 模子,驱散是超越了 99.8% 的东谈主类选手。

    由于 o1 在编程竞赛限制的阐发如斯杰出,引起了 AI 社区热烈的风趣和兴趣,OpenAI 于是采用发布 o1 模子提交的代码内容,包括 6 个问题的沿途 C++ 代码以及审视。

    发文的 yummy 是 o1 模子的中枢孝顺者 Alexander Wei

    关于 o1 的惊艳阐发,Alexander Wei 我方齐很惊诧。

    他本东谈主在 9 年前曾投入 IOI 竞赛,但从未思到我方这样快就需要和 AI 竞争,模子展现出的推理进程的复杂进程令东谈主印象深远。

    博文暗示,诚然 o1 模子距离东谈主类的顶级阐发还有很长的一段路要走,但咱们期待有一天能驱散这个方向。

    午夜伦理伦理片在线观

    这个发展轨迹让东谈主思起了 AlphaGo—— 从水平荣华,到能和东谈主类顶级能手不分赢输,再到 5-0 完全碾压李世石。

    OpenAI 思要达成的,测度即是究极进化的、能在编程上碾压东谈主类顶级能手的 AlphaZero。

    此处公布代码的 6 个问题具体如下:

    有网友指出,其中最令东谈主印象深远的应该是象形翰墨(hieroglyphs)问题,o1 模子所有得到 44 分,在现场的系数选手中排名第四。这标明,模子能够不错破译一些东谈主类无法处理的子任务。

    前几天,一位当今在 NASA 职责的天体物理学博士就尝试让 o1 复现我方论文中的代码,驱散一试吓一跳 —— 我方读博时花了 1 年写出的代码,o1 只用了一小时就写收场。

    这还仅仅裸模子,若是加上代码诠释器、齐集及时搜索等各式器具,后果思必愈加惊艳。

    而况,Reddit 网友还送来了温馨教唆:这仅仅 o1 预览版哦,不错狠狠期待一下不到一个月就行将问世的郑再版 o1 了。

    此外,这位网友还暗示,o1 基本沿用了 GPT-4 的架构;那你思,改动架构后的 GPT-5(也即是传闻中的猎户座)能达到什么高度。

    参考辛勤:

    https://x.com/lmsysorg/status/1836443278033719631

    https://codeforces.com/blog/entry/134091

    告白声明:文内含有的对外跳转衔接(包括不限于超衔接、二维码、口令等花样),用于传递更多信息,节俭甄选工夫,驱散仅供参考露出 porn,IT之家系数著作均包含本声明。