Grok-3 才发布 3 天,就堕入舞弊风云。
左近 OpenAI 期骗操放火速掀桌:每次评估中 o3-mini 齐要比 Grok-3 好,看到 Grok 团队舞弊真的令东谈主失望。
咋回事?
在 Grok-3 的 Blog 中有一张 AIME 2025 评估图令东谈主印象真切,两个新版块模子齐逾越 o3-mini 高配版。
但详确看,Grok-3 两个模子的柱状图中齐有 1 段神气更浅的部分。OpenAI 责怪的舞弊,即是在这里。
淡色部分代表了 Grok-3 模子在 Con@64 上的得益。
即这是模子进行 64 次谜底后的得益,而不是单次回话。
那么问题就来了,被拿来对比的 o3-mini、o1、DeepSeek-R1、Gemini-2 Flash Thinking 似乎并莫得这部分得益。
有东谈主就示意,要是真的如斯,那么 Grok-3 推理模子仅仅和 o1 终点。OpenAI 和 xAI 之间依旧差了 9 个月。
OpenAI 认真模子假想的斟酌员 Aidan McLaughlin 更是神志开麦,示意马斯克发布时说的话极其有误导性,这会让东谈主以为浅蓝色部分是通过推理杀青的得益。
不外值得一提的是,这种模子评估对比要领似乎是 OpenAI 开了头。o3-mini 的 Blog 中,也看到了访佛体式的评估。
是以,为啥这样对比不对理?
聘任 cons@64,o1 齐能和 o3-mini 终点
最初明确观念:
cons@64:让模子生成 64 个谜底,最终聘任出现频率最高的回话。
pass@64:要是 64 个谜底中只有有一个谜底正确,模子就得分。
是以有东谈主就说了,问题的关节不是 xAI 不应该使用 cons@64;
关节在于,要是其他模子仅仅尝试了一次,那就不太公正了。
因为 blog 中并莫得讲明晰,是以假设是这种情况。
有 AI 博主也列出了征集到的关悉数据,o3-mini 在单次回话上的推崇更好。
其次,凭据 o3-mini 的 blog,o1 模子聘任 cons@64 得益,以至不错和 o3-mini 打个终点。
这意味着聘任 cons@64 得益是"有上风"的。
有东谈主也揪着这事不放,关联词 OpenAI 照实没让 o3-mini 用 cons@64。
终末,Grok-3 发布时的说法似乎有一定误导性。
有东谈主贴出来了原片断。在被问及评估图中的淡色部分是什么时,官方给出的讲解是:
这些模子不错推理、不错念念考,不错条目模子念念考更长、花更多时代进行测试时推理。这种情况下,这些淡色部分意味着咱们仅仅耗尽更多时代让模子措置归并个问题,然后它才会得出什么是正确的谜底。要是这样作念,模子以至不错推崇得更好。
OpenAI 斟酌员 Aidan 以为这段话极具误导性,他仅仅说使用更多测试时经营,听起来像是作念更多推理,但其实不是如斯。
一言以蔽之,Grok 团队这样干照实有点不纯碎。
吃瓜到这,网友们难免运转蛐蛐:
Grok-3 不如 o3-mini,马斯克就会给团队上压力。然后想出的好宗旨即是在基准测试上作念算作。
以及为啥齐不和 Claude 作念对比呢?
不外也有东谈主以为这事不行一棒子打死,Grok 仍旧有好多值得暄和的方面。比如 Grok-3 一个月前才完成预履行,这仅仅一个月内基于 CoT 的后履行界限,模子还有很大的擢腾飞间。此外 xAI 正在以行业内最快的速率扩张预履行经营能力。
以及 Grok-3 发布后,开发者们依然火速筹商出了一些意念念的新玩法。
放荡开发小游戏
这不,有东谈主就晒出了在特斯拉上完用 Replit+Grok 开发的小游戏。
还有曾在微软深度参与 Windows 系统开发的大佬 Dave Plummer,也用 Grok-3 复刻了经典的打砖块游戏。
他为 Windows 创建了任务照应器、为 Windows 完成了对 zip 文献的复古。
这一次,他展示了怎样只用几句话就让 Grok-3 开发小游戏。
指示词齐很简便:
"来作念个彩色版打砖块奈何样"
"让球自动出动,并让球每次从拍子上弹起时速率提高 10% "
"很好,球在垂直弹射时会卡住。一运转游戏是奈何假想的?do the same "
终末取得的后果是这样的:
值得一提的是,马斯克最近证据了开导了 AI 游戏职责室的音书,他要让游戏再次伟大(doge)。
参考聚拢:
[ 1 ] https://x.com/BorisMPower/status/1892407015038996740
[ 2 ] https://www.reddit.com/r/singularity/comments/1itoi3f/grok3_thinking_had_to_take_64_answers_per/
[ 3 ] https://www.tomshardware.com/tech-industry/artificial-intelligence/grok-3-used-to-clone-breakout-game-fabled-windows-developer-shares-prompts-and-code开云(中国)Kaiyun·官方网站 - 登录入口