LOADING

12天的第十二天 OpenAI发布重磅o3:高计算模式每任务费用突破数千美元

12Days openai10小时前更新 AI宝贝
10K 0 0
直播回放双字幕

刚刚,OpenAI 为期 12 天的发布会圆满收官。正如外界预期,新一代推理模型 —— o3 和 o3-mini 成为了此次发布的压轴亮点。

o3 是 o1 系列模型的继任者,其显著特点在于让模型在回答问题前花更多时间推理,从而显著提高回答准确性。不过,OpenAI 在命名时跳过了 o2。据《The Information》报道,这一命名策略是为了避免与英国电信公司 O2 引发版权问题。对此,Sam Altman 在今天下午的直播中确认了这一点。

事实上,早在昨天,OpenAI 就已开始为 o3 模型预热。一些开发者甚至在 OpenAI 网站上发现了“o3_min_safety_test”的相关引用。

 

12天的第十二天 OpenAI发布重磅o3:高计算模式每任务费用突破数千美元

 

不少人迫不及待地想要了解 o3 的真实实力,期待其能否与谷歌昨日发布的 Gemini 2.0 Flash Thinking 相媲美。

 

12天的第十二天 OpenAI发布重磅o3:高计算模式每任务费用突破数千美元

如传闻所言,o3 和 o3-mini 确实来了!不过遗憾的是,这些模型不会直接公开发布,而是先进行一轮安全测试。Sam Altman 特别强调,这不是一次发布(launch),而是一次公告(announce)。

Sam Altman 透露,o3-mini 预计在明年一月底推出,而完整版 o3 会在之后不久发布。
o3:突破 ARC-AGI 基准,具备博士级解题能力
在一场以圆桌形式展开的活动中,ARC Prize Foundation 总裁 Greg Kamradt 介绍了 o3 模型的重大突破。
ARC Prize Foundation 是一个非营利组织,其目标是通过基准测试为实现 AGI(通用人工智能)提供指引。ARC-AGI 基准已发布五年,但始终无人攻克,直到 o3 成为首个突破该基准的 AI 模型。
据介绍,o3 在 ARC-AGI 基准上的最低成绩为 75.7%,若允许更多计算资源和推理时间,其成绩甚至可达 87.5%。
ARC-AGI 基准要求模型从输入-输出对中找到规律,并基于新的输入准确预测输出。类似题型在公务员考试和毕业招聘中常见。

12天的第十二天 OpenAI发布重磅o3:高计算模式每任务费用突破数千美元1

OpenAI 表示,将滚动审核测试申请,优先选拔研究人员进行模型探索和安全评估。若您对测试感兴趣,可在 2025 年 1 月 10 日前提交申请。申请链接:点击申请

© 版权声明

相关文章