12天的第十二天 OpenAI发布重磅o3：高计算模式每任务费用突破数千美元

12Days openai2年前更新 AI宝贝

直播回放双字幕

刚刚，OpenAI 为期 12 天的发布会圆满收官。正如外界预期，新一代推理模型 —— o3 和 o3-mini 成为了此次发布的压轴亮点。

o3 是 o1 系列模型的继任者，其显著特点在于让模型在回答问题前花更多时间推理，从而显著提高回答准确性。不过，OpenAI 在命名时跳过了 o2。据《The Information》报道，这一命名策略是为了避免与英国电信公司 O2 引发版权问题。对此，Sam Altman 在今天下午的直播中确认了这一点。

事实上，早在昨天，OpenAI 就已开始为 o3 模型预热。一些开发者甚至在 OpenAI 网站上发现了“o3_min_safety_test”的相关引用。

12天的第十二天 OpenAI发布重磅o3：高计算模式每任务费用突破数千美元

不少人迫不及待地想要了解 o3 的真实实力，期待其能否与谷歌昨日发布的 Gemini 2.0 Flash Thinking 相媲美。

12天的第十二天 OpenAI发布重磅o3：高计算模式每任务费用突破数千美元

如传闻所言，o3 和 o3-mini 确实来了！不过遗憾的是，这些模型不会直接公开发布，而是先进行一轮安全测试。Sam Altman 特别强调，这不是一次发布（launch），而是一次公告（announce）。

Sam Altman 透露，o3-mini 预计在明年一月底推出，而完整版 o3 会在之后不久发布。

o3：突破 ARC-AGI 基准，具备博士级解题能力

在一场以圆桌形式展开的活动中，ARC Prize Foundation 总裁 Greg Kamradt 介绍了 o3 模型的重大突破。

ARC Prize Foundation 是一个非营利组织，其目标是通过基准测试为实现 AGI（通用人工智能）提供指引。ARC-AGI 基准已发布五年，但始终无人攻克，直到 o3 成为首个突破该基准的 AI 模型。

据介绍，o3 在 ARC-AGI 基准上的最低成绩为 75.7%，若允许更多计算资源和推理时间，其成绩甚至可达 87.5%。

ARC-AGI 基准要求模型从输入-输出对中找到规律，并基于新的输入准确预测输出。类似题型在公务员考试和毕业招聘中常见。

12天的第十二天 OpenAI发布重磅o3：高计算模式每任务费用突破数千美元 1

OpenAI 表示，将滚动审核测试申请，优先选拔研究人员进行模型探索和安全评估。若您对测试感兴趣，可在 2025 年 1 月 10 日前提交申请。申请链接：点击申请。

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

12天的第一天 openai发布全新O1 与 ChatGPT Pro 200美金/每月

12天的第一天 openai发布全新O1 与 ChatGPT Pro 200美金/每月

2年前

10.4K0

12天的第七天 OpenAI新推出Projects功能，让工作更高效

12天的第七天 OpenAI新推出Projects功能，让工作更高效

2年前

10.3K0

12天的第十一天 ChatGPT深度集成Mac应用，全面升级为智能助手（AI Agent）

12天的第十一天 ChatGPT深度集成Mac应用，全面升级为智能助手（AI Agent）

2年前

10.3K0

12天的第九天：o1模型开放API使用，实时语音API成本下降60%

12天的第九天：o1模型开放API使用，实时语音API成本下降60%

2年前

10.4K0