当前位置：首页 / 资讯 / 正文

OpenAI震撼发布里程碑式模型，代号o1：更强了，也更贵了

资讯 2024-09-13 11:08:47 153

摘要：文 | 虞景霖编辑 | 苏建勋邓咏仪传闻已久、拖了又拖的OpenAI模型项目“草莓”，终于现身了。北京时间9月13日凌晨，Open AI正式发布了其首款具有推理能力的模型，代号为OpenAI ...

文 | 虞景霖

编辑 | 苏建勋邓咏仪

传闻已久、拖了又拖的OpenAI模型项目“草莓”，终于现身了。

北京时间9月13日凌晨，Open AI正式发布了其首款具有推理能力的模型，代号为OpenAI o1，包括无所不能的大哥o1-preview，和效率惊人的小弟o1-mini。

OpenAI的研究负责人Jerry Tework向The Verge透露：“o1使用了一种全新的优化算法和为其量身定制的新训练数据集。”也因此模型的命名并未延续GPT系列，而是“被命名为o1，以表示‘将计数器重置回1’。”

o1的革命性意义也正在于此——这代表了大模型能力在推理这条道路上的人新起点，而不是简单地作为GPT系列的延续。

来源：OpenAI

传闻已久的o1一经上线，就在X引发广泛讨论：评论区网友拍手叫好，AI圈网红Jim Fan依旧现身宣传。

并且Jim Fan还表示，o1的发布里程碑意义在于，它验证了此前所说的“两条曲线协同工作”理论，展示了训练计算和测试计算如何共同影响模型的最终性能。

传统的模型训练强调在训练时投入大量计算资源。而o1模型代表了一种新的AI模型开发范式。它强调了测试时计算（或推理时计算）的重要性——o1通过增加在测试/推理时的计算资源显著提高了模型性能。

来源：X

“休假中”的总裁Brockman，同样现身打Call 来源：X

如果说此前的模型是用“直觉”回答问题，那么o1给出的则是深思熟虑后的回答，这一改变来自于背后的“链式思考”（Chain-of-thought）机制。

用OpenAI研究主管Mark Chen的话说就是：“模型在学习自己思考，而不是试图模仿人类的思维方式。”

简单来说，o1在给出回答前会在“脑子”里进行一场内部对话，还会使用“让我想想”“我在考虑”等短语来展示思考过程。

模拟思考过程：“我很好奇”“我正在思考”“好的，让我看看” 来源：OpenAI

o1的表现究竟如何？用数据来说话：

数学方面，在2024年美国数学邀请赛（AIME）中，GPT-4o的平均正确率为12%（15道题解决1.8题），o1在首次尝试的平均正确率就达到了74%。通过使用集体决策和高级评分策略，o1的正确率最高可达93%。这一成绩不仅让o1跻身全美前500名优秀学生之列，还超过了美国数学奥林匹克竞赛的入选分数线。

来源：OpenAI

GPQA Diamond是一项专门评估化学、物理和生物等领域专业知识的测试。o1不仅完成了这项测试，还超越了拥有超越了部分拥有相关领域博士学位的人类专家，表明AI在特定专业领域的能力已经达到了一个新高度。

来源：OpenAI

编程方面，o1在国际信息学奥林匹克竞赛（IOI）中也表现卓越，在和人类参赛者相同的条件下，o1获得了213分的高分，位列参赛者的前50%。当限制进一步放宽（每个问题的提交次数从50提高到10000次），o1取得了362.14的高分，超越了金牌的获得门槛。

在模拟Codeforces平台的竞争性编程比赛中，o1获得了1807的高分，超越了93%的人类竞争者，这一成绩远远超过了GPT-4o（Elo评分为808，仅超过11%的人类竞争者）。

来源：OpenAI

简单来说，o1是一个非常善于思考、推理的大模型。并且，其运作机制与基于scaling law的大模型不同，这让它不必基于大量的计算消耗来提升性能，而是一个相当垂直的模型。

尽管o1模型展现出了卓越的能力，但仍然存在一些值得注意的局限性。

首先，在处理速度方面，o1可能不如其他模型迅速。

Thomson Reuters的副总裁Pablo Arredondo：“o1有时需要超过10秒才能回答一个问题，这在某些需要快速响应的场景中可能会成为一个问题。”

其次，相较于GPT-4o，o1在功能上还有一些欠缺——目前无法浏览网页，也不能处理文件和图像。

此外，o1不是一个多模态模型，这意味着它无法解析图像或音频输入。

在模型输出的质量方面，OpenAI承认o1存在一些挑战。根据技术论文中的反馈，o1似乎比GPT-4o更容易产生“幻觉”，即生成看似合理但实际上并不准确的信息。同时，o1似乎不如GPT-4o那样经常承认自己不知道答案，这可能会在某些情况下导致误导性的输出。

OpenAI官方特别建议将o1用于解决以下领域的复杂问题：科学、编码、数学和相关领域。

即日起，ChatGPT Plus和Team用户可以访问o1-preview和o1-mini；企业用户和Edu用户将于下周获得访问权限。OpenAI计划为所有ChatGPT免费用户提供o1-mini的访问权限，但尚未确定正式发布日期。

来源：X

来源：OpenAI

对于API访问，符合API使用等级5（已经支付1000美元并且超过30天）的开发者可以使用API中的两个模型进行原型设计，当前的速率限制为20次请求/分钟。此外，当前的API版本还不支持一些高级功能，如函数调用、流式处理和系统消息支持等。

在定价方面，在API中，o1-preview中每100万个token的输入价格为15美元，输出价格为60美元，较GPT-4o高出3-4倍。

来源：公众号【智能涌现】

上一篇：在加拿大学计算机的他，为何选择回上海“种地”？下一篇：京东宣布再次启动加薪：零售集团和职能体系将实现20薪

OpenAI震撼发布里程碑式模型，代号o1：更强了，也更贵了

[ 推荐 ] 相关文章