物化生水平比肩人类博士,OpenAI发布o1推理模型,碾压GPT-4o!

ongpt1个月前GPT资讯118

对于复杂的推理任务来说,o1 代表了当前人工智能(AI)能力的新水平。


就在刚刚,OpenAI 的“草莓”模型正式发布,名为“o1”,这是一系列新的人工智能模型,旨在花更多时间思考后再做出回答。


与以前的科学、编码和数学模型相比,o1 模型可以推理复杂的任务,解决更难的问题。


就像人类一样,o1 系列模型会用更多时间思考问题,然后再做出回答。通过训练,这些模型学会了完善思考过程、尝试不同的策略,并认识到自己的错误。


据 OpenAI 介绍,在测试中,o1 的下一个更新模型在物理、化学和生物等具有挑战性的基准任务上的表现达到了博士生的水平。


他们还发现,这一模型在数学和编码方面表现出色。在国际数学奥林匹克(IMO)的资格考试中,GPT-4o 只正确解决了 13% 的问题,而 o1 模型的得分率则高达 83%。



此外,o1 模型的编码能力也在竞赛中得到了评估,在 Codeforces 竞赛中达到了第 89 个百分点。



作为早期模型,o1 还不具备 ChatGPT 的许多实用功能,如浏览网页信息、上传文件和图片等。对于许多常见情况,GPT-4o 在短期内会有更强的功能。


但 OpenAI 表示,o1 模型更擅长解决科学、编码、数学和类似领域的复杂问题。例如,医疗保健研究人员可以使用 o1 为细胞测序数据添加注释,物理学家可以使用 o1 生成量子光学所需的复杂数学公式,所有领域的开发人员都可以使用 o1 构建和执行多步骤工作流。


以下三个视频 demo 展示了o1 模型在解决复杂推理问题方面的强大能力。


视频|o1 解决了一个复杂的逻辑难题。


视频|o1 根据提示为视频游戏编码。


视频|o1 翻译了一个损坏的句子。


此外,在安全性方面,OpenAI 提出了一种新的安全训练方法,利用 o1 模型的推理能力,使它们遵守安全和对齐准则。通过在上下文中对安全规则进行推理,o1 模型可以更有效地应用这些规则。


衡量安全性的方法之一,是测试当用户试图绕过安全规则(即“越狱”)时,模型能在多大程度上继续遵循其安全规则。在最难的越狱测试中,GPT-4o 得分为 22 分(0-100 分),而 o1-preview 得分为 84 分。



此外,为了向开发人员提供更高效的解决方案,OpenAI 还同时发布了 o1-mini,这是一种速度更快、成本更低的推理模型,在编码方面尤为有效。作为一个较小的模型,o1-mini 比 o1-preview 便宜 80%,因此对于需要推理但不需要广泛世界知识的应用程序来说,它是一个经济高效的模型。


目前,o1 的预览版本和 o1-mini 已经在 ChatGPT(Plus 和 Team)和 API 上线。未来,o1-mini 将提供给所有 ChatGPT 免费用户使用。


相关文章

伯克利团队最新论文:用训练GPT的方法训练人形机器人

一台人形机器人在人行道、混凝土、沥青、广场和沙路上“散步”,这不是科幻电影的场景,而是已经发生在旧金山街头的真实事件。这一人形机器人项目也引起了Sora团队的注意。“不可思议的成果!”Sora负责人之...

辅助患者完善临床决策,GPT-AI提供第二诊疗建议!

患者的疾病被漏诊或延迟确诊每天都发生、可能涉及每个就诊患者。遗憾的是人类医生在所难免的。根据数据估计,每年至少有80万名美国人因误诊而死亡或造成永久残疾。为了避免这些情形继续发生,医生希望利用GPT-...

推出全新GPT+产品易智汇,易点云与微软AI产品展开全面合作!

  近日,易点云在AI领域迈出了坚实的步伐,携手全球技术巨擘和信诺时代,发布了针对中小企业设计的GPT+产品——“易智汇”。  这款产品不仅将AI技术的强大能力带给了中小企业,还以极具吸引力的价格和服...

蚂蚁首次公布AI应用矩阵;OpenAI已启动开发“GPT-5”;百度智能云推出“千帆行业增强版”

今日AI daily早新闻主要内容有:OpenAI宣布已启动下一代前沿模型训练,传言已久的“GPT-5”已经开始了;蚂蚁首次公布AI应用矩阵;百度智能云推出“千帆行业增强版”,加速行业大模型应用落地。...

ChatGPT 出现答非所问、胡言乱语,OpenAI 已紧急修复!

2 月 22 日消息,ChatGPT 用户昨日发现,该聊天机器人返回了很多奇怪的回答内容,例如切换到其它语言、循环输出,反复自我纠正,甚至有些回复答非所问,纯属胡言乱语。例如一位用户和 ChatGPT...

争夺“中国ChatGPT”心智定位,零一万物首次出新To C 李开复再出马!

李开复表示,大模型推理成本的下降会推动中国AI大模型进入”落地为王”的阶段,今年会迎来“大模型应用爆发元年”。他同时预测,明年下半年,随着大模型推理成本的大幅度下降,人们将迎来大模型普惠应用的井喷期。...