活在温哥华

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 993|回复: 14

[温村新闻] OpenAI新模型o1表现接近理化生博士水平,能解决83%国际奥数问题

[复制链接]

6642

主题

1万

回帖

5万

积分

管理员

Rank: 7Rank: 7Rank: 7

积分
56108
发表于 2024-9-13 16:49:37 | 显示全部楼层 |阅读模式 来自: 欧盟
WX5l1s3I03bRp5pW.jpg




腾讯新闻《一线》  
作者|纪振宇
编辑|刘鹏
生成式人工智能领域领军公司OpenAI,在美国时间9月12日发布拥有深度思考能力的 o1 预览模型,OpenAI称,这是未来一系列的“用于解决更难问题的推理模型”的一部分,并强调,模型将“花更多的时间”对涉及科学、编程和数学方面的复杂问题和任务去“思考”。
OpenAI表示,这些模型的思考过程“更像人”,在面对复杂问题时,会花更多的时间去思考而不是立即做出回应。通过训练,模型将学会如何进一步改善思考过程,尝试不同的策略以及认识到之前的错误。
OpenAI称,测试后发现新模型的表现已经接近于物理、化学和生物方面的博士生水平,这些测试也发现在编程和数学方面展现出更非凡的能力。

o8ye2VAsLgnE8lla.jpg




作为对比,对于国际数学奥赛(IMO)测试的资格考试,GPT-4o 只能解决13%的问题,但最新的推理模型能够解决83%的问题。新模型的编程能力在相关的编程测试中,达到超出89%其他模型的水平。
但OpenAI方面也强调,作为早期的预览版模型,新推理模型还不能像ChatGPT那样解决更全面的问题,例如通过浏览网页寻找信息、上传文件和图像等,换句话说,推理模型的主要能力体现在深度思考上,而非其他广泛的浅层应用。
在安全性方面,OpenAI称在对新模型的训练方面采取了新的训练路径,使得模型依照安全和利益一致性的指导进行。由于推理模型能够理解安全条例的上下文,所以能够更有效率地应用它们。
OpenAI称,衡量安全性的一个测试方法是,用户通过不断尝试绕过安全条款(又被称作“越狱”)的情况下,模型能否继续遵循安全条款输出结果。在最严苛的类似测试下,在满分100分的情况下,GPT-4o拿到了22分,但新的o1预览模型则取得了84分。
OpenAI称,新的推理模型强化的推理能力对于在科学、编程、数学和其他专业领域方面显得更有用,例如o1模型能够被医疗研究人员用于注释细胞序列数据,也能够被物理学家用于生成复杂的数学公式,并被各个领域的开发人员用于构建和执行多步骤的工作流程。
从OpenAI最新发布的推理模型可以看出,对于新推出的一系列推理模型,OpenAI将精力放在了模型处理和解决专业领域问题的能力上,而非更广泛的能力。从目前OpenAI公开发布的模型和产品来看,也体现出进一步细分的趋势,既有针对广泛人群和用户的ChatGPT人工智能聊天应用,有解决图像、视频的DallE、Sora模型,也有刚推出的针对专业领域、需要深度思考和问题解决能力的o1 preview。










  • gY3Za9hj3vOa0hPJ.jpg




  • AdaV86K1Z2jaXXZ8.jpg






查看原图 104K

  • wlB0qatwOImyqqSu.jpg

  • w0cc45F61zC1zL92.jpg

回复

使用道具 举报

6642

主题

1万

回帖

5万

积分

管理员

Rank: 7Rank: 7Rank: 7

积分
56108
 楼主| 发表于 2024-9-13 16:53:22 | 显示全部楼层 来自: 欧盟
这是之前说的草莓模型吗
回复 支持 反对

使用道具 举报

6642

主题

1万

回帖

5万

积分

管理员

Rank: 7Rank: 7Rank: 7

积分
56108
 楼主| 发表于 2024-9-13 16:57:07 | 显示全部楼层 来自: 欧盟
是的
回复 支持 反对

使用道具 举报

6642

主题

1万

回帖

5万

积分

管理员

Rank: 7Rank: 7Rank: 7

积分
56108
 楼主| 发表于 2024-9-13 17:00:52 | 显示全部楼层 来自: 欧盟
是的
回复 支持 反对

使用道具 举报

6642

主题

1万

回帖

5万

积分

管理员

Rank: 7Rank: 7Rank: 7

积分
56108
 楼主| 发表于 2024-9-13 17:04:37 | 显示全部楼层 来自: 欧盟
理化生博士:有点慌
回复 支持 反对

使用道具 举报

6642

主题

1万

回帖

5万

积分

管理员

Rank: 7Rank: 7Rank: 7

积分
56108
 楼主| 发表于 2024-9-13 17:08:22 | 显示全部楼层 来自: 欧盟
理化生博士:有点慌
回复 支持 反对

使用道具 举报

6642

主题

1万

回帖

5万

积分

管理员

Rank: 7Rank: 7Rank: 7

积分
56108
 楼主| 发表于 2024-9-13 17:12:07 | 显示全部楼层 来自: 欧盟
ai你好,可以帮我写个毕业论文吗
回复 支持 反对

使用道具 举报

6642

主题

1万

回帖

5万

积分

管理员

Rank: 7Rank: 7Rank: 7

积分
56108
 楼主| 发表于 2024-9-13 17:15:52 | 显示全部楼层 来自: 欧盟
ai你好,可以帮我写个毕业论文吗
回复 支持 反对

使用道具 举报

6642

主题

1万

回帖

5万

积分

管理员

Rank: 7Rank: 7Rank: 7

积分
56108
 楼主| 发表于 2024-9-13 17:23:22 | 显示全部楼层 来自: 欧盟
深度思考新模型:学好数理化,走遍天下都不怕
回复 支持 反对

使用道具 举报

6642

主题

1万

回帖

5万

积分

管理员

Rank: 7Rank: 7Rank: 7

积分
56108
 楼主| 发表于 2024-9-13 17:27:07 | 显示全部楼层 来自: 欧盟
深度思考新模型:学好数理化,走遍天下都不怕
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|小黑屋|活在温哥华

GMT+8, 2024-11-25 21:31 , Processed in 0.023437 second(s), 26 queries .

Powered by 活在枫叶国

© 2001-2023 www.vanasians.com.

快速回复 返回顶部 返回列表