首页 > 生活分享 > 生活分享 > 复杂推理大模型OpenAI o1亮相,数学与代码能力飞跃

复杂推理大模型OpenAI o1亮相,数学与代码能力飞跃

发布时间:2024-09-16 16:25:38来源: 13041198719

平安证券近日发布AI动态跟踪系列(三):复杂推理大模型OpenAI o1亮相,数学与代码能力飞跃。

以下为研究报告摘要:

9月13日,OpenAI正式发布并上线o1系列模型o1-preview和o1-mini。

平安观点:

OpenAI计数器重置回1,o1系列开启复杂推理序幕。本次OpenAI发布的是o1-preview(预览版)和o1-mini(擅长STEM、更快、更便宜)两个版本,ChatGPT付费用户和API用户可以使用。根据OpenAI官网介绍,o1系列被定位为用于解决难题的推理模型。对于复杂的推理任务来说,OpenAI认为o1是一个重大进步,代表了AI能力的新水平,鉴于此,OpenAI将计数器重置回1并将此系列模型命名为OpenAI o1。OpenAI研究发现,随着强化学习(训练时计算)和思考时间(测试时计算)的增加,o1的性能会不断提高。因此在体验上,与此前模型不同点在于,OpenAIo1在作出反应之前,需要像人类一样,花更多时间思考问题。

o1基准表现明显优于GPT-4o,数学与编码能力实现飞跃。OpenAI实验结果表明,在绝大多数推理任务中,o1的表现明显优于GPT-4o。尤其是在具有挑战性的推理基准上,o1实现了能力飞跃,1)数学能力:在美国数学奥林匹克(AIME2024)预选赛题目中,GPT-4o平均只能解决12%的问题,o1正式版达到平均74%的准确率,在使用学习评分函数重新排名1000个样本后准确率达到93%,相当于美国排名前500的学生水平。2)编码能力:在竞争性编程问题(Codeforces)比赛中,o1-preview、o1分别超越了62%、89%的人类竞争者,而对比GPT-4o仅超过11%。3)特定专业领域能力:GPQA diamond测试(专门用于评估模型在化学、物理和生物学等领域的专业知识水平)中,o1不仅成功完成了测试,更是超越了人类专家的表现,成为首个在GPQA diamond基准上击败人类专家的AI模型。

o1引入思维链优化逻辑推理,助力模型性能与安全提升。o1优越能力的背后,核心突破在于运用思维链(chain of thought)方法来处理复杂任务,OpenAI介绍到,类似于人类在回答困难问题之前可能会思考很长时间,o1在尝试解决问题时会使用思维链。通过强化学习,o1学会打磨其思维链并改进它所使用的策略。o1学会了识别和纠正错误,学会了将棘手的步骤分解为更简单的步骤,学会了在当前方法不起作用时尝试不同的方法,此过程显著提高了模型的推理能力。在OpenAI的一个官方演示中展示了o1-preview解答复杂问题的逻辑推理过程,o1-preview在过程中逐步显示思考、翻译问题、定义变量、理解问题、构建方程、解方程等与人类推理相似的步骤,最终输出结论。同时,OpenAI认为思维链推理也为大模型安全性的提升提供了新思路,o1-preview在关键越狱评估和用于评估模型安全拒绝边界的最严格内部基准上取得了显著的改进。

投资建议:OpenAI推出专攻难题的o1系列大模型,应对复杂推理任务,o1引入思维链(Chain of Thought)提升逻辑推理能力,绝大多数基准表现不仅明显超越GPT-4o,而且在数学与编码能力上实现了重要飞跃,在理化生等专业领域的知识水平也达到新高度。OpenAI的动向始终引领全球大模型的发展,我们认为o1的正式亮相有望开启复杂推理大模型的序幕,一方面对算力提出了更大需求,同时也将赋能下游AI应用(如编程、教育)的快速迭代。我们坚定看好AI主题的投资机会:1)算力方面,推荐工业富联、浪潮信息、中科曙光、紫光股份、神州数码、海光信息、龙芯中科,建议关注寒武纪、景嘉微、软通动力;2)算法方面,推荐科大讯飞;3)应用场景方面,强烈推荐中科创达、恒生电子、盛视科技,推荐金山办公,建议关注万兴科技、福昕软件、同花顺、彩讯股份;4)网络安全方面,强烈推荐启明星辰。

生活分享更多>>

2025年盘锦市委党校招聘教师公告 2024年海珠区委统战部关于招聘雇员的公告(1人) 2024年阿坝州人力资源和社会保障局茂县招聘紧缺学科教师公告 2024年德州职业技术学院博士研究生引进公告 2024年广元市剑阁县自然资源局招聘工作人员(临聘)公告 2024年威海经济技术开发区面向社区党组织书记招聘事业单位工作人员简章 2024年北京市大兴区新兴产业促进服务中心临时辅助用工人员招聘公告(3人) 2024年呼和浩特清水河县竞聘中小学、幼儿园 校(园)长(含副职)公告 9.98万一口价起售的日产逍客·荣誉,其实诚意还是略显不足 坚持走纯电路线的蔚来汽车,已经连续两周销量排名下降 更适合家用MPV应该是什么样子?刚上市的极氪MIX告诉你答案 韩系豪华车品牌捷尼赛思还在“硬撑” 捷达版速腾要来了,定名VA7,或11月10日预售 捷途山海T1上市,主打方盒子设计,15.48万起 奶爸神车后继有人?豪华大六座零跑C16玩的就是舒适 海豚又一个对手来了,埃安打造,广州车展亮相 发布价3399元,突降1511元,跌至1888元,荣耀降价也太猛了 华为Mate 60 Pro、荣耀Magic7 Pro该怎么选?对比8点就懂了 双11手机推荐指南,各个价位段精选汇总 TCL洗衣机洗净的秘诀到底是什么?央视主持人现身探秘 家用更优解,荣威iMAX8 DMH新陆尊比传祺E8香多了? 比亚迪“百万级核心技术”被攻破,五菱干成了10万级! 长安汽车 10 月销量为 25.08 万辆,同比增长 4.07% 为何奔驰是BBA老大哥?BMW粉香港看车有感 2024年最畅销20款电动车榜单:Model Y第一,比亚迪宋第二 丰田中国品牌沟通部部长徐一鸣:加大智能化电动化研发 打造适应中国消费者需求产品 开了5000公里,发现奥迪A6L和奔驰E300,差距太大不在一个档次 双11平板选购指南,华为平板全系列机型推荐 平板电脑怎么选?目前公认值得入手的五款平板,轻松用十年 三星又一三折叠手机专利获批:提高屏幕耐用性、添加防反射层