首页 > 生活分享 > 生活分享 > OpenAI 发布 o1-mini : 更经济高效的推理模型 | LibreOffice 24.8.1 发布

OpenAI 发布 o1-mini : 更经济高效的推理模型 | LibreOffice 24.8.1 发布

发布时间:2024-09-16 16:27:04来源: 13041198719

OpenAI 发布 o1-mini:更经济高效的推理模型

OpenAI 推出 o1-mini,一款专注于 STEM 领域的经济高效推理模型。o1-mini 在数学和编码方面表现出色,接近 OpenAI o1 的水平,同时成本更低,速度更快。

一、o1-mini 简介

  • OpenAI o1-mini 是一款专注于 STEM 领域的经济高效推理模型,尤其擅长数学和编码。
  • o1-mini 在 AIME 和 Codeforces 等评估基准测试中接近 OpenAI o1 的性能。
  • o1-mini 比 OpenAI o1-preview 便宜 80%,并且延迟更低,速率限制更高。

二、o1-mini 的优势

  • STEM 领域推理能力强 :o1-mini 经过专门优化,在 STEM 领域表现出色,尤其在数学和编码方面。
  • 成本效益高 :o1-mini 比大型语言模型更小,因此运行成本更低,更适合实际应用。
  • 速度更快 :o1-mini 的响应速度比大型语言模型更快,例如在单词推理问题上比 GPT-4o 快 3-5 倍。

三、o1-mini 的性能表现

领域

基准测试

o1-mini

o1-preview

o1

GPT-4o

数学

AIME

70.0%

44.6%

74.4%

-

编码

Codeforces Elo

1650

1258

1673

-

STEM

GPQA (科学)

更高

更低

-

更低

STEM

MATH-500

更高

-

-

更低

 

MMLU

-

-

-

更高

  • o1-mini 在 AIME 数学竞赛中取得了 70.0% 的成绩,与 o1 (74.4%) 相当,并优于 o1-preview (44.6%)。
  • o1-mini 在 Codeforces 编码竞赛中获得了 1650 Elo 的评分,与 o1 (1673) 相当,并高于 o1-preview (1258)。
  • 在一些需要推理能力的学术基准测试中,例如 GPQA (科学) 和 MATH-500,o1-mini 的表现优于 GPT-4o。
  • 在人类偏好评估中,o1-mini 在需要推理能力的领域优于 GPT-4o,但在语言类领域则不如 GPT-4o。

四、o1-mini 的安全性

  • o1-mini 采用与 o1-preview 相同的对齐和安全技术进行训练。
  • 在内部版本的 StrongREJECT 数据集上,o1-mini 的越狱鲁棒性比 GPT-4o 高 59%。

指标

GPT-4o

o1-mini

对有害提示的拒绝率(标准)

0.99

0.99

对有害提示的安全完成率(挑战:越狱和边缘案例)

0.714

0.932

对良性边缘案例的合规性(“不过度拒绝”)

0.91

0.923

Goodness@0.1 StrongREJECT 越狱评估

0.22

0.83

人工来源的越狱评估

0.77

0.95

五、o1-mini 的局限性

  • o1-mini 在非 STEM 主题(如日期、传记和冷知识)方面的知识储备有限。

六、未来展望

  • OpenAI 将在未来版本中改进 o1-mini 在非 STEM 领域的知识储备。
  • OpenAI 还将尝试将 o1-mini 扩展到其他模态和 STEM 以外的专业领域。

OpenAI o1-mini 是一款专注于 STEM 领域的经济高效推理模型,在数学和编码方面表现出色。o1-mini 比大型语言模型更经济、更快,是需要推理能力但对世界知识要求不高的应用的理想选择。

来源:

https://openai.com/index/openai-o1-mini-advancing-cost-efficient-reasoning/

 

LibreOffice 24.8.1 发布,注重隐私保护的办公套件

2024 年 9 月 12 日 – LibreOffice 24.8.1 发布! 这是 LibreOffice 24.8 系列的第一个次要版本 ,适用于 Windows(Intel、AMD 和 ARM)、macOS(Apple 和 Intel)和 Linux。

主要特点

  • 注重隐私: LibreOffice 24.8 系列专为注重隐私的办公套件用户而优化,他们希望完全控制自己共享的信息。LibreOffice 确保用户能够决定是否以及与谁共享他们创建的内容。
  • 功能丰富: LibreOffice 提供了一系列界面选项,以适应不同的用户习惯,从传统到现代,并通过优化桌 面上的可用空间,最大限度地利用不同的屏幕尺寸,只需点击一两次即可实现最多的功能。
  • 完全互操作性: LibreOffice 基于 LibreOffice 技术引擎,可提供更好的用户体验,并生成基于两种可用 ISO 标准的相同且完全可互操作的文档:开放文档格式 (ODT、ODS 和 ODP) 和专有的 Microsoft OOXML (DOCX、XLSX 和 PPTX)。
  • 企业级支持: TDF 强烈推荐生态系统合作伙伴提供的 LibreOffice Enterprise 系列应用程序,适用于桌面、移动和云,具有广泛的专用增值功能和其他优势,例如 SLA。

生活分享更多>>

2025年盘锦市委党校招聘教师公告 2024年海珠区委统战部关于招聘雇员的公告(1人) 2024年阿坝州人力资源和社会保障局茂县招聘紧缺学科教师公告 2024年德州职业技术学院博士研究生引进公告 2024年广元市剑阁县自然资源局招聘工作人员(临聘)公告 2024年威海经济技术开发区面向社区党组织书记招聘事业单位工作人员简章 2024年北京市大兴区新兴产业促进服务中心临时辅助用工人员招聘公告(3人) 2024年呼和浩特清水河县竞聘中小学、幼儿园 校(园)长(含副职)公告 9.98万一口价起售的日产逍客·荣誉,其实诚意还是略显不足 坚持走纯电路线的蔚来汽车,已经连续两周销量排名下降 更适合家用MPV应该是什么样子?刚上市的极氪MIX告诉你答案 韩系豪华车品牌捷尼赛思还在“硬撑” 捷达版速腾要来了,定名VA7,或11月10日预售 捷途山海T1上市,主打方盒子设计,15.48万起 奶爸神车后继有人?豪华大六座零跑C16玩的就是舒适 海豚又一个对手来了,埃安打造,广州车展亮相 发布价3399元,突降1511元,跌至1888元,荣耀降价也太猛了 华为Mate 60 Pro、荣耀Magic7 Pro该怎么选?对比8点就懂了 双11手机推荐指南,各个价位段精选汇总 TCL洗衣机洗净的秘诀到底是什么?央视主持人现身探秘 家用更优解,荣威iMAX8 DMH新陆尊比传祺E8香多了? 比亚迪“百万级核心技术”被攻破,五菱干成了10万级! 长安汽车 10 月销量为 25.08 万辆,同比增长 4.07% 为何奔驰是BBA老大哥?BMW粉香港看车有感 2024年最畅销20款电动车榜单:Model Y第一,比亚迪宋第二 丰田中国品牌沟通部部长徐一鸣:加大智能化电动化研发 打造适应中国消费者需求产品 开了5000公里,发现奥迪A6L和奔驰E300,差距太大不在一个档次 双11平板选购指南,华为平板全系列机型推荐 平板电脑怎么选?目前公认值得入手的五款平板,轻松用十年 三星又一三折叠手机专利获批:提高屏幕耐用性、添加防反射层