|

财税表
2000活跃值=1元

首页 > 财税观点 > 财税观点 > Grok3翻车了回答9.11比9.9大

Grok3翻车了回答9.11比9.9大

发布时间：2025-02-19 15:51:52来源： 13041198719

马斯克又搞了个大动作，xAI团队发布了Grok3，宣称这是“天下最聪明”的AI。

按照马斯克的说法，这玩意儿在数学、科学和编程测试里把其他主流模型都秒了，甚至还能参与SpaceX的火星任务计算，未来三年内有望实现诺贝尔奖级别的突破。听起来是不是很牛？但事实真的如此吗？

Grok3翻车了回答9.11比9.9大

先别急着吹捧，实测结果让人有点大跌眼镜。

有人问了Grok3一个简单得不能再简单的问题：“9.11与9.9哪个大？”结果它愣是没答对！

这可不是个例，海外也有不少类似的测试，比如“比萨斜塔上两个球哪个先落下”，这些基础的物理、数学问题，Grok3都搞不定，被网友调侃为“天才不愿意回答简单问题”。

更搞笑的是，在xAI的发布会直播里，马斯克还用Grok3分析他爱玩的游戏《流亡黯道2》，结果Grok3给出的答案大部分都是错的，马斯克居然都没发现。这下好了，不仅被海外网友抓住把柄，说他打游戏“找代练”，也让大家对Grok3的实际应用可靠性产生了大大的怀疑。

Grok3翻车了回答9.11比9.9大

再来看看Grok3的性能和榜单表现。

官方PPT里说Grok3在大模型竞技场Chatbot Arena里“遥遥领先”，可这其实是用了点小技巧，把榜单纵轴限定在1400-1300分段，把1%的测试结果差距给放大了。

实际上，Grok3的跑分只比DeepSeek R1和GPT4.0高出1%~2%，很多用户测试后也觉得没啥明显差别。

而且，xAI之前就被指责在榜单里“刷分”，Grok2时代就靠大量数据堆出高分，结果榜单调整回答长度风格的权重后，分数就直线下降。这次Grok3的高分，背后是20万张H100显卡，两亿小时的训练，代价不可谓不高。

有网友算了一笔账，DeepSeek V3用2000张H800训练两个月，算力消耗是Grok3的1/263，可它在榜单上的得分和Grok3差距不到100分。这说明啥？模型越大，性能越强的逻辑已经出现明显的边际效应了！

Grok3翻车了回答9.11比9.9大

【返回列表】

特别声明：以上内容(如有图片或视频亦包括在内)为“财税表用户上传并发布"，本平台仅提供信息存储服务。

下一篇:《哪吒2》延长上映至3月30日

上一篇:宇树机器人或降至三四千元

财税观点更多>>

父母车祸轻微伤女子跪谢爱车护主《哪吒2》海外票房破亿 iPhone17屏幕尺寸或全线增大影博《哪吒2》IMAX厅票被炒至千元美国人口3.41亿社保却有3.98亿人有骑手抵触缴纳社保全球半数以上人形机器人公司在中国男子家门口布置风水阵吓坏邻居制作人员做无量仙翁时以为是好人曝iPhone17Pro支持无线反向充电和黄景瑜同游女子疑为张艺上 86岁老人1440天自学3门外语男子时隔6年回老家发现老猫还在守家周深有四首歌被纳入教材杭州网红“闻叔”去世刘诗诗五年后再演现代剧尤浩然说杨紫张一山联系多很正常 AI救场阿里重回牌桌张亮目标拿影帝代表作均低于3分义乌老板利用DeepSeek卖空小商品上海聋哑老人唯一房产被亲弟弟卖掉高水平对外开放再升级江苏发布15条生育支持措施人形伴侣机器人赛道彻底沸腾刀郎武汉演唱会3月底开唱前国乒名将马特说王楚钦打球太实在白敬亭耍帅失败气到跺脚黄友政3比2险胜阿拉米安 Grok 3免费开放到服务器满载湖人爆冷输黄蜂遭连败

Copyright 2017-2025 财税表版权所有京ICP备17123669号-1