首页 > 财税观点 > 财税观点 > Grok3翻车了 回答9.11比9.9大

Grok3翻车了 回答9.11比9.9大

发布时间:2025-02-19 15:51:52

马斯克又搞了个大动作,xAI团队发布了Grok3,宣称这是“天下最聪明”的AI。

按照马斯克的说法,这玩意儿在数学、科学和编程测试里把其他主流模型都秒了,甚至还能参与SpaceX的火星任务计算,未来三年内有望实现诺贝尔奖级别的突破。听起来是不是很牛?但事实真的如此吗?

 

先别急着吹捧,实测结果让人有点大跌眼镜。

有人问了Grok3一个简单得不能再简单的问题:“9.11与9.9哪个大?”结果它愣是没答对!

这可不是个例,海外也有不少类似的测试,比如“比萨斜塔上两个球哪个先落下”,这些基础的物理、数学问题,Grok3都搞不定,被网友调侃为“天才不愿意回答简单问题”。

更搞笑的是,在xAI的发布会直播里,马斯克还用Grok3分析他爱玩的游戏《流亡黯道2》,结果Grok3给出的答案大部分都是错的,马斯克居然都没发现。这下好了,不仅被海外网友抓住把柄,说他打游戏“找代练”,也让大家对Grok3的实际应用可靠性产生了大大的怀疑。

 

再来看看Grok3的性能和榜单表现。

官方PPT里说Grok3在大模型竞技场Chatbot Arena里“遥遥领先”,可这其实是用了点小技巧,把榜单纵轴限定在1400-1300分段,把1%的测试结果差距给放大了。

实际上,Grok3的跑分只比DeepSeek R1和GPT4.0高出1%~2%,很多用户测试后也觉得没啥明显差别。

而且,xAI之前就被指责在榜单里“刷分”,Grok2时代就靠大量数据堆出高分,结果榜单调整回答长度风格的权重后,分数就直线下降。这次Grok3的高分,背后是20万张H100显卡,两亿小时的训练,代价不可谓不高。

有网友算了一笔账,DeepSeek V3用2000张H800训练两个月,算力消耗是Grok3的1/263,可它在榜单上的得分和Grok3差距不到100分。这说明啥?模型越大,性能越强的逻辑已经出现明显的边际效应了!

财税观点更多>>

安全启动双漏洞曝光,微软已修补其中之一 高通CEO公布骁龙AI PC最新进展,颠覆性技术价值显现 残值高45%:苹果iPhone为什么比安卓手机更耐用 小米 REDMI K Pad 平板现身 Geekbench:天玑 9400 + 处理器,多核跑分超 8900 【查询通道公布】2025泉州民办初中招生第一批电脑派位举行 三星Galaxy Z Fold7发布,机身更薄续航引担忧 玩家国度ROG华硕PG27UQR显示器天猫优惠 5月新能源出口暴涨996%,中国皮卡″出海救市″ 2025年新能源汽车下乡全国首站在江苏如皋启幕 ID.3 GTX套件款重磅上市 上汽大众2025 ID.Festival与用户玩在一起 武汉蔚来能源有限公司增资至17.84亿元 为何越来越多人买二手房?内行人说出了实情,原来藏着这些猫腻 均价涨至3.6万+,广州楼盘涨价了? iPhone 16 Pro体验:新一代钉子户神机预定 猛降1000!荣耀GT开启“狂暴价”! 618两千档手机对决!谁才是性价比王上王? 华为Pura 80系列正式亮相,四款机型诠释影像新高度 从鸿蒙 5到影像再到通信,华为nova 14系列是怎样赢得年轻人的? 中国邮政首次内陆长距离固定翼无人机往返载货运输试飞成功 科睿F50X3S显示器评测:高性价比电竞显示器的标杆之作 财经观察:养老机器人新部署,加速企业开拓新场景 话剧《长安的荔枝》上海首演成功! 中国戏台上的主角, 配角的精彩, 多样角色展现魅力 坐行天地间,笔绘万邦情!轮椅画家秦百兰现身香港文博会,续写艺术与文明的对话 赵云与马超到底谁更厉害?根据正史分析,两人根本就不在同一层次 南宋刘过:秀才休离愁,留下一首经典诗词,让无数中年人俯首叹息 《清明上河图》钞券版:艺术与科技的完美融合 薇娅被曝隐秘“复出”!小程序出镜带货,多款商品售罄,夫妇二人资本动作不断 百果园技术申请直播互动管理方法等专利 提高视频直播的互动效果 支持转发笔记消息,微信鸿蒙版App获1.0.7.35正式版本更新