Grok 4.3悄悄上线:性能超Claude,价格暴降40%,速度飞快

admin AI新闻 1

Grok 4.3悄悄上线, 打破了马斯克团队一直以来的高调风格, 然而却凭借实实在在的数据, 刷新了人们对AI性价比的认知界限, 其Intelligence Index为53分, 超过了Claude Sonnet, API价格大幅下降40%至60%, 输出速度达到196 Token/秒。这款没有举办发布会的模型, 正借助价格优势、速度长处以及人性化表达方式, 重新界定AI产品的竞争层面。当顶级实验室开始认真比拼成本时, 这究竟意味着什么呢?

Grok 4.3悄悄上线:性能超Claude,价格暴降40%,速度飞快-第1张图片-开云app在线下载-开云体云app官网入口下载-V3.6.9

一次没有仪式感的发布,却藏着最重要的信号

单独发推的不是马斯克, 召开发布会的不是xAI, 就这样, 悄然上线的是Grok 4.3。

对习惯借声量炮制话题的公司而言, 这般情形反常得颇具玩味。没有那种“即将改变一切”的豪言壮语, 不存在关于AGI 的宏大叙事, 仅仅是沉稳地将模型摆进API里, 把价格给降下来, 告知开发者能够从旧版迁移过来。

正因为是这种“缺乏仪式感”的情况, 使得Grok 4.3的意义, 反而更加具备值得认真去看待的特质。

数据秉持着真实的特性, 其中Intelligence Index的分数为53分, 这种分值程度超过了Claude Sonnet达4.6之多;关于代理任务的Elo评分, 从1179有了显著的跃升, 一直攀升到了1500, 单单一代就提升了321分这样的幅度;API对于价格的输入端降低到了每百万Token 1.25美元, 而输出端为2.50美元, 与上一代相比较, 分别下降了大约40%和60%这样的比例;相应的输出速度大约是196 Token/秒, 处于xAI当前模型线里面最快的一档范围。达成结束Artificial Analysis全部评测的总体合计成本大概是395美元, 而同一个时期Claude Opus 4.7(max)的相应成本竟然高高达到4811美元, 两者之间的差距超出了12倍。

这组数字向我们传达了这样的信息, 顶级的AI实验室业已着手认真对待并比拼性价比了。而此情况是颇为引人思虑的范畴, 它比任何一回将“最强模型”予以发布的情形相比, 更值得聚焦于AI发展的一类人去深入思考。

拆开Grok 4.3:它打出了哪三张牌?

领悟Grok 4.3这款软件表现, 不能仅仅着眼于跑分成绩来评判, 而要去关注它在哪些具体维度上切实取得了值得一谈的进展, 还要留意它又在确切的哪些地方遗留下了清晰可辨的难以突破的界限。

第一张牌:价格,是这次最直接的产品武器

对绝大多数平常用户来讲, API定价好像是个距离甚远的概念, 要是它的影响会借着产业链朝着上方传导开来, 然而AI写作工具, 还有客服机器人以及语音助理且教育应用, 就连办公插件都算是其中的一部分, 其背后都是需要为模型调用支付费用的, 当底层模型价格有所降低的时候, 应用厂商便会拥有一定空间来降低订阅费, 或者是在相同价格的情况下能提供更多的调用次数、拥有更长的上下文处理能力。

Grok 4.3, 其拥有一项特性, 那就是它的输入价格, 仅仅只是Claude Opus 4.7输入价格的大概十二分之一, 并且, 它的输出价格大约是Claude Opus 4.7输出价格的三十分之一。而要明确的是, 这可不是微调, 实际是在量级方面存在着差异。对于那些对成本比较敏感的中小开发者以及创业团队来说, 这样子的定价具备相当程度的侵略性。

第二张牌:速度,但有一个容易被忽略的细节

第一梯队里属于在当前主流模型中输出速度为196 Token/秒, 对长文生成而言, 会带来明显的效率提升, 对批量内容处理, 以这个速度对于代码输出也是这般。

新智元的评测里提及了一个关键细节, Grok 4.3的首Token延迟绝非低水平。它会先进行一番思考, 之后才着手快速输出。这表明在长任务当中速度优势显著, 然而, 在诸如语音助手、移动端短对话、实时客服这类对响应即时性有着极高要求的场景内, 用户会先体会到一段停顿, 随后才感受得到快。

这对于产品经理来讲, 是一项关键的选型参数了, 速度可不是单纯的指标, 得去区分首Token延迟, 以及整体吞吐量的情况。

第三张牌:语气更像真人,这是Grok被低估的优势

Grok始终存在着一种微妙却真切的优势, 那便是它的语气更趋近于现实中人类的表达, 在这背后存在着数据逻辑, Grok因得益于X平台(原Twitter)数量庞大的口语化内容的训练, 所以更能够捕捉社交网络里的语气节奏、松弛感以及非正式表达方式。

在Hacker News的用户讨论里头开云真人app官方版入口,开云真人app官网入口,有英语并非母语的用户确切指出, Grok在拿捏文本语气、正式程度以及微妙人际表达方面, 相较于其他模型更为自然。对于C端轻办公场景而言, 对于语音产品而言, 对于日常消息起草而言, 这种“更似助手、而非机器”的体验, 常常比跑分高出几分更能够对用户留存产生影响。

AI迭代的方向,真的是”减少消耗”吗?

Grok 4.3出现降价这种情况, 进而引出了一个问题, 这个问题更值得深入去思索: AI模型在未来进行迭代的方向, 是不是会将“减少消耗、降低成本”作为主要的核心要点呢?

这个问题没有简单的答案,正反两面都有扎实的依据。

“降耗”成为主方向的论据

Grok 4.3出现降价情况, 这绝不是偶然发生的, 于此背后存在着一套正在逐步走向成熟状态的技术发展路径。

起初是架构这方面的革新进展, MoE(混合专家)架构已然变为主流大模型的标配选择了, 名为DeepSeek、Grok 4.3等的模型呢, 虽说总体参数规模十分庞大, 然而每次推理实际上仅仅激活极少部分的”专家模块”, 这就好比仅仅调用了大约二十分之一的参数规模便达成了任务。这把”参数越多、推理越贵”的旧有逻辑从根本上给改变了。有数据表明, 运用MoE架构能够直接使推理时的显存占用下降60%, 推理吞吐量提高多达19倍。

接着来说工程优化这一方面, KV Cache压缩技术不断且持续地迭代更新, DeepSeek在多模态技术报告里进行了披露, 经三级压缩能够把视觉条目压缩达7000多倍, 低精度计算(FP4相比FP8在算力吞吐量上提升了大概3倍)也渐渐地在英伟达Blackwell等新一代硬件上得以落地, 这些技术相互叠加在一起, 正使得单次推理的实际成本持续不断地下降。

需求侧的压力更为重要, 当前, 推理算力的需求已然达到了训练算力的五至十倍, 企业的Token账单正逐渐变成真实的经营成本, 一位从业者曾直接表明: “要是一个模型讲述某件事得用一百句话、十万个Token才行, 然而先进模型仅用五句话、一千个Token就能搞定——哪个价值更大一目了然。”降低单位Token的消耗, 正成为模型竞争力的核心维度之一。

消耗不会减少,只会更多

可是, 存在这样一组数据, 会致使“降耗论”的那些支持者陷入沉默状态: Token调用量在两年间居然暴增了1000倍。国家数据局进行了披露, 中国的日均Token调用量已经突破了140万亿, 相较于2024年初的1000亿增长幅度超过了千倍。与此同时, 每百万Token的成本从去年到今年下降了大约75%——成本是降了, 然而用量增长得更为迅猛。

在这里, 存在着一条违背人直觉的规律, 那便是, 价格低廉的Token, 并非是致使人们减少使用, 而是使得人们更具胆量去使用。

这一趋势的核心驱动力量当属Agent工作流的得到广泛普及, 在OpenClaw等Agent框架达成成熟状态之后, AI能够凭借自身力量完成像联网检索、数据筛选、代码编写以及流程闭环这样的复杂操作, 单次任务触发所产生的模型调用次数出现显著增多, Token消耗从原本单次的几百个、几千个急剧上升到百万级别这一程度, 对于1分钟的AI视频生成而言, 大约需要消耗120万Token, 而一次企业级行业报告的自动生成则需要触发上百次的模型调用。

Grok 4.3它自身也暗藏着这个矛盾, 原文评测数据表明, 它的准确率也就是AA - Omniscience Accuracy提升了8分, 然而非幻觉率也就是Non - Hallucination Rate却反倒下降了8分, 简单来讲, Grok 4.3知晓的更多了, 不过也更易于“自信地犯错”了, 在诸如医疗、法律、金融等这类高风险场景里, 用户常常需要再次调用更强的模型去进行二次核验, 总消耗不一定会减少, 反而有可能会增加。

Grok 4.3教会我们怎么做模型选型

身为产品经理, 在看完Grok 4.3的评测之后, 最应当带走的并非是”它与GPT-5.5相比差了多少”, 而是一套更为清晰的模型选型方法论。

Grok 4.3给出了极为明晰的能力界限, 它适宜高频内容生成, 适宜语气改写, 适宜长文本初步筛选, 适宜语音产品领域, 适宜客服场景, 适宜批量办公任务, 适宜轻量级代理工作流, 然而在深度推理方面, 在严谨事实核查方面, 在复杂代码调试方面, 在数学证明方面, 以及在医疗、法律、金融等存在高风险的专业判断场景当中, GPT - 5.5和Claude Opus 4.7依旧更为稳定, 更为可靠。

这背后的对应是, 业界正在形成的一套共识, 即模型分层路由。将不同能力等级的模型, 比作大学生、中学生、小学生, 让最强的模型, 去做任务拆解和规划。让中小模型, 执行具体的重复性步骤。效果出现问题时, 再让强模型介入兜底。整体的效果相当, 但成本大幅下降。

正如评测原文所讲: “市场并非总是奖赏最强者, 还奖赏足够强、足够快、足够便宜的选择。”这句话须得每个从事AI产品制作的人张贴在显示器近旁。并非每个场景都要求最强的模型, 恰似不应仅是为了买菜而驾驶超跑那般。选型的实质, 是使恰当的模型去做适宜的事, 而非运用最贵的模型涵盖所有场景。

降耗是普惠化的路径,不是AI收缩的信号

返回到起始的问题, 人工智能模型进行迭代, 是不是会将“降低消耗”当作主要的方向呢?

答案是:降低单次消耗是手段开云app在线入口,开云真人官方下载开云正版app下载开云app在线入口,扩大总使用规模才是方向。

Grok 4.3所展现出的并非是AI在进行所谓的“节约”情形, 而是侧重在降低相关门槛一事之上, 同时还有扩大其可及性这一要点。它将xAI从起初那个常常依靠马斯克之声量进而吸引他人注意的模型供应商状态, 推送到了一个更为务实的API基础设施竞争者身处的位置当中。这种当底层模型所需价格下降到足够低的状况之下, 更多的中小企业、独立开发者以及个人创作者才能够真正参与于AI生产力革命进程里面的表现。

更深层次的逻辑在于, AI的竞争正从“谁最强”朝着“谁最有用”转变前行。智能水平, 响应的速度, 以及使用成本, 这三个维度共同架构起了当前AI模型竞争的“不可能三角”, 也就是唯有能同时将三件事都妥善做好的模型, 才是具备真正意义的产品赢家。Grok 4.3处于这个三角之中, 选取了优先突破“成本”以及“速度”这两条边, 这是一项务实且清醒的产品决策。

可以肯定的是, 它并未达到那种程度, 即好到能使GPT - 5.5以及Claude Opus 4.7产生紧张之感, 然而, 它已然凭借着实实在在的价格, 还有实打实的速度, 占据夺走了一部分实实在在的使用量。

就那些关注人工智能发展情况的人来讲, Grok 4.3最为关键的启示, 也许并非它有多么强大, 而是它向我们表明了这样一点: 人工智能的下一轮争夺战, 并非在实验室里面竞争跑分数据的榜单之上, 而是存在于每一位实实在在用户的消费账单当中。

标签: Grok4.3 AI性价比 模型选型 降耗趋势 竞争维度

发布评论 0条评论)

还木有评论哦,快来抢沙发吧~