Claude输给国产黑马?GLM-5.2编程杀到全球第二,代码品位获赞

admin AI新闻 30

智谱GLM - 5.2在编程榜冲到全球第二, 其1595分, 将Claude Opus 4.用7、它甩开29分成绩, 排第一的没进行测试, 国产开源模型首次挤入AI编程前三强, 代码能力接近海外最强。

国外有名的博主AICodeKing, 在内测完GLM - 5.2之后, 给出了一句颇为直接的评价, 这个模型的品位很出色, 其代码一直都特别整齐干净, 仅用30分钟就完成了一个完整的本地模型微调, 要注意, 他说的是“品位出色”, 并非“跑分高”, 也不是“参数大”, 而是“品位”, 一件让AI写代码以致于被夸赞有品位的事情, 这本身就值得去好好思考一番。

Claude输给国产黑马?GLM-5.2编程杀到全球第二,代码品位获赞-第1张图片-开云app在线下载-开云体云app官网入口下载-V3.6.9

于6月17日, 智谱宣称上线且开源新一代旗舰模型GLM - 5.2。在全球百万用户参与盲测的前端开发评估系统Code Arena之上, GLM - 5.2取得了1595分, 位列全球第二。排第一的是Claude Fable 5 , 其分数为1654分。然而榜单上赫然写着一行备注 —— “not currently being sampled”, 即没在跑测试。也就是说, 在真正对外放开、能供人上手使用的模型当中, GLM - 5.2便是第一。

这事儿有意思之处在于, 上一代GLM - 5.1在该榜上位列第9, 得分是1531分。其实现了从第9跃升至第2, 有着64分的跨越, 一代模型直接达成了从“能上榜”到“站上领奖台”的质变。更值得深入探究的是它甩开了谁, Claude Opus 4.7, 得分1566分, GLM - 5.2比它高出29分。Claude Opus 4.7究竟是怎样的存在, 它是Anthropic的旗舰级闭源模型, 是长期霸榜的那种。被一个开源模型甩开29分,这放在半年前没人敢想。

再去查看一下细分之后所获得的成绩, React子榜当中处于第2的位置, HTML子榜处于第4的位置, 品牌与营销、数据与分析、游戏和模拟这三个子类别均取得了第一名的成绩。这究竟能够表明啥呢? 表明GLM - 5.2并非是依靠某一项突出的特长去刷取总分的, 而是在多个前端场景当中都具备较强的竞争力。在游戏和模拟这类对于代码逻辑以及实时性有着极高要求的领域能够获得第一名, 相较于单纯在CRUD类任务里表现出色而言, 更能够说明问题。

那它是怎么做到的?

1M无损上下文开云手机入口app下载开云app官方入口网站,才是真正的硬骨头

GLM - 5.2的核心卖点称作“1M无损上下文”, 那何谓“无损”呢? 众多模型宣称自身支持长上下文, 然而当你往其中填入几十万token时, 先前的内容它便开始“遗忘”了, 出现注意力衰减、信息丢失的情况, 输出质量呈现断崖式下滑。GLM - 5.2所解决的问题便是如此: 效果不会衰减, 成本在可承受范围。

智谱的技术人员讲了句话, 这话讲得较为相当到位, 其内容是, 仅仅只是,倘若只有在当1M真正实实在在切实地能够得以可用这一前提条件之下, 并且其效果不会产生出现致使其呈现出衰减的情况, 同时成本也是在可以承受的范围之内时, 那么, 这样一个模型才能够于在一次任务期间完整地持有整个项目, 而整个项目涵盖了全部代码、全部决策历史、全部约束条件, 其以一种类似像一个根本就不会忘事的工程师那样持续不断地推进。

它的意思是: 往昔的模型好似记性欠佳的实习生, 做到中途就忘掉先前说过的内容, 就得不断反复去提醒。GLM-5点2仿若一名老工程师, 自始至终能够记住项目的每一行代码、每一项决策。于实际测试里, 它一次性达成了涵盖Web、移动端以及小程序的完整应用开发交付, 总共处理88万tokens, 差不多将1M窗口用满-。88万tokens究竟是怎样的一个概念呢? 《三体》第1部字数约20万, 折合后大概四五十万tokens, GLM - 5.2一次可以“吃进”将近两本《三体》的信息量, 并且还能够精准输出可用代码。

智谱在底层架构方面下了大力气, 以此来支撑这个1M上下文, 借助IndexShare架构将单位token的FLOPs降低至2.9倍, 并且还对MTP层进行了改进, 从而提升投机解码效率。别担心若是弄不懂这些术语, 你只需明白: 别人构建1M上下文靠的硬堆算力, 成本高得惊人;智谱打造1M上下文凭借的是优化算法, 使得长上下文切实变得可用且可负担。

编程能力到底多强?数据不会撒谎

即使仅仅只是单单去看Code Arena这一个榜单, 或许会存在着偶然性, 然而呢, 当多个权威评测所得到的数据被摆放在一起的时候, 那个趋势就变得非常清晰明了了。

在FrontierSWE这个基准上, 该基准专门用于测试长周期任务完成能力, GLM - 5.2得分74.4%, 仅仅落后Claude Opus 4.8, 使其得分75.1%不到1个百分点, 与此同时超过了GPT - 5.5的72.6%。在Terminal - Bench 2.1评测里, GLM - 5.2得分81.0, 相比于前代GLM - 5.1的63.5大幅提升了17.5个百分点。于SWE - bench Pro之上获得了62.1分, 此分数越过了GPT - 5.5的58.6分, 还超过了GLM - 5.1的58.4 - 分呐。

从综合方面去看, 智谱官方所给出的关于GLM - 5.2与Claude Opus 4.8之间差距缩小到1%至4%的这种说法, 是有着数据作为支撑依据的, 并非是在进行毫无根据的吹嘘行为。

还有一个更为直观的例子,用一句话去描述需求, GLM - 5.2便能够独立自主地去完成开发, 完成联调, 完成测试, 一直到打包上线, 在几小时之内交付一个无论是网页, 还是手机, 亦或是小程序都能够使用的完整应用。而以前做这种事情的时候, 往往是需要一支团队耗费数周时间来完成的。从“几周”变成“几小时”这件事, 这并不是简单的效率得到提升, 而是生产力范式的切换。

外网开发者的反应开云正版app下载开云app在线入口,语气变了

GLM - 5.2发布之后, 外网开发者的首个反应并非去询问价格, “便宜、能用、省钱”这些词汇长久地贴在诸多国产模型身上, 大家默认国产模型走的就是性价比路线, 凭借低价来抢占市场, 然而这次讨论的语气有了些许变化, 它似乎真的能够发挥作用了。

有人对GLM - 5.2和GLM - 5.1进行同一份一千七百行Python代码审查, 结果并非是准确率实现碾压, 而是在同等准确率的情况下, 时间先是十二四点八秒降到了四十七点七秒, 输出token数量从三千四百三十六个收窄至一千四百一十五个, 速度快了二点六倍, 输出减少了差不多百分之六十。这的情况下, 结果不意味着什么? 意味着开发者运用GLM - 5.2进行代码审查, 不光节省了时间, 还省掉了大量用于阅读理解冗余输出所需的大脑带宽。这种体验方面的提升, 比起跑分涨几十分可要实在得多。

当然, 也有用户反馈, 存在运行迟缓、拥堵以及额度消耗迅速等情况。这实属正常, 只因突然有大量用户涌入, 任何一款在线服务免不了承受压力。关键就在于基础能力已然就绪, 剩下的仅仅是工程优化方面的问题。

MIT开源 + 国产算力,这套组合拳打在了点上

以最宽松的MIT协议开源的GLM-5.2, 其可进行自由下载, 能够自由部署, 还可用于商用, 它在Hugging Face上能够下载, 在ModelScope上也能够下载, vLLM、SGLang、transformers这些主流推理框架都已经对其提供了支持。

更为关键不容忽视之事, 它于Day 0达成了同华为昇腾达成适配关系开展推理运作的任务, 还包括平头哥, 摩尔线程, 寒武纪, 昆仑芯, 沐曦, 海光, 如果有壁仞的话也算, 总共是多个国产的算力平台, 预计在下半年的时间点上, 当昇腾950的超节点正式上市之后, 其也会演变成GLM - 5.2构建算力基础的支撑所在。

在当下海外最为强大的模型朝着封闭方向转变, 开源替代需求不断上升这样的背景情形下, “开源国模加国产算力”如此一套组合, 想要不引发产业的关注那简直是困难至极。以往国产大模型最大的尴尬状况究竟是什么呢? 是虽模型实现了开源, 然而在进行推理操作的时候却得使用英伟达的卡, 即是说算力的命脉被掌控在他人手中。GLM - 5.2成功地将这条路打通了, 即开源协议给予你, 针对于国产算力也为你适配妥当, 从模型的打造直至算力方面达成了全链路的自主状态。

一个值得注意的时间节点

GLM - 5.2发布的那同一天开云app官方最新下载地址,存在着一件挺有意思的事情, 那就是, Anthropic的两款前沿模型, 因为美国出口管制的缘故, 被紧急下架了。在这一边, 海外最强的模型被禁止使用, 转而走向封闭状态。而在另一边, 国产开源模型在榜单上一路飙升, 冲到了全球可用模型的第一名。这两件事情, 在同一个时间节点发生了, 实在是很难不让人产生诸多联想, 进行深入思考呀。

虽说GLM - 5.2已在诸多方面有超越Claude Opus 4.8的态势, 然而在FrontierSWE上, 二者仍存在1个百分点的差距, 此差距是实际存在的。不过, 差距从原本的“望尘莫及”缩减至“触手可及”, 这样的变化本身是值得予以认真看待的。

智谱于2025年初开始集结力量去攻关代码基座, 接着推出GLM - 4.5, 而后又推出GLM - 4.7, 直至如今的GLM - 5.2。在一年半的时长里, 将一个开源模型推进到能与全球最为强大的闭源模型一较高下的位置。那其他国产模型究竟有着怎样的表现呢? Qwen - 3.7 Max排名第10, 得分是1531分, Kimi - K2.6排名第12, 得到1511分, MiniMax - M3排名第13, 分数为1511分。GLM - 5.2在国产模型中领先第二名达64分, 这个差距, 相较于GLM - 5.2领先Claude Opus 4.7的29分而言, 还要大出一倍多, 是这样的情况。

那句外网给出的评价, 值得再次去读数一遍: “它仿佛真的具备了能够干活的能力了。”, 这句话所拥有的最大杀伤力之处, 并非在于“干活”这个表述, 而是在于“真的”这两个字。以往的时候, 大家对于国产模型所抱有的期待仅仅是“能够使用就可以了”, 然而现如今, GLM - 5.2这款模型, 却使得人们开始去探讨“它与最为优秀的那个模型相比, 所存在的差距究竟有多少”, 而这本身实际上就是一种对于其的承认。

标签: AI编程 开源模型 GLM-5.2 国产模型 评测

发布评论 0条评论)

还木有评论哦,快来抢沙发吧~