智谱GLM-5实测：那个让硅谷猜破头的“Pony Alpha”，终于摘了马甲

就在大家以为DeepSeek已经够狠的时候，智谱AI扔出了一颗重磅炸弹——GLM-5。而且，这款模型上线之前，居然以一个叫"Pony Alpha"的匿名马甲悄悄在海外技术社区测试了一周，把硅谷的人都搞懵了。有人猜是Claude 5的马甲，有人猜是哪家大厂的秘密武器。

原创

AI老司机

找找AI

直到2月11日，靴子落地。那个神秘模型，就是智谱AI的春节大招——GLM-5。而且它直接开源了。

老实说，之前我对国产模型的印象停留在"跑分挺高，用起来两回事"的阶段。但这次花了一周时间认真跑了一轮GLM-5之后，我得说实话：这是我第一次在真实项目里觉得，某些场景下国产模型真的可以替代Claude了。

从7440亿参数开始：不止是变大，更是一次重构

先上硬参数。GLM-5的总参数量达到了7440亿（激活400亿），相比上一代GLM-4.5的3550亿（激活320亿）直接翻倍，预训练数据也从23T tokens增加到了28.5T。

但这次真正的技术突破不在数字上，而在于四个底层创新。

第一是把DeepSeek Sparse Attention（DSA）稀疏注意力机制给"嫁接"了过来。这个技术能让模型在处理长文本时大幅降低推理成本，同时完整保留长上下文的质量。说白了，就是能吃得下更多东西，还不会撑死。

第二是智谱自己研发的异步强化学习框架"Slime"。这个名字挺萌，但做的事儿非常硬核——让模型能从长期交互中持续学习，而不是简单靠堆数据、堆参数。这也是GLM-5 Agent能力变强的核心原因之一。

第三是全面拥抱国产算力生态。GLM-5从底层就原生适配了华为昇腾、摩尔线程、海光、寒武纪、昆仑芯、天数智芯、燧原七大国产芯片平台。这意味着，就算哪天猫厂真的卡脖子，智谱的模型也能稳稳跑在国内的硬件上。

第四是架构设计。据技术社区披露，GLM-5采用了78层Transformer解码器。前三层是稠密结构，第四层开始采用混合专家（MoE）架构，配置了256个专家网络，处理单个token时激活其中8个，并配有1个共享专家来保证基础能力稳定。这套设计在效率和规模之间找到了一个非常好的平衡点，既保留了大模型规模的优势，又通过专家激活机制控制了实际计算成本。

找找AI独家小技巧：GLM-5在200K上下文窗口下配合稀疏注意力，成本控制相当出色。如果你需要频繁处理超长文档，可以在对话开始时加一句"请在后续回答中记录我已读过的章节摘要，避免重复解析"，利用模型自身的连贯性来进一步节省计算开销。

编程能力：干掉Claude Opus？实测结果让我闭嘴了

GLM-5这次最狠的地方，就是编程能力的爆发。

在SWE-bench-Verified（最权威的软件工程榜单），GLM-5拿下了77.8分，开源模型里全球第一。在Terminal Bench 2.0上更是拿到了56.2分，同样开源第一。

而且在代理编程（Agentic Coding）测试中，GLM-5在Kilo CLI上得分589，以微弱优势超过了前不久发布的最强编程模型Claude Opus的585分。

更狠的是，GLM-5在7个核心Agent和编程评测基准上的平均成绩，相比GLM-4.7提升了约20%，整体水平跟Claude Opus 4.5和GPT-5.2（xhigh）相当，甚至超过了Gemini 3 Pro。

Artificial Analysis Intelligence Index v4.0的评分中，GLM-5拿到了50分，成为首个在该榜单中达到这个分数的开源模型。

不过，跑分归跑分，还是得看真实体感。

我测了几个更刁钻的任务。第一个让GLM-5写一个模拟卫星向地面接收器发送信号的交互程序。它没有立刻动笔，而是稍微"停顿"了一下——然后在模拟思考后，生成了一个完整的HTML网页。屏幕上卫星不仅有环绕地球的轨道运动，信号传输甚至还带有符合多普勒效应的波纹扩散动画-13。它真的理解"模拟"背后的物理，而不是简单"画"出来。

接着我加大了难度。让GLM-5展示单行道交通信号灯的工作原理，车辆随机进入。不到3分钟，一个动态的交通流模拟图就出来了。逻辑严丝合缝——绿灯放行，红灯排队，车辆加速减速的随机性也模拟得相当到位。

真正让我震惊的是一次项目测试。网友让GLM-5从零搓了一个Game Boy Advance（GBA）模拟器。任务涵盖了500多条CPU指令集、内存分页机制、音频子系统和图形渲染时序，哪怕一条指令出错，整个项目就会在几小时后崩盘。

结果呢？GLM-5跑完了。它在没有网络搜索、没有任何参考代码的情况下，连续跑了超过24小时，调用了700多次工具，切换了800多次上下文，从头写出了GBA模拟器。

更离谱的是，第700次工具调用跟第一次在语法、格式上完全没有差异，就算上下文切换了800次，它依然严格遵守每一条预设规范。这种长时间、跨步骤的稳定性，是以前任何开源模型都没给过我的体验。

找找AI独家小技巧：用GLM-5做大型项目开发时，千万别一次让AI从零写完。可以先给一句指令"请先做架构设计，输出模块划分和关键技术选型，确认后再分模块编码"。这样可以显著降低大型项目因为其中一个小模块出错导致全盘重来的风险。

Agent能力：从"氛围编程"到"智能体工程"

GLM-5的最大卖点，不是"会写代码"，而是"会写工程"。

智谱提出了一个概念——从"Vibe Coding"（氛围编程）转向"Agentic Engineering"（智能体工程）-。氛围编程是什么？就是程序员手把手提醒AI写代码，依赖人力，效率不高-。智能体工程才是AI应该干的事儿——自己规划任务、拆解目标、调用工具、执行闭环。

在三个Agent评测基准中，GLM-5全部拿下了开源第一。BrowseComp（联网检索与信息理解）、MCP-Atlas（工具调用和多步骤任务执行）、τ²-Bench（复杂多工具场景下的规划和执行）——统统都是第一名。

我的实际体感也印证了这一点。以前用GLM-4.7做复杂Agent任务，到了第15到20步左右经常会"忘记自己在干嘛"，跑着跑着就跑偏了。但GLM-5的改善非常大。另外，GLM-5在工具调用的出错率上也控制得非常好——在OpenRouter平台上，工具调用错误率最低能到0.07%。对于需要稳定运行的生产环境，这个容错率非常关键。

还有个有趣的测试：Vending Bench 2。这个评测让模型在模拟的一年时间内经营一台自动售货机，以最终的账户余额评分。GLM-5拿下了开源模型里最高分——最终账户余额达到了4432美元，逼近Claude Opus 4.5。AI居然能经营售货机赚钱，还能赚这么多——这就是长程任务规划能力的真实体现。

找找AI独家小技巧：让GLM-5做长期Agent任务时，可以在任务描述里加一句"请每完成5个子任务后，主动回顾最初的目标指令，确认是否偏离"，强迫模型在长链路里持续对齐原始意图，避免中间环节走偏。

多模态：GLM-5V-Turbo——给AI装上一双眼睛

编程能力强悍只是GLM-5的一面。2026年4月，智谱又放了一个大招——GLM-5V-Turbo，首个原生多模态Coding基座模型。

听起来有点绕，翻译成人话就是：这个模型不只会看文本，还能看懂图片、视频、设计稿、网页截图，然后直接写出能运行的代码。

它的视觉底座采用了自研的CogViT编码器，两阶段预训练，能精确识别到屏幕上哪怕几个像素大小的按钮位置。而且多模态能力是在预训练阶段就深度融合的，不是简单的"给语言模型外挂一个摄像头"。

实际效果怎样？

最直接的体现就是"设计稿直接生成代码"。你把一张UI设计图丢给它，它看着布局就自动写出HTML和CSS，而不是像以前那样用笼统描述来猜样式。字节跳动、美团、快手等大厂在内测阶段都对它给了很高的评价："GLM-5V-Turbo实现了从设计稿到代码的完整还原，作为一款视觉理解模型，能够很好地满足开发者的前端开发场景"。

而且引入视觉能力后，模型的纯文本编程能力没有下降，在后台开发、前端界面和仓库探索等核心基准测试中都保持了稳定表现。

更实用的是，GLM-5V-Turbo和OpenClaw/AutoClaw等Agent深度整合，能让龙虾Agent看懂屏幕上的信息并执行任务——在PinchBench、ClawEval等核心评测基准上取得了相当不错的成绩。

找找AI独家小技巧：想让GLM-5V-Turbo的海报生成更准，在提示词里把文字用方括号标出来。比如"在配图右上角加上[Launch Sale]字样"。它能识别这种结构化指令，比纯自然语言描述的成功率明显更高。

开源与价格：7440亿参数免费拿，API价格也足够亲民

GLM-5最让人惊叹的一点——它开源了。在Hugging Face和ModelScope上，7440亿参数的完整模型权重都公开可下载，且采用MIT License。这在全世界范围内都是第一个做到这个级别的开源模型。

要知道，Claude Opus 4.5还是闭源的，DeepSeek虽然开源但规模和能力跟GLM-5不是一个级别。硅谷顶级风投a16z都专门做过对比，结论是开源模型和顶级闭源模型的差距，正在以肉眼可见的速度快速收窄。

如果你不想自己部署这么大的模型，也可以直接调用API。输入4元/百万tokens，输出18元/百万tokens。对比之前提到的GLM-5在代理编程任务上的成本只有0.14美元，而同等水平的Claude Opus 4.6要6