Kimi：当别的AI在当“学霸”的时候，它已经开始当“老板”了

说实话，我一度对Kimi有点担心。2025年底到2026年初，国产AI圈简直像是开了倍速——DeepSeek卷价格，豆包卷场景，元宝卷生态，智谱卷参数。相比之下，Kimi这个曾经的“长文本王者”，好像有点安静过头了。朋友圈里讨论Kimi的人，肉眼可见地在变少。

原创

前几期写了混元、豆包、元宝、DeepSeek和Z.ai，这次轮到月之暗面的Kimi。

说实话，我一度对Kimi有点担心。2025年底到2026年初，国产AI圈简直像是开了倍速——DeepSeek卷价格，豆包卷场景，元宝卷生态，智谱卷参数。相比之下，Kimi这个曾经的“长文本王者”，好像有点安静过头了。朋友圈里讨论Kimi的人，肉眼可见地在变少。

但2026年4月21日，Kimi半夜放大招——正式发布并开源Kimi K2.6模型。开源、代码能力对标GPT-5.4、300个子Agent并行、Claw群组内测……一口气把能打的牌全甩出来了。其实这个模型在发布前几个月，圈内就已经有了传言，说月之暗面正在搞一个能让AI“组团上班”的东西。结果不但搞出来了，还直接开源了。

Kimi+：从“聊天”到“干活”，差了一个“+”的距离
在聊K2.6之前，我得先说说Kimi+。因为如果你只把Kimi当普通聊天框用，那你可能跟它过去大半年的进化完全错过了。

Kimi于2024年5月就上线了智能体商店Kimi+，但在当时被更耀眼的“200万字长文本”功能掩盖了光芒，直到近期才被用户重新发现。Kimi+的本质是一个智能体商店，里面封装了研报分析、学术翻译、IT面试、提示词专家等预设好的技能包。如果DeepSeek、GPT这些通用AI是“最强大脑”，你需要绞尽脑汁写提示词去压榨它，那Kimi+更像配好全套装备的“职业经理人”——它不再等你去想怎么提问，而是已经把场景化的解决方案封装好了。比如点开“学术翻译”智能体，你不用再跟它说“请把下面这段英文论文翻译成中文，保持学术风格，术语要准确”，它天生就知道该干什么。

这背后的核心差异在于Kimi+的Agent底层架构。普通模型是线性的：你输入，它预测下一个字。但Kimi+的智能体是环形的，在模型之上加上了“手脚”和“工作流”。点开Kimi+，启动的不仅是一个文本生成器，更是一个自主决策系统——它会像人一样思考：第一步搜全网，第二步读文档，第三步剔除广告信息，最后才给结论。这不是单纯的“换了层皮肤”，而是从Chat到Do的跨越。

找找AI独家小技巧：Kimi+的智能体可以串联使用。先用“学术搜索”智能体搜集文献，把结果直接喂给“学术翻译”智能体，再交给“提示词专家”润色提问格式——一个AI把三个角色的活全干了。如果想自己定制专属智能体，Kimi+上层的Agent模式支持创建和调用自定义技能。官网首页底部的提示也提到过，想体验像人一样操控浏览器的自动化AI，需要先安装配置WebBridge。这也是后面要说的Kimi Claw的核心入口。

K2.6的硬核：13小时编码+300个Agent“组团搬砖”
聊完Kimi+，终于可以回到让圈内震惊的K2.6模型了。K2.6能连续编码13小时、编写或修改超过4000行代码，完成复杂系统的开发与优化，这次升级的核心可以概括为两件事：一是代码能力的爆发，二是Agent集群的规模化。

在基准测试方面，K2.6在博士级难度的完整版“人类最后的考试”（Humanity‘s Last Exam）中拿到了54.0%的得分位居第一；在考察真实软件工程能力的SWE-Bench Pro中得分58.6%，成绩领先所有闭源模型。在Artificial Analysis上取得了全球开源第一的成绩，仅次于闭源的全球“御三家”。

但跑分归跑分，真正的震撼来自实测案例。Kimi内部让K2.6在Mac本地部署并优化了一个小模型，使用非常小众的Zig编程语言。这不是主流语言，没人手把手教过它。结果K2.6自己学习了12个小时，发起了4000多次工具调用，迭代了14个版本，最终把推理速度从15 tokens/秒提升到193 tokens/秒，比业界主流的LM Studio还快了20%。

另一个案例更离谱。K2.6接手了exchange-core——一个有8年历史的开源金融撮合引擎，这个引擎此前已经被优化到接近性能极限。结果K2.6在13小时内进行了1000多次工具调用，精准修改了4000多行代码，最终把中位吞吐量提升了185%，峰值吞吐量提升了133%。它像一个经验丰富的系统架构师，分析CPU火焰图、定位内存瓶颈、重构线程拓扑。

而Agent集群能力的升级，是K2.6最让我觉得“AI未来已来”的地方。K2.5时已经提出了“Agent集群”概念——能调度不同专长的Agent互相补位，广度搜索、深度研究、文档分析一起并行处理。到了K2.6，这个数字达到了300个子Agent并行完成4000个协作步骤。

有一个实测任务很有说服力：让它同时产出三份东西——一份完整的行业调研报告（55页、3.5万字），一张结构化的功能对比表格，一份10页可以直接拿去汇报的PPT。Agent集群对任务维度进行了初步拆解，划分出12个维度并交给12位不同的专家负责，每个人都只调研自己的子问题，进度条和阶段性成果都能实时监控。到了正式撰稿阶段，又有不同专家负责各自的章节。最终三份产出一口气全部交付，不是按顺序一个接一个来，而是真的在并行跑，效率和交付质量都达到了可以直接用的水准。

在OpenClaw、Hermes Agent等主动式Agent框架中，K2.6还展现了长达5天的持续自主运行能力，可用于系统监控、故障响应和运维等场景。

找找AI独家小技巧：用K2.6做复杂任务时，别指望“一句话搞定一切”。更好的方式是先让Agent集群做任务拆解——“请把这个项目拆成5个并行子任务，分别由不同的子Agent负责”。然后监控每个子任务的进度，有针对性的地方再手动介入。这种“半自动”的模式，比完全放手或完全手动的效率都高。

Claw群组：AI版的“微信群聊”，但成员是会干活的
前面提到Kimi Claw，这是Kimi近期另一个让人眼前一亮的产品——让AI像人一样使用浏览器的自动化方案。

原本OpenClaw需要本地部署、配置环境，普通人基本搞不定。Kimi直接把Kimi Claw做成了云端一键部署版，无需硬件成本，一人一订阅就能解锁个人云端智能体，支持7x24小时定时任务和持久长期记忆，越用越懂你，可以自动接管抓取资讯、整理资料等复杂工作流。ClawHub上还有超过5000个社区贡献的技能插件，可以快速搭建复杂工作流，连代码都不用写。

而Kimi最近开启小范围内测的“Claw群组”更上一层楼——把Claw能力从“一个人使唤AI”升级成了“一群Agent一起干活”。在Claw群组里，K2.6担任协调者，根据Agent的技能画像和可用工具动态匹配任务，实现能力的最优配置。多个Agent与人类作为真正的协作者共同运行。

想象一下：一个群里有专门爬数据的Agent、专门写报告Agent、专门做PPT的Agent，还有一个专门质检的Agent。你只需要在群里@一下K2.6说“帮我做一份竞品分析”，它自己分配任务、协调进度、合并结果。目前已经是开放、异构的生态设计，多个Agent和人类共处一个群聊共同协作。这不就是AI版的老板吗？

找找AI独家小技巧：Kimi Claw需要一定的指令调教技巧。简单发一句“帮我自动抓取今天的热门资讯”很可能得到不尽如人意的结果。更有效的方式是拆解指令：“先用WebBridge打开新浪首页→提取头条前五条→将标题和链接整理成Markdown表格→存到我的Claw云存储中”。把流程拆成具体的动作步骤，Claw的执行效果会好很多，不然很容易出现“好像干了但也没干出什么”的尴尬局面。

长文本还在，但已经不是唯一的主角了
说到Kimi，就不能不提它的老本行——长文本。

很多人认识Kimi，就是因为“200万字上下文”。当年ChatGPT还在2.5万字，Kimi直接一个数量级碾压。到了K2.6，这个能力不仅没丢，还在精细化上做了很多优化。实测结果显示，单次可处理约20万至30万字，远超多数主流模型，在长文档分析和复杂逻辑推导方面表现突出。

但在K2.6的发布会上，月之暗面其实做了一次战略转向——长文本从“唯一卖点”变成了“基础能力”，而Agent集群和代码能力成了新的主角。这背后的逻辑很清晰：能读多长是基本功，但读完了能不能干活，才是分水岭。K2.6能让AI自己规划、自己执行、自己纠错直到任务完成。他们内部的“Kimi Design Bench”前端开发设计评测基准，从视觉输入、落地页构建、全栈应用到通用Web开发四个维度，已经和Google AI Studio打得有来有回了。

找找AI独家小技巧：想让长文本处理更精准，喂文档之前先加一句“请逐段阅读，每读一段先输出该段的核心观点摘要，全部读完后基于所有摘要输出最终结论”。这种方法能强制模型在超长上下文中保持分段注意力，比一口气读完整份文档的问法明显减少信息遗漏。

定价与开源：Kimi在下一盘什么棋？
说了这么多功能，最后聊聊价格。

Kimi目前走得是“分层收费”路线。免费版可以满足大部分日常使用，包括K2.6的部分功能。付费会员从2025年9月开始上线，分为每月49元和99元两档。不过值得留意的是，近期已有评测发现，免费用户与付费用户收到的回答质量开始出现可测量的差异，部分免费用户会感到回答变“短”或变“浅”，这背后不是模型本身变差了，而是系统主动限制了免费用户的推理深度和上下文长度——商业策略的直接体现。此外，Kimi 2.5等模型此前已结束腾讯云平台上的免费公测，转为按量计费。

另外要说明的是，上面的Agent集群、13小时长程编码等硬核能力，主要是K2.6模型的技术底座。以月之暗面当前的分层策略，高强度的Agent任务和超长编码场景，一般会进入付费订阅或企业API服务范围，免费版能体验到的是基础能力。

Kimi还有一个不太一样的动作——开源。K2.6的模型权重全面开源，企业客户还可以选择私有化部署和规模化Agent解决方案。这种“开源模型+企业级服务”的双轨模式，加上月之暗面估值已达180亿美元、计划2026年下半年IPO的背景，让Kimi在商业化路径上明显比特立独行的DeepSeek更积极。

Kimi还不够完美的地方
说实话，Kimi不是没有问题。

首先，月活数据在波动。据《每日经济新闻》联合QuestMobile发布的《2026年一季度AI应用价值榜》，Kimi月活从峰值的约3600万跌至约833.8万，连续四个季度下滑。在豆包月活逼近3.5亿、巨头们用数十亿推广费砸市场的围剿下，Kimi的用户规模确实面临不小的压力。

其次，API价格在涨。K2.6发布后，API输入价格从之前的约4元上涨到6.5元/百万Token，缓存命中情况下也从0.7元涨到了1.1元。这对依赖API的开发者来说，成本账需要重新算一算。

第三，Kimi Claw的易用性仍有待验证。现有实测反馈显示，Kimi Claw本质上是一台为用户远程开好的虚拟机，它帮你省去了部署和配置的麻烦，但对OpenClaw部署之后的“调教”过程并没有做太多简化。如果用户不掌握正确的指令拆解方式，Claw的执行效果依然容易打折扣。Claw群组目前也还处于小范围内测阶段，大多数用户暂时还体验不到。

另外，Kimi的跨模态能力相对豆包、元宝等产品仍有追赶空间。虽然在K2.6中已深度融合图像和视频素材处理能力，但MathVision和V等纯视觉评测中，K2.6与GPT-5.4相比仍有差距。

谁适合用Kimi？
如果你是一个开发者或技术从业者——K2.6的Agent集群和长程编程能力是目前国内最值得关注的技术底座之一。它能够像人一样“连续工作”十几小时、自己调试自己改Bug的特性，跟那些“写完代码就等你来问下一步”的AI完全不是一个物种。

如果你是一个需要频繁处理超长文档的研究者或分析师——Kimi的老本行依然是同价位产品中最扎实的选择之一，20-30万字的一次性处理能力足以覆盖大部分专业场景。

如果你想体验“AI打工”的最新形态——Kimi Claw和Claw群组是目前国内为数不多能把多个Agent当成同事来用的产品，虽然还在内测阶段，但方向是对的。

但如果你只是需要一个日常AI助手——问天气、写日记、帮孩子做奥数题——Kimi的免费版也许够用，但要说综合场景覆盖和用户生态的丰富度，豆包或元宝的免费方案可能更“全科”一些。另一方面，如果你的工作对响应时间或价格高度敏感，Kimi近期的API涨价和部分免费用户质量降权也是需要提前衡量的因素。

总的来说，Kimi给我的感觉是这家公司在做一件“方向对了”但还在“赶路”的事——从“能读多长”进化到“能做多久”，从“一个AI”进化到“一群AI分工”。长文本时代Kimi是第一个冲出来的黑马，Agent时代它又成了第一个把“300个AI一起干活”变成现实的团队。

至少对我而言，需要处理那种“跨度长、步骤多、单靠人力盯会盯到崩溃”的任务时，Kimi已经是我第一个想到的工具了。不过在决定掏钱买会员之前，建议先拿免费额度做个两周左右的实测，看看它到底能不能适配你自己的真实工作流——毕竟AI这东西，跑分再好看都不如跟自己手头的活儿合拍重要。

Kimi：当别的AI在当“学霸”的时候，它已经开始当“老板”了

作者更多笔记

尘言