前几期写了混元、豆包、元宝、DeepSeek和Z.ai,这次轮到月之暗面的Kimi。
说实话,我一度对Kimi有点担心。2025年底到2026年初,国产AI圈简直像是开了倍速——DeepSeek卷价格,豆包卷场景,元宝卷生态,智谱卷参数。相比之下,Kimi这个曾经的“长文本王者”,好像有点安静过头了。朋友圈里讨论Kimi的人,肉眼可见地在变少。
但2026年4月21日,Kimi半夜放大招——正式发布并开源Kimi K2.6模型。开源、代码能力对标GPT-5.4、300个子Agent并行、Claw群组内测……一口气把能打的牌全甩出来了。其实这个模型在发布前几个月,圈内就已经有了传言,说月之暗面正在搞一个能让AI“组团上班”的东西。结果不但搞出来了,还直接开源了。
Kimi+:从“聊天”到“干活”,差了一个“+”的距离
在聊K2.6之前,我得先说说Kimi+。因为如果你只把Kimi当普通聊天框用,那你可能跟它过去大半年的进化完全错过了。
Kimi于2024年5月就上线了智能体商店Kimi+,但在当时被更耀眼的“200万字长文本”功能掩盖了光芒,直到近期才被用户重新发现。Kimi+的本质是一个智能体商店,里面封装了研报分析、学术翻译、IT面试、提示词专家等预设好的技能包。如果DeepSeek、GPT这些通用AI是“最强大脑”,你需要绞尽脑汁写提示词去压榨它,那Kimi+更像配好全套装备的“职业经理人”——它不再等你去想怎么提问,而是已经把场景化的解决方案封装好了。比如点开“学术翻译”智能体,你不用再跟它说“请把下面这段英文论文翻译成中文,保持学术风格,术语要准确”,它天生就知道该干什么。
这背后的核心差异在于Kimi+的Agent底层架构。普通模型是线性的:你输入,它预测下一个字。但Kimi+的智能体是环形的,在模型之上加上了“手脚”和“工作流”。点开Kimi+,启动的不仅是一个文本生成器,更是一个自主决策系统——它会像人一样思考:第一步搜全网,第二步读文档,第三步剔除广告信息,最后才给结论。这不是单纯的“换了层皮肤”,而是从Chat到Do的跨越。
找找AI独家小技巧:Kimi+的智能体可以串联使用。先用“学术搜索”智能体搜集文献,把结果直接喂给“学术翻译”智能体,再交给“提示词专家”润色提问格式——一个AI把三个角色的活全干了。如果想自己定制专属智能体,Kimi+上层的Agent模式支持创建和调用自定义技能。官网首页底部的提示也提到过,想体验像人一样操控浏览器的自动化AI,需要先安装配置WebBridge。这也是后面要说的Kimi Claw的核心入口。
K2.6的硬核:13小时编码+300个Agent“组团搬砖”
聊完Kimi+,终于可以回到让圈内震惊的K2.6模型了。K2.6能连续编码13小时、编写或修改超过4000行代码,完成复杂系统的开发与优化,这次升级的核心可以概括为两件事:一是代码能力的爆发,二是Agent集群的规模化。
在基准测试方面,K2.6在博士级难度的完整版“人类最后的考试”(Humanity‘s Last Exam)中拿到了54.0%的得分位居第一;在考察真实软件工程能力的SWE-Bench Pro中得分58.6%,成绩领先所有闭源模型。在Artificial Analysis上取得了全球开源第一的成绩,仅次于闭源的全球“御三家”。
但跑分归跑分,真正的震撼来自实测案例。Kimi内部让K2.6在Mac本地部署并优化了一个小模型,使用非常小众的Zig编程语言。这不是主流语言,没人手把手教过它。结果K2.6自己学习了12个小时,发起了4000多次工具调用,迭代了14个版本,最终把推理速度从15 tokens/秒提升到193 tokens/秒,比业界主流的LM Studio还快了20%。
另一个案例更离谱。K2.6接手了exchange-core——一个有8年历史的开源金融撮合引擎,这个引擎此前已经被优化到接近性能极限。结果K2.6在13小时内进行了1000多次工具调用,精准修改了4000多行代码,最终把中位吞吐量提升了185%,峰值吞吐量提升了133%。它像一个经验丰富的系统架构师,分析CPU火焰图、定位内存瓶颈、重构线程拓扑。
而Agent集群能力的升级,是K2.6最让我觉得“AI未来已来”的地方。K2.5时已经提出了“Agent集群”概念——能调度不同专长的Agent互相补位,广度搜索、深度研究、文档分析一起并行处理。到了K2.6,这个数字达到了300个子Agent并行完成4000个协作步骤。
有一个实测任务很有说服力:让它同时产出三份东西——一份完整的行业调研报告(55页、3.5万字),一张结构化的功能对比表格,一份10页可以直接拿去汇报的PPT。Agent集群对任务维度进行了初步拆解,划分出12个维度并交给12位不同的专家负责,每个人都只调研自己的子问题,进度条和阶段性成果都能实时监控。到了正式撰稿阶段,又有不同专家负责各自的章节。最终三份产出一口气全部交付,不是按顺序一个接一个来,而是真的在并行跑,效率和交付质量都达到了可以直接用的水准。
在OpenClaw、Hermes Agent等主动式Agent框架中,K2.6还展现了长达5天的持续自主运行能力,可用于系统监控、故障响应和运维等场景。
找找AI独家小技巧:用K2.6做复杂任务时,别指望“一句话搞定一切”。更好的方式是先让Agent集群做任务拆解——“请把这个项目拆成5个并行子任务,分别由不同的子Agent负责”。然后监控每个子任务的进度,有针对性的地方再手动介入。这种“半自动”的模式,比完全放手或完全手动的效率都高。
Claw群组:AI版的“微信群聊”,但成员是会干活的
前面提到Kimi Claw,这是Kimi近期另一个让人眼前一亮的产品——让AI像人一样使用浏览器的自动化方案。
原本OpenClaw需要本地部署、配置环境,普通人基本搞不定。Kimi直接把Kimi Claw做成了云端一键部署版,无需硬件成本,一人一订阅就能解锁个人云端智能体,支持7x24小时定时任务和持久长期记忆,越用越懂你,可以自动接管抓取资讯、整理资料等复杂工作流。ClawHub上还有超过5000个社区贡献的技能插件,可以快速搭建复杂工作流,连代码都不用写。
而Kimi最近开启小范围内测的“Claw群组”更上一层楼——把Claw能力从“一个人使唤AI”升级成了“一群Agent一起干活”。在Claw群组里,K2.6担任协调者,根据Agent的技能画像和可用工具动态匹配任务,实现能力的最优配置。多个Agent与人类作为真正的协作者共同运行。
想象一下:一个群里有专门爬数据的Agent、专门写报告Agent、专门做PPT的Agent,还有一个专门质检的Agent。你只需要在群里@一下K2.6说“帮我做一份竞品分析”,它自己分配任务、协调进度、合并结果。目前已经是开放、异构的生态设计,多个Agent和人类共处一个群聊共同协作。这不就是AI版的老板吗?
找找AI独家小技巧:Kimi Claw需要一定的指令调教技巧。简单发一句“帮我自动抓取今天的热门资讯”很可能得到不尽如人意的结果。更有效的方式是拆解指令:“先用WebBridge打开新浪首页→提取头条前五条→将标题和链接整理成Markdown表格→存到我的Claw云存储中”。把流程拆成具体的动作步骤,Claw的执行效果会好很多,不然很容易出现“好像干了但也没干出什么”的尴尬局面。
长文本还在,但已经不是唯一的主角了
说到Kimi,就不能不提它的老本行——长文本。
很多人认识Kimi,就是因为“200万字上下文”。当年ChatGPT还在2.5万字,Kimi直接一个数量级碾压。到了K2.6,这个能力不仅没丢,还在精细化上做了很多优化。实测结果显示,单次可处理约20万至30万字,远超多数主流模型,在长文档分析和复杂逻辑推导方面表现突出。
但在K2.6的发布会上,月之暗面其实做了一次战略转向——长文本从“唯一卖点”变成了“基础能力”,而Agent集群和代码能力成了新的主角。这背后的逻辑很清晰:能读多长是基本功,但读完了能不能干活,才是分水岭。K2.6能让AI自己规划、自己执行、自己纠错直到任务完成。他们内部的“Kimi Design Bench”前端开发设计评测基准,从视觉输入、落地页构建、全栈应用到通用Web开发四个维度,已经和Google AI Studio打得有来有回了。
找找AI独家小技巧:想让长文本处理更精准,喂文档之前先加一句“请逐段阅读,每读一段先输出该段的核心观点摘要,全部读完后基于所有摘要输出最终结论”。这种方法能强制模型在超长上下文中保持分段注意力,比一口气读完整份文档的问法明显减少信息遗漏。
定价与开源:Kimi在下一盘什么棋?
说了这么多功能,最后聊聊价格。
Kimi目前走得是“分层收费”路线。免费版可以满足大部分日常使用,包括K2.6的部分功能。付费会员从2025年9月开始上线,分为每月49元和99元两档。不过值得留意的是,近期已有评测发现,免费用户与付费用户收到的回答质量开始出现可测量的差异,部分免费用户会感到回答变“短”或变“浅”,这背后不是模型本身变差了,而是系统主动限制了免费用户的推理深度和上下文长度——商业策略的直接体现。此外,Kimi 2.5等模型此前已结束腾讯云平台上的免费公测,转为按量计费。
另外要说明的是,上面的Agent集群、13小时长程编码等硬核能力,主要是K2.6模型的技术底座。以月之暗面当前的分层策略,高强度的Agent任务和超长编码场景,一般会进入付费订阅或企业API服务范围,免费版能体验到的是基础能力。
Kimi还有一个不太一样的动作——开源。K2.6的模型权重全面开源,企业客户还可以选择私有化部署和规模化Agent解决方案。这种“开源模型+企业级服务”的双轨模式,加上月之暗面估值已达180亿美元、计划2026年下半年IPO的背景,让Kimi在商业化路径上明显比特立独行的DeepSeek更积极。
Kimi还不够完美的地方
说实话,Kimi不是没有问题。
首先,月活数据在波动。据《每日经济新闻》联合QuestMobile发布的《2026年一季度AI应用价值榜》,Kimi月活从峰值的约3600万跌至约833.8万,连续四个季度下滑。在豆包月活逼近3.5亿、巨头们用数十亿推广费砸市场的围剿下,Kimi的用户规模确实面临不小的压力。
其次,API价格在涨。K2.6发布后,API输入价格从之前的约4元上涨到6.5元/百万Token,缓存命中情况下也从0.7元涨到了1.1元。这对依赖API的开发者来说,成本账需要重新算一算。
第三,Kimi Claw的易用性仍有待验证。现有实测反馈显示,Kimi Claw本质上是一台为用户远程开好的虚拟机,它帮你省去了部署和配置的麻烦,但对OpenClaw部署之后的“调教”过程并没有做太多简化。如果用户不掌握正确的指令拆解方式,Claw的执行效果依然容易打折扣。Claw群组目前也还处于小范围内测阶段,大多数用户暂时还体验不到。
另外,Kimi的跨模态能力相对豆包、元宝等产品仍有追赶空间。虽然在K2.6中已深度融合图像和视频素材处理能力,但MathVision和V等纯视觉评测中,K2.6与GPT-5.4相比仍有差距。
谁适合用Kimi?
如果你是一个开发者或技术从业者——K2.6的Agent集群和长程编程能力是目前国内最值得关注的技术底座之一。它能够像人一样“连续工作”十几小时、自己调试自己改Bug的特性,跟那些“写完代码就等你来问下一步”的AI完全不是一个物种。
如果你是一个需要频繁处理超长文档的研究者或分析师——Kimi的老本行依然是同价位产品中最扎实的选择之一,20-30万字的一次性处理能力足以覆盖大部分专业场景。
如果你想体验“AI打工”的最新形态——Kimi Claw和Claw群组是目前国内为数不多能把多个Agent当成同事来用的产品,虽然还在内测阶段,但方向是对的。
但如果你只是需要一个日常AI助手——问天气、写日记、帮孩子做奥数题——Kimi的免费版也许够用,但要说综合场景覆盖和用户生态的丰富度,豆包或元宝的免费方案可能更“全科”一些。另一方面,如果你的工作对响应时间或价格高度敏感,Kimi近期的API涨价和部分免费用户质量降权也是需要提前衡量的因素。
总的来说,Kimi给我的感觉是这家公司在做一件“方向对了”但还在“赶路”的事——从“能读多长”进化到“能做多久”,从“一个AI”进化到“一群AI分工”。长文本时代Kimi是第一个冲出来的黑马,Agent时代它又成了第一个把“300个AI一起干活”变成现实的团队。
至少对我而言,需要处理那种“跨度长、步骤多、单靠人力盯会盯到崩溃”的任务时,Kimi已经是我第一个想到的工具了。不过在决定掏钱买会员之前,建议先拿免费额度做个两周左右的实测,看看它到底能不能适配你自己的真实工作流——毕竟AI这东西,跑分再好看都不如跟自己手头的活儿合拍重要。
找找AI 原创出品
知屿
Kimi:当别的AI在当“学霸”的时候,它已经开始当“老板”了
AI 摘要
说实话,我一度对Kimi有点担心。2025年底到2026年初,国产AI圈简直像是开了倍速——DeepSeek卷价格,豆包卷场景,元宝卷生态,智谱卷参数。相比之下,Kimi这个曾经的“长文本王者”,好像有点安静过头了。朋友圈里讨论Kimi的人,肉眼可见地在变少。