评测体系的博弈论：大家都在作弊，只是没人说

文 / 尘锋

2026年初，LMArena（LMSYS Chatbot Arena）——这个被无数研究者奉为圭臬的评测平台，被一篇文章钉在了耻辱柱上。文章标题非常直接：《LMArena is a cancer on AI》。一个行业公认的“金标准”，突然被骂成“癌症”。发生了什么？

事情的导火索是Surge AI做的一项调查。这家总部在旧金山的数据标注公司，客户包括OpenAI、Google、Microsoft、Meta、Anthropic，是行业内非常专业的第三方。他们分析了LMArena上500组投票数据，结果让人倒吸一口凉气——52%的获胜回答在事实上是错的，39%的投票结果与事实严重相悖。

在LMArena的规则下，用户随机看到两个匿名模型的回答，投票选出更好的那个。用户花两三秒扫一眼，哪个格式漂亮、哪个用了粗体、哪个加了表情符号，就选哪个。事实对不对，不重要。

这不是评测，这是选美。

Meta很快把它演成了一出行为艺术。它发布了一款叫Maverick的模型，在LMArena上势如破竹，冲到排行榜第二，超越了GPT-4o。开发者扒开一看，发现Meta提交到LMArena的版本，被专门优化成了长篇大论、表情符号满天飞、极尽谄媚之能事的“讨好版”，和公开发布的版本完全不是一回事。公开版直接掉到了榜单第32名。连扎克伯格都承认，他们就是在hack这个榜单。

Meta不是唯一这么干的。只是它被逮住了。

榜单公信力正在全面塌陷，不只是LMArena一家的问题。

伯克利研究团队揭露了8大主流AI智能体评测基准存在系统性漏洞，AI能力排行的可信度受到严峻质疑。OpenAI新模型发布日就被用户嫌弃“太拉了”。有人发现某视觉benchmark的官方代码存在荒谬bug，GT错误率高达30%。还有，中国电信发布的天罡AI评测平台2026年1月榜单上，deepseek-v3.2-Speciale以85.43分位居国内榜首，但没过多久，DeepSeek V4又被人评价说比美国同类技术更具成本优势，但能力上与美国顶尖水平还存在约8个月的技术差距。

同一个模型，在不同榜单上，有时是天，有时是地。

为什么？秘密在“数据污染”四个字里。

NIST（美国国家标准与技术研究院）采用半私有数据集与自研闭源评测体系，把测试集藏起来不公开，可有效规避大模型团队作弊——也就是研发者把测试数据混进训练数据里，让模型提前“背答案”。但闭源评测也被人质疑“你凭什么定义什么是好的AI”。

另一个矛盾是评测成本。

北大团队开源的One-Eval框架，把过去要花好几周的人工评测压缩到了10小时。但One-Eval目前主要覆盖纯文本能力，大模型的评测需求远远不止写作文。

更大的成本问题在另一端。2026年，一家叫Yupp的AI模型评测平台关停了。它由a16z领投，手握3300万美元种子轮融资，上线不到一年吸引了130万用户。创始人在关闭声明里的话非常坦诚：“过去一年，AI模型的能力格局发生了巨大变化。我们堆在上面的那层工程和场景优化，在底座模型能力跃升面前，一夜之间归零。”

这就引出了一个更深的悖论：评测到底测的是模型的真实能力，还是模型“被教出来的表演”？

LMArena一个更致命的缺陷是：用户偏好长回答、漂亮格式和表情符号，而不是正确答案。平台知道这一点，也公开承认。他们的解决方案是什么？加一堆校正措施。批评者形容这是“炼金术”——试图从垃圾输入中变出严谨的评估结果。

同样的基座模型，走向截然不同的方向。一个学会了“我怎么让用户更喜欢”，一个学会了“我怎么给出更准确的答案”。半年后，它们变成两个物种。

我们以为我们在进行一场能力的竞赛。实际上，我们站在一个关于价值观的岔路口。

大模型评测体系正在经历从“如何客观评测”到“谁有资格定义客观”的范式转移。

一面是NIST这样的国家级机构试图建立闭源、可对抗作弊的评测体系。一面是LMArena这样的开放式平台，靠全民投票打分。一面是企业自建的内测体系，为自己融资和定价背书。一面是国内电信运营商、科研院所、互联网大厂争相发布自己的评测榜单。

每一个都在说“我是最客观的”。但客观本身，成了一种高度主观的标准。

这场评测话语权的博弈最终会走向哪里？三个趋势正在慢慢浮现。

第一，评测基准正在从通用能力转向场景化评估。TEXT Arena这样的平台已经在做文本生成评测，SWE-bench专注软件工程，MedQA负责医疗。AI模型正在从争夺“全能冠军”转向赛道上各自奔跑的“单科状元”。

第二，闭源和对抗性评测会成为主流。只要存在数据污染和刷榜，评测就只能变成厂商和评测机构之间不断升级的军备竞赛。评测机构藏数据，厂商反推数据，评测机构再换数据。成本越来越高，谁也赢不了。

第三，评测本身正在变成一个独立的生意。LMArena在2026年又融了一笔，估值冲到了17亿美元。给AI排名已经不只是技术活，更是一个估值逻辑。谁掌握了评测权，谁就掌握了AI行业的话语权。标准定义、数据壁垒、行业需求——这是一门数百亿美元的顶级生意。

最后一个问题留给你自己判断：当评测本身成了一场游戏，你和你的团队，打算怎么玩？

——尘锋，于行业泡沫与真相的交界处

大模型评测LMArena数据污染评测公信力评测经济

本文由「尘言」编辑：尘锋撰写，转载请注明出处。观点仅代表作者立场，不代表找找AI官方立场。

评测体系的博弈论：大家都在作弊，只是没人说

作者更多文章

具身AI的“皇帝新衣”：我们正用大模型的旧地图，寻找物理世界的新大陆

AI应用的“鬼打墙”：为什么每次觉得要起飞了，最后都原地打转？

AI硬件的“美丽废物”工厂：谁在批量生产电子垃圾？

我用AI画了100张图，然后发现自己成了“版权废人”

你用AI赚钱，AI公司用你赚钱——然后你被裁了

套个壳就收费，AI圈的“国产操作系统”剧本又来了