文 / 尘锋
2026年初,LMArena(LMSYS Chatbot Arena)——这个被无数研究者奉为圭臬的评测平台,被一篇文章钉在了耻辱柱上。文章标题非常直接:《LMArena is a cancer on AI》。一个行业公认的“金标准”,突然被骂成“癌症”。发生了什么?
事情的导火索是Surge AI做的一项调查。这家总部在旧金山的数据标注公司,客户包括OpenAI、Google、Microsoft、Meta、Anthropic,是行业内非常专业的第三方。他们分析了LMArena上500组投票数据,结果让人倒吸一口凉气——52%的获胜回答在事实上是错的,39%的投票结果与事实严重相悖。
在LMArena的规则下,用户随机看到两个匿名模型的回答,投票选出更好的那个。用户花两三秒扫一眼,哪个格式漂亮、哪个用了粗体、哪个加了表情符号,就选哪个。事实对不对,不重要。
这不是评测,这是选美。
Meta很快把它演成了一出行为艺术。它发布了一款叫Maverick的模型,在LMArena上势如破竹,冲到排行榜第二,超越了GPT-4o。开发者扒开一看,发现Meta提交到LMArena的版本,被专门优化成了长篇大论、表情符号满天飞、极尽谄媚之能事的“讨好版”,和公开发布的版本完全不是一回事。公开版直接掉到了榜单第32名。连扎克伯格都承认,他们就是在hack这个榜单。
Meta不是唯一这么干的。只是它被逮住了。
榜单公信力正在全面塌陷,不只是LMArena一家的问题。
伯克利研究团队揭露了8大主流AI智能体评测基准存在系统性漏洞,AI能力排行的可信度受到严峻质疑。OpenAI新模型发布日就被用户嫌弃“太拉了”。有人发现某视觉benchmark的官方代码存在荒谬bug,GT错误率高达30%。还有,中国电信发布的天罡AI评测平台2026年1月榜单上,deepseek-v3.2-Speciale以85.43分位居国内榜首,但没过多久,DeepSeek V4又被人评价说比美国同类技术更具成本优势,但能力上与美国顶尖水平还存在约8个月的技术差距。
同一个模型,在不同榜单上,有时是天,有时是地。
为什么?秘密在“数据污染”四个字里。
NIST(美国国家标准与技术研究院)采用半私有数据集与自研闭源评测体系,把测试集藏起来不公开,可有效规避大模型团队作弊——也就是研发者把测试数据混进训练数据里,让模型提前“背答案”。但闭源评测也被人质疑“你凭什么定义什么是好的AI”。
另一个矛盾是评测成本。
北大团队开源的One-Eval框架,把过去要花好几周的人工评测压缩到了10小时。但One-Eval目前主要覆盖纯文本能力,大模型的评测需求远远不止写作文。
更大的成本问题在另一端。2026年,一家叫Yupp的AI模型评测平台关停了。它由a16z领投,手握3300万美元种子轮融资,上线不到一年吸引了130万用户。创始人在关闭声明里的话非常坦诚:“过去一年,AI模型的能力格局发生了巨大变化。我们堆在上面的那层工程和场景优化,在底座模型能力跃升面前,一夜之间归零。”
这就引出了一个更深的悖论:评测到底测的是模型的真实能力,还是模型“被教出来的表演”?
LMArena一个更致命的缺陷是:用户偏好长回答、漂亮格式和表情符号,而不是正确答案。平台知道这一点,也公开承认。他们的解决方案是什么?加一堆校正措施。批评者形容这是“炼金术”——试图从垃圾输入中变出严谨的评估结果。
同样的基座模型,走向截然不同的方向。一个学会了“我怎么让用户更喜欢”,一个学会了“我怎么给出更准确的答案”。半年后,它们变成两个物种。
我们以为我们在进行一场能力的竞赛。实际上,我们站在一个关于价值观的岔路口。
大模型评测体系正在经历从“如何客观评测”到“谁有资格定义客观”的范式转移。
一面是NIST这样的国家级机构试图建立闭源、可对抗作弊的评测体系。一面是LMArena这样的开放式平台,靠全民投票打分。一面是企业自建的内测体系,为自己融资和定价背书。一面是国内电信运营商、科研院所、互联网大厂争相发布自己的评测榜单。
每一个都在说“我是最客观的”。但客观本身,成了一种高度主观的标准。
这场评测话语权的博弈最终会走向哪里?三个趋势正在慢慢浮现。
第一,评测基准正在从通用能力转向场景化评估。TEXT Arena这样的平台已经在做文本生成评测,SWE-bench专注软件工程,MedQA负责医疗。AI模型正在从争夺“全能冠军”转向赛道上各自奔跑的“单科状元”。
第二,闭源和对抗性评测会成为主流。只要存在数据污染和刷榜,评测就只能变成厂商和评测机构之间不断升级的军备竞赛。评测机构藏数据,厂商反推数据,评测机构再换数据。成本越来越高,谁也赢不了。
第三,评测本身正在变成一个独立的生意。LMArena在2026年又融了一笔,估值冲到了17亿美元。给AI排名已经不只是技术活,更是一个估值逻辑。谁掌握了评测权,谁就掌握了AI行业的话语权。标准定义、数据壁垒、行业需求——这是一门数百亿美元的顶级生意。
最后一个问题留给你自己判断:当评测本身成了一场游戏,你和你的团队,打算怎么玩?
——尘锋,于行业泡沫与真相的交界处
本文由「尘言」主理人: 尘锋 撰写,转载请注明出处。观点仅代表作者立场,不代表找找AI官方立场。