清华LegalOne-R1：当通用大模型在法律考场集体翻车

文 / 尘锋

一套面向法律实务场景的大模型评测基准PLaw Bench交出了一份刺眼的成绩单：各主流大模型得分趋于接近，但最高分未突破70分，表明当前模型在推理严谨性和逻辑闭环性上与专业法律从业者仍有差距。

注意，这套题不是司法考试选择题。它考察的是对真实法律条文的理解、案例的类比推理、司法裁判文书的逻辑自洽。70分不到，意味着在真正需要担责的法律场景里，通用大模型连及格都够呛。

这不是模型不够强的问题。是通用大模型天生不适合干法律这行。

先看一组数据。

清华大学发布的LegalOne-R1法律大模型，在训练范式上，通过三个阶段分别实现海量知识的注入、专业工作流的模拟，最终实现法律思维的涌现。它的核心思路不是把法律条文塞进Prompt让模型当“填空题”做，而是让模型在大量真实案例中学习“法官会怎么判”。

通用模型呢？没有对比就没有伤害。

GPT-5.5在法律实务任务上获得了87.2%的整体基准分，比之前任何前沿模型都高。但这个数字容易被误解——在这个分数背后，是长达数百个案例的精细流程设计，每一步都有人做校验和修正。

通用模型离开这个流程，回到真实场景，会做什么？它会在你看不到的地方编法条、捏案例、把两个互斥的法律原则揉在一起给你一个看似“公允”的结论。因为它被训练成“必须给出答案”，而法律问题的正确答案，往往是“看情况”。

非营利法律研究机构不久前做了一项测试。让一个主流大模型回答一个简单的合同纠纷问题：租赁合同中“合理使用”条款在特定情境下如何解释。

模型用时3秒生成了一段300字的回复。开头引用了民法典，中间类比了两个不相关的判例，结尾给出了一个“建议房东与租客协商解决”的万能答案。

整个过程，它没有问一句“具体什么情况”“合同原文怎么写的”“你指的争议是什么”。它默认所有信息都在它的上下文窗口里，然后直接做判断。这件事在律师圈引起了不少讨论——这不是AI在办案，这是AI在表演办案。

问题不在幻觉。幻觉可以修。问题在于法律推理的底层逻辑和语言模型是两套系统。大模型做的是基于概率的预测：给定前文，下一个词最可能是什么。法律做的是基于规则的价值判断：给定事实，哪条法律适用，怎么解释才合理。

这是本质冲突。

怎么解决？

清华LegalOne-R1的路径是：不是给模型一本法典让它“背会”，而是让它通过海量真实案例的判例学习，在推理链条上建立“像律师一样想问题”的思维框架。

具体拆解一下LegalOne-R1的工程体系：

层	机制	实现方式
案例比对层	从大量真实判例中提取模式，做相似度匹配和冲突检测	内建法律案例检索引擎
规则调用层	法律条文、司法解释、指导案例作为“可调用工具”而非“需记忆文本”	预设规则函数库
推理校验层	多Agent模拟“原告律师—被告律师—法官”多方博弈，交叉验证结论一致性	多角色辩论与共识机制
不确定量化层	对争议性条款的适用、缺乏先例的边缘情况，输出置信度分级而非单一结论	人工经验置信度加权

核心思路：把法律从“提示词里的一段话”变成“Agent可以主动调用的工具”。模型不再需要记《民法典》第一千二百条在说什么，它只需要知道“侵权责任判定”是一个可调用的工具，输入事实参数，输出法律结论。

这和Tianfu Agent把术数领域的200多个规则函数化成原子工具的思路如出一辙。当工具数量超过十几个，模型就开始选不对——Tianfu的解决方案是按“LLM可理解性”和“可穷举性”两个维度将工具分成四级，动态控制不同推理阶段、不同Sub-Agent可见的工具范围。LegalOne-R1的逻辑相同，只不过它的工具不是“十神”“星耀”，而是“合同效力判定”“侵权责任区分”这一类真正指向实体法律判断的原子能力。

更隐蔽的问题不是工具数量，是法律领域“连单元测试都没有”。

写代码的Agent有个天然优势，代码写完可以跑测试，跑不通有明确报错，跑通了就是正反馈。法律领域的验证手段是什么？没有。没有“运行”按钮，也没有“编译通过”。唯一的验证手段是人——资深律师、法官、法学教授——但他们不可能为每一次Agent推理做核验。

Tianfu Agent的方案是引入不确定性量化：工具输出层由内置算法提供置信度，Sub-Agent层由LLM自评每个观点的显著性，多流派合参层通过人工经验置信度加权调和矛盾结论。LegalOne-RR的路径类似，但它的置信度加权被升级成了“多角色辩论共识”——这不是一个能替代人核验的方案，但在缺乏验证手段的领域，“知道自己有多不确定”本身就是有价值的信息。

通用大模型考不了执业资格。这听起来像一句废话，但它背后的含义一直在被低估。法律行业每年消耗数千亿人民币用于人力审阅、合同起草、案例检索、合规审查。如果这个领域的智能体能够达到专业水平，哪怕只是辅助、哪怕只在某个细分环节、哪怕只能把正确率从60%拉到75%，创造的价值也足以重塑整个行业的生产关系。

但前提是，别再让模型当场给你编法条了。

——尘锋，于行业泡沫与真相的交界处

LegalOne-R1法律大模型多Agent协作工具管理置信度量化

本文由「尘言」编辑：尘锋撰写，转载请注明出处。观点仅代表作者立场，不代表找找AI官方立场。

清华LegalOne-R1：当通用大模型在法律考场集体翻车

作者更多文章

具身AI的“皇帝新衣”：我们正用大模型的旧地图，寻找物理世界的新大陆

AI应用的“鬼打墙”：为什么每次觉得要起飞了，最后都原地打转？

AI硬件的“美丽废物”工厂：谁在批量生产电子垃圾？

我用AI画了100张图，然后发现自己成了“版权废人”

你用AI赚钱，AI公司用你赚钱——然后你被裁了

套个壳就收费，AI圈的“国产操作系统”剧本又来了