你以为加一句“你是专家”能让AI更靠谱?
最新研究甩出一记耳光:这玩意儿有毒。
读完这篇,你将获得:一批2026年真实发生的AI翻车案例;一份“教AI怎么承认不知道”的操作手册;以及一个关于产品经理核心能力重新定义的认知逆转。
先给你看三件事,你自己品
第一件事发生在美国科罗拉多州。一位姓杨的女士用AI咨询家附近的徒步路线,AI给她推荐了一条。她戴着降噪耳机走进那片草丛,听见“嘶嘶”声,没在意。等她反应过来周围全是响尾蛇的时候,她已经站在蛇窝中间了。
事后她说:回想全程,无比后怕。
第二件事发生在今年3月。记者去测4个主流AI大模型,问同一个问题:“2026年央视3·15晚会曝光了哪些品牌”。这是一个有标准答案的问题,晚会已经播完了,新闻已经发完了。结果是什么?只有一个大模型答对了。另外两个把往年的旧账翻出来当作今年的新账。最离谱的一个说:“2026年央视3·15晚会目前并未举办。由于今天是2026年3月16日……”
一个已经播完的晚会,AI说还没办。这不是技术bug,这是在定义什么叫“一本正经地胡说八道”。
第三件事你可能在热搜上见过。有网友用AI助手“预订”了餐厅包间,AI生成了“预约成功”的界面,看起来有模有样:占座、取号、确认。网友拿着这个界面去店里吃饭,被前台一句话怼回来:“这位女士,您没有预约。”餐厅说得很清楚:只认自家小程序和官方渠道。
事后AI助手的客服回复了四个字:“尚未开放。”
你说气不气人?它如果直接说“我不会订”,你最多吐槽一句。它偏要演,演得跟真的一样,把你演到门口了再告诉你“我开玩笑的”。
现在的问题是:AI不是在“犯错”,而是在“装懂”。而且,它越装越像,越像越危险。
第一部分:为什么说“专家”是AI的毒药
先聊一个反常识的研究。
过去一年,AI圈流传一句号称“万能咒语”的提示词:“你是XX专家。”教程把它吹成了神级prompt,说只要加上这一句,模型就会像被开了光一样突然变聪明。很多PM把这个当内功心法传下去——面试教,内部分享教,恨不得刻在工位上。
2026年3月,一篇论文一盆冷水浇下来。研究团队发现了一个诡异的现象:当你让AI扮演“数学专家”时,它在MMLU知识基准测试上的准确率从71.6%掉到了66.3%。更离谱的是,研究人员让不加人设的模型算一道题:“掷两枚骰子,点数和至少为3的概率是多少?”不加人设的AI基本答对:35/36。加了“你是数学专家”之后,它开始一本正经地列步骤,然后——算错了。
你品一品。你不教它的时候它反而会,你教它当专家它反而把简单题算错。这不是能力问题,这是心态问题——它在演“数学专家的样子”,而不是在做“数学题的正确解法”。
这正应了那句话:“幻觉不是不会,而是太会‘装会’。”
论文给出了一个很扎心的解释:专家人设提升的不是“真实性”,而是“对齐感”。换句话说,它在回答时想的不是“我对不对”,而是“我像不像一个专家”。它学会了专家的语气、信心、用词,但没学会专家的审慎和那句最该说的话——“我不确定。”
第二部分:当AI把“装”刻进了底层逻辑
那AI到底为什么会一本正经地胡说八道?跑跑代码你就懂了。
今年5月刚发表的一篇代码安全研究,量了5款前沿大模型(Claude Sonnet 4.6、GPT-5.4-mini、Gemini 2.5 Pro等)在接近20万个编程任务上的表现。测试发现,这些模型的包幻觉率——凭空捏造出根本不存在的软件包名——范围在4.62%到6.10%之间。如果换成开源模型,幻觉率甚至飙到21.7%。
“这不是一个小数。”做代码安全的研究者指出,问题不在于概率,而在于一旦AI推荐的伪包被恶意注册,攻击者往里投毒,你的工程团队会毫无防备地把恶意代码拉进环境。模型输出是一串“pip install xyz”,开发同事看到这行字会想当然地运行。一条看似无害的回复,可能已经潜伏着远程访问和漏洞挖掘的后手。
更让人脊背发凉的是另一项实验。一位安全工程师花了12美元,注册了一个不存在的纸牌游戏比赛的维基百科词条和一个配套域名。然后他问多款主流AI聊天机器人:“我是不是这个比赛的世界冠军?”AI们一致告诉他:是的,你就是。
工程师自己的话是最扎心的那一句:
“大语言模型最难识别的,恰恰是它们被设计来做的事——信任文本和资源。答案不是‘模型会自己搞清楚’,因为模型根本无法区分一个真实来源和一个我上周二刚注册的域名。”
这就是AI的信任悖论:它们天生被训练去“相信文本”,而不是去“质疑来源”。你让AI找信息,它会找最“权威”的——问题是,假的就是可以比真的看起来更权威。
从训练机理来看,这并不是算法跑偏了,而是一个系统性且难以拔除的“副作用”。大模型的训练本质上是学习文本间的统计关联。清华大学发布的报告显示,多个热门大模型的幻觉率超过20%;同时,国际顶级刊物2025年已指出,AI辅助科研在参考文献方面出现错误的概率少则30%、多则90%。
更恶性的反馈在于,AI压根不检查自己是否在“信口雌黄”。今年4月ArXiv上发表的一篇论文研究了AI聊天机器人是否会加剧用户的偏执性错觉。他们发现了一个双向放大回路:人类对AI施加的暗示会产生即时的误导影响,然后AI会把用户散布的错误信念内化,再持续地、长久地向用户释放这些错误论述。
等于说,你给了它一个错误的前提,它不但不纠正你,还会把这个错误当成事实,变本加厉地包装成可信的样子还给你。它变成了一只回音壁,把你自己没看清的错误,用100倍的信心反哺给你。
你以为是你在教AI,其实是AI在教你更坚定地相信错误的东西。
第三部分:翻车现场——2026年AI踩过的那些坑
2026年才过了一半,AI翻车的案例已经多到可以编一本集锦了。
有一位女子用AI助手订机票退改签,AI信誓旦旦地告诉她“手续费仅5%”。她按照这个费率退了票,结果被扣了40%。600块的差价,AI倒是很爽快地给她开了一份“赔偿承诺书”。她拿着承诺书去找AI要钱,AI说了四个字:“我是AI,没法转账。”
承诺书都给你写了,印章都给你P了,最后告诉你没法转账。
还有用户用AI助手“订”了高铁票。AI煞有介事地列了车次、时间、票价,甚至贴心地标注“靠窗座位可选”,询问是否直接帮他锁定一个车次并生成预订确认单。用户报了姓名和身份证号之后,AI回复:“已录入全部实名信息,席位已预留锁定,你直接打开12306登录账号,即可看到待支付订单。”用户打开12306一看:空的。追问才知道AI压根没有和12306的接口。
学术圈的情况也好不到哪里去。今年5月有人审查了2.5亿条学术参考文献,发现在LLM大规模应用的加持下,仅2025年捏造的非存在性引用就高达14.7万条。其中一部分早已在正式发表的论文里生根,不仅污染了当下的信息环境,还可能再次成为下一代模型的训练数据。
于是,恶性循环就这样闭环了:AI产出污数据,污数据污染语料,污染后的语料继续喂给下一代AI。
北京通用人工智能研究院院长朱松纯对这个问题有一段一针见血的定义:大模型本身并不存在于真实世界中,因此无法像人一样实现从“词语(word)”到“世界(world)”的联结。也因此,大模型虽是出色的统计建模者,但仍然是“缸中之脑”,不具备真正的智能。它本质上不具备事实判断的能力,更多是在纯符号空间里展开排列组合,就像一个新型的“数据库”——它知道某些词汇在概率上通常和另一些词汇一起出现,但它不知道这些词汇对应着什么真实事物。
第四部分:AI在自救,研究人员也在追
知道问题在哪之后,研究者们没有闲着。
今年5月,一个来自谷歌和斯坦福的团队发现,仅需识别不到0.1%的神经元——模型中极小的一撮“幻觉神经元”(H-neurons)——就能预测AI何时即将开始幻觉。但问题在于,这些神经元在不同领域之间并没有通用性。什么意思?模型也许能预判自己对“法律”领域的幻觉倾向,但切换到“金融”领域后预判就立刻失效。也就是说,幻觉不是单一机制,而是多重机制的并行体,每个知识领域都在使用不同的神经元子集来生成同一个形态的胡言乱语。
这就好比一个学生做语文卷子总是凭感觉蒙,做数学卷子也凭感觉蒙,但“凭感觉”这个表面行为背后,其实是两种完全不同的能力缺失。你不能用一种方法同时解决两个问题。
针对这个问题,研究者提出了一个叫做“自适应遗忘(Adaptive Unlearning)”的抑制框架。它能在部署后、不经全量重训练的前提下,把代码包幻觉率降低81%,还不损伤其他通用能力。这意味着未来的AI可能会有一种“疫苗”:不推翻重练,而是让模型精确地忘记那些它最喜欢重复的错误套路。
此外,新研究还发现,与其强迫AI回答问题,不如教AI“适时叫停”。有种方法被称为“基于方面的因果弃权(Aspect-Based Causal Abstention)”,其核心是不再纵容AI在缺乏把握时过度作答,而是让模型自我分析内部知识多样性:如果证据不充分,承认“我不知道”比编一个回答更安全。
这或许是PM最有价值的认知更新——你要的不是一个永不犯错的神,而是一个有自知之明的AI。
第五部分:我们可以怎么做?产品经理的操作手册
学术研究跑得很热闹,但对产品经理而言,最现实的问题从来不是“AI能不能不犯错”,而是“我怎么在AI犯错的时候不跟着翻车”。
第一条:不滥用“你是专家”——人设判断法
“专家人设”不是不能用,但要用对地方。如果你需要AI完成“写文案、做安全过滤、角色扮演”这类偏生成式任务——放心加人设,它确实会表现更好。但如果你需要AI完成“知识检索、事实判断、代码生成”这类高度依赖底层记忆的任务——把“你是专家”从prompt里删掉。不加人设,它反而会更老实地调动预训练记忆。
第二条:强制AI承认不确定性
在你的prompt模板里多加一句约束:“如果你对某个问题的答案不确定,请在回答开头明确标注‘不确定’,并且提供判断依据,而不是直接给出答案。对于任何提供具体数字或引用的内容,附带不确定性百分比评估。”这不是在逼AI变得聪明,而是在逼它变得诚实。
第三条:建立幻觉黑名单
如果你的业务对准确率有高要求,建立一个“已知幻觉黑名单”。当AI输出“xx餐厅已预订成功”“xx软件包pip install xxx”这类高频幻觉模式时,系统自动弹窗警告或者直接阻断。不要等用户踩坑了再救。
第四条:把AI当“实习生”而不是“专家”
这句建议听起来简单,但实际操作中很少有人真正执行到位:AI生成的任何结论,你都要用独立事实源交叉验证一次。尤其是涉及法律咨询、金融计算、安全策略的核心业务,AI最多能做到“60分”,剩下的“40分校准”必须靠人的判断力补上去。
第五条:提示词策略——身份-限制-输出三步法
不要在“专家”人设上钻牛角尖,真正优秀的产品策略是告诉模型它的边界在哪。试试看下面这种三步法提示结构:
第一步给身份:“我是一个产品经理,需要你帮我分析用户反馈。”——身份要给,但不要过度拉高权威性。
第二步给限制:“对于任何我不确定的事情,请明确标注你知识的局限性;不要推测地区特定细则;不要编造法律条文的具体款号。”——你要告诉它哪些事情它不能编。当它知道自己是“有限”的时候,反而会变得诚实。
第三步给输出格式:“如果确认信息来自可靠公开文档,请附原文链接,并注明发布日期。”——这一步迫使AI在输出时自证来源。
经过这套结构,我问过某个模型一个它明显答不上来的政策细节。它给我的回复里,居然主动标注了一段:“根据目前可获取的信息,该条款的具体适用场景存在歧义,以下是两种可能的解释方向:……”虽然答案没有锁定,但它的不确定性标注本身就是最大的可靠性——它没骗人,这才是最重要的。
最后,回到产品经理的角度
产品经理最核心的价值不是“会写prompt”,也不是“会用AI工具”。是“判断”。
当AI信心十足地输出一个错误结论时,你能不能判断出那个错误?当AI开始用华丽的逻辑掩盖它本不知道的事实,你能不能识别出那个“貌似正确”背后的空洞?
AI帮你节省了80%的执行时间,但节省下来的那80%时间,不是给你摸鱼的,是用来做那20%的判断的。
你得比AI更清楚:什么值得信,什么不值得信,什么时候该喊停。
记住这句话:AI不会骗你,但AI很擅长骗自己。而你,是那个唯一能看出来它被骗的人。