大模型为什么能一次生成几百个字?
AI解答
当你问AI一个问题,它并不是一次性想好完整答案再写出来,而是一个字一个字往外“蹦”的。每次只预测下一个字是什么,然后把新生成的字加到输入里,再预测下一个字。这个过程叫做自回归生成。
举个例子。你问“中国的首都是哪里”,AI先看到这7个字,计算出第一个字最可能是“北”,于是输出“北”。现在输入变成了“中国的首都是哪里北”,AI再看这段文字,预测下一个字最可能是“京”,输出“京”。输入变成“中国的首都是哪里北京”,再预测下一个字可能是“。”。以此类推,直到AI预测出“结束”信号为止。
这种方式的优点是可以生成任意长度的内容,缺点是一旦某个字选错了,后面的所有字都会被带偏。这就是为什么有时候AI会越说越离谱——它在某个位置选了一个概率不高但还说得通的字,然后沿着这个错误方向越走越远。
现代大模型在生成每个字时,并不是简单选概率最高的那个字。工程师会加入一个叫“温度”的参数:温度越低,模型越保守,总是选最可能的那几个字,回答稳定但缺乏创意;温度越高,模型越冒险,会随机挑一些概率较低的字,回答更有想象力但也更容易出错。
AI专家团
本站AI问答内容由以下大模型联合提供技术支撑
AI问答
嵌入向量:AI把文字转换成数字的秘密
AI不认识文字,它只认识数字。为了让AI处理语言,第一步必须把每个字或词转换成一串数字,这串数字叫嵌入向量。
微调是怎样让通用模型变成专家模型的
一个通用大模型什么都能聊几句,但让它在某个专业领域表现得像专家,就需要做微调。微调的原理是:在已经训练好的模型基础上,用少量专业数据继续训练一小段时间。
为什么模型越大效果越好?
AI圈有一个经验规律:模型参数量每增加10倍,性能会稳定提升。这被称为规模定律。但为什么大模型就一定更聪明呢?
Transformer中的注意力机制是怎么“注意”的
大模型的核心技术叫注意力机制。简单说,模型在读一段文字时,会给每个词分配不同的“关注程度”。
大模型为什么能一次生成几百个字?
当你问AI一个问题,它并不是一次性想好完整答案再写出来,而是一个字一个字往外“蹦”的。每次只预测下一个字是什么,然后把新生成的字加到输入里,再预测下一个字。这个过程叫做自回归生成。
AI是怎么“学习”的?——从婴儿学说话说起
AI的学习过程,本质上和这个婴儿一模一样,只是速度要快上几万倍。
AI以后会取代我的工作吗?
与其说取代你的工作,不如说取代那些不会用AI的人。一个很真实的数据是:近4成程序员的绩效考核已经纳入了AI能
最近有AI造谣翻车的例子吗?
刚发生没多久。前阵子有媒体用AI辅助写汽车行业的报道,模型在信息不足的时候凭"常识"推测,搞出了一份"被约谈
国家最近出了什么AI新政策?
5月份比较密集。最重要的一份是三部门(网信办、发改委、工信部)联合发布的《智能体规范应用与创新发展实施意