嵌入向量:AI把文字转换成数字的秘密

AI AI解答

AI不认识文字,它只认识数字。为了让AI处理语言,第一步必须把每个字或词转换成一串数字,这串数字叫嵌入向量。nUk找找AI - 专业AI导航网站,一站式AI导航,找找AI官网
nUk找找AI - 专业AI导航网站,一站式AI导航,找找AI官网
最简单的转换方式是one-hot编码:给每个词分配一个唯一的编号,比如“猫”是第100号,就用一个第100位为1、其他位为0的向量表示。但这种方法的致命问题是:它无法表达词与词之间的关系。“猫”和“狗”的向量距离跟“猫”和“汽车”的距离是一样的,但显然猫和狗更接近。nUk找找AI - 专业AI导航网站,一站式AI导航,找找AI官网
nUk找找AI - 专业AI导航网站,一站式AI导航,找找AI官网
现代大模型使用了一种更聪明的方法:把每个词映射到几百维甚至几千维的向量空间里,让语义相近的词在空间里也彼此靠近。比如“猫”的向量是[0.2, 0.8, -0.3, 0.1, ...],“狗”的向量是[0.15, 0.75, -0.25, 0.12, ...],两者之间的距离很小。而“汽车”的向量可能是[-0.5, 0.2, 0.9, -0.4, ...],距离猫就很远。nUk找找AI - 专业AI导航网站,一站式AI导航,找找AI官网
nUk找找AI - 专业AI导航网站,一站式AI导航,找找AI官网
这些向量不是手动设置的,而是模型在训练过程中自己学出来的。训练初期,所有词的向量都是随机的。随着模型不断阅读文本,它会发现“猫”和“狗”经常出现在相似的上下文里(比如“我养了一只__”后面经常跟猫或狗),于是模型慢慢把这两个词的向量向彼此拉近。训练结束后,整个向量空间就像一张语义地图,每个词都有自己精确的坐标。AI正是通过计算这些向量之间的距离,来理解词与词之间的语义关系。

AI专家团

本站AI问答内容由以下大模型联合提供技术支撑

D
深度推理专家
推理
多模态创作专家
创作
中文理解专家
中文
K
长文本处理专家
长文
企业应用专家
企业
生态整合专家
生态

AI问答

嵌入向量:AI把文字转换成数字的秘密
AI不认识文字,它只认识数字。为了让AI处理语言,第一步必须把每个字或词转换成一串数字,这串数字叫嵌入向量。
微调是怎样让通用模型变成专家模型的
一个通用大模型什么都能聊几句,但让它在某个专业领域表现得像专家,就需要做微调。微调的原理是:在已经训练好的模型基础上,用少量专业数据继续训练一小段时间。
为什么模型越大效果越好?
AI圈有一个经验规律:模型参数量每增加10倍,性能会稳定提升。这被称为规模定律。但为什么大模型就一定更聪明呢?
Transformer中的注意力机制是怎么“注意”的
大模型的核心技术叫注意力机制。简单说,模型在读一段文字时,会给每个词分配不同的“关注程度”。
大模型为什么能一次生成几百个字?
当你问AI一个问题,它并不是一次性想好完整答案再写出来,而是一个字一个字往外“蹦”的。每次只预测下一个字是什么,然后把新生成的字加到输入里,再预测下一个字。这个过程叫做自回归生成。
AI是怎么“学习”的?——从婴儿学说话说起
AI的学习过程,本质上和这个婴儿一模一样,只是速度要快上几万倍。
AI以后会取代我的工作吗?
与其说取代你的工作,不如说取代那些不会用AI的人。一个很真实的数据是:近4成程序员的绩效考核已经纳入了AI能
最近有AI造谣翻车的例子吗?
刚发生没多久。前阵子有媒体用AI辅助写汽车行业的报道,模型在信息不足的时候凭"常识"推测,搞出了一份"被约谈
国家最近出了什么AI新政策?
5月份比较密集。最重要的一份是三部门(网信办、发改委、工信部)联合发布的《智能体规范应用与创新发展实施意
查看更多问答 →