几年前,让AI描述一张图片还很困难:你给它一张猫的照片,它可能连“这是一只猫”都说不出来。如今,你可以随手拍一张菜市场的照片问AI:“西红柿多少钱一斤?”它不但能找出图片里的西红柿,还能根据周围的标签给你一个大致价格。这是怎么做到的?
关键变化在于:AI学会了“翻译”两种不同的语言。
传统的AI只能处理文字。图片对它来说就是一串红绿蓝的像素数字,毫无意义。新一代的视觉语言模型相当于给AI装了一双“眼睛”和一个“翻译器”。第一步,AI会把图片切成无数个小方块,用“视觉编码器”把每个小方块里的颜色、边缘、纹理等信息转化成一串数字编码。这一步就像是把一张画变成了一张密密麻麻的“颜色地图”。第二步,也是最重要的一步,AI会学习这张“颜色地图”和文字描述之间的对应关系。当它看过几亿张“猫咪+文字‘猫’”的图片后,它就会明白:地图上的某个特定形状和颜色组合,对应着“猫”这个字。
训练完成后,当你给它一张没见过的图片,AI就能反过来推理:先把图片变成地图,然后去找地图上每一块“翻译”成什么文字,最后串联成一个完整的描述或回答问题。整个过程不涉及真正的“理解”,而是一种极其复杂的模式匹配。但它已经足够强大——从识别医学影像中的病灶,到帮视障人士“听”到身边的环境,这项技术正在悄悄改变很多人的生活。
找找AI 原创出品
新手
为什么现在的AI能“看懂”图片?——视觉语言模型的小秘密
AI 摘要
几年前,让AI描述一张图片还很困难:你给它一张猫的照片,它可能连“这是一只猫”都说不出来。如今,你可