不是技术解读,是产品经理该有的那点“不对劲”的感觉。
如果你最近没留意image2赛道,我帮你补一下进度条:
4月22日,OpenAI扔出GPT-Image 2,直接停掉DALL-E 2和3,ELO得分1512,领先第二名242分——Image Arena有史以来最大分差。
5月,Google I/O发布Gemini Omni Flash,原生全模态,图片、音频、视频、文字一起吞进去,一次推理吐出来。
5月18日,国产智象未来开源HiDream-O1-Image,8B参数,登顶开源文生图榜第一。
外行看热闹:哇,又卷了。内行看门道:不对劲,这次卷的不是同一件事。
下面说几个我觉得真正值得琢磨的“裂痕”。
一、图像不是“画”,是“语言”
GPT-Image 2最大的新闻不是分数高,是它把扩散模型扔了。
扩散模型统治了图像生成好几年。它的逻辑是:给一张纯噪声图,一步一步去噪,最后“长”出一张像样的图。这个路径天生有个bug——它在像素层面优化,只知道这个像素放这里“看起来对”,但它不理解为什么对。
所以你永远调不好扩散模型里的文字生成。它学会了“S”“T”“O”“P”这几个像素的排列,但它不知道STOP是“停止”的意思。你让它写“请勿触摸”,它可能给你写出“请勿扌莫扌足”。
GPT-Image 2选择了另一条路:自回归。就是ChatGPT生成文字那一套——一个token一个token地预测下一个最可能出现的token。只不过这次token不是文字,是图像的离散编码。
这意味着什么?图像被当成一种语言来处理了。
官方有一句话值得贴在墙上:“Images are a language, not decoration.” 图像不是装饰品,是一种语言。
这个转变太狠了。装饰品只看好不好看,语言要看对不对。你写错别字,语言学上叫错误;你逻辑不通,语言学上叫病句。
GPT-Image 2能在一张“雷军直播跑步”的海报里,自动算出1313km减去425.7km等于887.3km,并且在海拔3658米的场景里自动匹配地理特征——这不是“画得好看”,这是“想得对”。
产品经理该警觉了:以前你评判一张图的标准是“好不好看”,以后你要评判的是“对不对”。你没有地理知识,你就看不出那张海报的牛逼之处。你没有逻辑,你连AI生成的图都审不了。
二、信任体系正在经历“布雷顿森林时刻”
我算了一笔账:目前某主流AI模型每周的图像产出已经超过10亿张。
10亿张是什么概念?人类历史上所有相机拍过的照片,大概在15万亿张左右。按这个速度,AI一年就能产出超过500亿张新图像。
但问题不在这里。问题在于:接收图像的人,识别图像真假的能力,几乎没变。
过去我们说“有图有真相”。现在图是AI画的,真相呢?
“歌手2026梦幻阵容”海报、马斯克直播带货截图、西山居解散的假新闻,一个接一个地炸。更离谱的是,有人用GPT-Image 2生成了中国香港身份证,绕过了ChatGPT的实名验证。
这让我想起布雷顿森林体系的崩溃。美元和黄金脱钩的那一刻,货币不再是信用的锚。今天,图像也在和真实脱钩。图像不再是信用的锚。
我们正在经历视觉信息的“布雷顿森林时刻”。结果是什么?从“默认相信”滑向“默认怀疑”。
你发一张截图到群里,别人第一反应不是“哦”,而是“这是AI做的吧?”
产品经理面对的不是更强大的工具,而是一个更不信任的用户。你做的产品里每一张图、每一个截图、每一个宣传海报,都会被用户多看一眼、多怀疑一秒。这个信任成本,会转嫁到转化率、停留时长、用户耐心上。
这不是技术问题,这是社会认知层面的地震。
三、“废图革命”:人类在用恶心自己来反抗被驯化
接着说一个反常识的现象。
最近社交媒体上流行一个叫“Pathetic Art Trend”(废图革命)的东西。用户故意让AI以最拙劣的涂鸦风格重绘照片——歪歪扭扭的线条、车祸现场般的配色、像小学生美术课的作业。
为什么?因为审美对齐后的AI,太“乖”了。
学术圈已经有Position Paper指出:现在的文生图模型在训练中被单一审美标准“驯化”了。你让AI画“一个美女”,它给你一张精致到毛孔的网红脸。你让AI画“夕阳下的海边”,它给你一张Windows壁纸。
但它不会画“丑的”“怪的”“让人不舒服的”。不是技术做不到,是训练数据里没有。或者说,训练数据里的“美”被过度采样了。
“废图革命”的本质是什么?是用户在用反美学的方式,问AI一个问题:你还能不能给我一点不在预料之中的东西?
你太完美了,完美到无聊。你每张图都像Instagram滤镜拉满的网红,我腻了。我要看你的“车祸现场”,因为车祸现场至少是“真实”的——哪怕是故意制造的真实。
这个信号产品经理不能不接。用户不想要“更精致的图”,用户想要“更意想不到的图”。如果你的产品只是堆一个“更好看的AI滤镜”,用户会在新鲜感消退后离开。但如果你能让AI偶尔“犯错”,并且这种错让用户觉得“有意思”——那是另一回事。
四、图像和视频正在合流,世界一致性成了新硬指标
Runway Gen-4在5月初发布,最大的亮点叫“World Consistency”——同一角色在不同镜头里长得一样。
听起来很简单对吧?你试过用现在的AI视频工具就知道了。第一帧是个扎马尾的女孩,第二帧马尾变披肩发了,第三帧脸都换了。别说电影,连短视频都没法用。
Gen-4能保持角色一致性,最长60秒、4K分辨率连续输出。这意味着什么?图像和视频的边界正在模糊。以前你先生成一张图,再想办法让图动起来。现在是直接生成一个“世界”,你在这个世界里截取一帧,那一帧就是一张图。
这个趋势的深层逻辑是:“一致性”正在压倒“单帧质量”。 单帧再好看,三秒后崩了,没人用。单帧60分,但连续100帧都不出戏,那就是神作。
对产品经理的启发是什么?如果你在做任何涉及“视觉叙事”的产品——短视频工具、广告素材生成、游戏原画、甚至电商主图视频——你的评估体系要换了。别再只盯着“这张图好不好看”,要开始看“这套图/这段视频,逻辑上能不能自洽”。
五、闭源的告别和开源的“端到端”打法
最后说一个格局变化。
Adobe宣布停用Imagen 3。Google明确说资源集中在Veo和Gemini架构。
这意味着什么?意味着你作为一个产品经理,如果你今天的产品依赖某个第三方图像生成API,你要开始担心:这个模型半年后还在不在?母公司会不会砍掉这条线,转去押注另一个方向?
另一方面,国产开源模型智象未来HiDream-O1-Image走了一条“像素级统一Transformer”的路,放弃了VAE和独立文本编码器,把所有东西映射到同一个共享空间。8B参数干到了开源第一。
它的打法很有意思:不是比谁更“聪明”(那是闭源在卷的事),而是比谁更“直给”。放弃模块化,端到端,一个模型解决所有。开源的优势不是免费,是你可以把它嵌进你的产品里,魔改、微调、私有化部署,不用看任何人的脸色。
如果你在B端做AI图像产品,开源模型的成熟意味着你可以自己养一个“私有的图像生成能力”,而不是每个月给API供应商交保护费。
写在最后:产品经理需要重新学会“看”图
image2这波热潮,表面上是一场技术竞赛:分数、参数、架构。但真正值得记住的,是几个认知层面的扭转:
第一,图像不再是“像什么”,而是“说什么”。 你要会读图里的逻辑,不只是审美。
第二,信任崩塌后,你的产品里每一张图都在替你的品牌交“信任税”。 你怎么帮用户验证、怎么建立可信度,比怎么生成得更精美更重要。
第三,“太完美”正在变成一种缺陷。 偶尔的不完美、意外、甚至“车祸现场”,可能是你和用户建立真实连接的缝隙。
第四,世界一致性正在成为新的及格线。 单帧再好看,崩了就是崩了。
AI没有淘汰产品经理,但它淘汰了只会看“好不好看”的产品经理。
你得重新学会“看”图。