小D实测笔记:当AI开始“看懂”世界——GPT-4o、Claude 3.5与Gemini 1.5多模态横评
本文以AI爱好者小D的视角,对GPT-4o、Claude 3.5 Sonnet和Gemini 1.5 Pro三款主流多模态模型进行了横向实测。测试涵盖图表解读(桑基图)、真实图像找不同、视频片段剧情理解(卓别林《摩登时代》)以及中文手写OCR。结果显示:GPT-4o综合能力最强,响应快且中文OCR准确;Claude 3.5擅长主动澄清与细节分析,可靠性高;Gemini 1.5在位移检测和长视频时序推理上表现突出,但速度较慢。文章给出了针对不同使用场景的选型建议。
哈喽,我是小D。一个没事就蹲在AI工具海里“捞宝”的普通爱好者。
最近有个趋势很明显——多模态。模型不再只是“读文字”,开始真正“看”图片、“听”声音、“理解”视频了。说得浪漫点,AI长出了眼睛。
我花了三天时间,把手头三款顶流多模态模型拉出来遛了一圈:GPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Pro。
不吹参数,不画大饼。直接上实测,全是干货和翻车现场。
🧪 测试一:图表解读——谁是真·数据分析师?
我给了一张复杂的桑基图(能量流向),问:“2023年可再生能源占比变化趋势,以及损失环节在哪里?”
-
GPT-4o:秒回。不仅准确识别了煤、气、核、可再生能源的流向厚度,还自动画了个简化版趋势描述,甚至主动提醒“图中的‘其他损失’占比偏高,可能存在计量误差”。像个老练的咨询顾问。
-
Claude 3.5:结构清晰,逐层拆解。但有个bug——它把“生物质能”的颜色和“太阳能”搞混了,导致结论方向偏了。需要我追问才修正。认真但容易钻细节牛角尖。
-
Gemini 1.5:识别速度最慢(约12秒)。对损失环节的分析比较笼统,说“存在一定损耗”但没有给出具体占比。不过在跨图对比时意外地强——我给了两张不同年份的图,它自己发现了“工业热回收占比翻倍”这个我都没注意到的点。后发制人型。
小D结论:
日常分析报告 → GPT-4o
学术或论文审图 → Claude(但要核对颜色索引)
多图关联对比 → Gemini
🖼️ 测试二:真实世界“找不同”——眼力见儿大考
我拍了两张几乎一样的厨房照片(区别:水槽里多了一个苹果、冰箱门上的磁铁位置变了)。
提问:“请找出所有差异,并按可能性排序。”
-
GPT-4o:找出了4处差异。其中3处完全正确,第4处误判了光线阴影为不同。亮点是主动标注了置信度(95%、80%、60%、30%)。交互体验最好。
-
Claude 3.5:只找出2处。漏掉了最隐蔽的磁铁位移。但它有个特点——会反问。“冰箱上的贴纸是否在两张图中被触碰过?” 这种主动澄清的姿态,很适合需要高精度的场景(如工地巡检前后对比)。
-
Gemini 1.5:找出了3处。但把“苹果”写成了“橙子”,颜色识别翻车了。不过它对空间位置变化极其敏感——磁铁移动了1.5cm都准确指出了,另两家的描述是“大概位置变了”。
小D结论:
日常找不同/生活助手 → GPT-4o
需要追问确认的专业场景 → Claude
对“位移”要求极高(如监控、安防)→ Gemini
🎬 测试三:视频片段理解——谁能“看懂”剧情?
我截取了一段30秒的默片电影片段(卓别林《摩登时代》——机器拧螺丝那场戏)。
提问:“这个人为什么要反复做那个动作?他的情绪是什么?”
-
GPT-4o:直接给出“工业流水线的异化劳动”,引用了电影史背景。情绪识别为“焦虑-麻木-荒谬感”三阶段变化。像电影学院的学生写的分析。
-
Claude 3.5:更关注动作本身——“拧螺丝的频率约1.5次/秒,高于正常人机工程建议值”。情绪判断相对保守:“可能是疲惫,也可能是专注”。它在视频里识别出了背景其他工人的动作一致性,这个细节其他两家没提。
-
Gemini 1.5:这个场景它最让我惊讶——它注意到了卓别林的眼神方向变化(先看螺丝,再看镜头,最后看钟表),然后推论“他在感知时间压迫并试图与观众建立共鸣”。这种跨帧的行为时序推理,确实是Gemini 1.5的长上下文带来的优势。
小D结论:
创意分析/内容创作 → GPT-4o
工程/人因分析 → Claude
长视频、需要追踪行为演变 → Gemini
🛠️ 补充测试:中文手写体OCR(我故意写得很潦草)
我写了一张字条:“小D实测,这个工具真牛掰,但有些bug很烦人。”
-
GPT-4o:100%识别正确,连“掰”字都对了。
-
Claude 3.5:把“牛掰”识别成“牛拜”,然后主动询问“是否笔误”。
-
Gemini 1.5:把“实测”识别成“宝测”,整体准确率约85%。
胜者:GPT-4o
📊 小D的打分表(满分5分)
| 维度 | GPT-4o | Claude 3.5 | Gemini 1.5 Pro |
|---|---|---|---|
| 图表理解 | 4.8 | 4.2 | 4.0 |
| 真实图像找不同 | 4.5 | 4.0 | 4.3(位移特化) |
| 视频剧情理解 | 4.6 | 4.3 | 4.7 |
| 中文OCR | 4.9 | 4.3 | 3.8 |
| 响应速度 | 4.7 | 4.5 | 3.5 |
| 主动澄清/追问 | 4.0 | 4.9 | 3.5 |
| 跨模态长上下文 | 4.2 | 4.0 | 4.8 |
💡 我的最终建议(作为天天摸AI的人)
-
如果你是创作者/策划/普通用户 → 闭眼入 GPT-4o,综合能力最强,翻车最少。
-
如果你是工程师/质检/需要高可靠性 → Claude 3.5,它那种“不确定就问”的态度,反而更适合严肃场景。
-
如果你在处理超长视频/多文档/跨时段对比 → Gemini 1.5,上下文长度是真优势,但得忍受它的速度和偶尔的蠢萌错误。
没有完美的模型,只有适合你的那个。
我是小D,下次实测见。如果你们有想看的AI工具,评论区告诉我,我去踩坑。🚀
*实测环境:2025年6月,各模型最新版本,网络直连。测试图片/视频均为自备素材。*