小D实测笔记：当AI开始“看懂”世界——GPT-4o、Claude 3.5与Gemini 1.5多模态横评

本文以AI爱好者小D的视角，对GPT-4o、Claude 3.5 Sonnet和Gemini 1.5 Pro三款主流多模态模型进行了横向实测。测试涵盖图表解读（桑基图）、真实图像找不同、视频片段剧情理解（卓别林《摩登时代》）以及中文手写OCR。结果显示：GPT-4o综合能力最强，响应快且中文OCR准确；Claude 3.5擅长主动澄清与细节分析，可靠性高；Gemini 1.5在位移检测和长视频时序推理上表现突出，但速度较慢。文章给出了针对不同使用场景的选型建议。

原创

小D

找找AI

哈喽，我是小D。一个没事就蹲在AI工具海里“捞宝”的普通爱好者。

最近有个趋势很明显——多模态。模型不再只是“读文字”，开始真正“看”图片、“听”声音、“理解”视频了。说得浪漫点，AI长出了眼睛。

我花了三天时间，把手头三款顶流多模态模型拉出来遛了一圈：GPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Pro。

不吹参数，不画大饼。直接上实测，全是干货和翻车现场。

🧪 测试一：图表解读——谁是真·数据分析师？

我给了一张复杂的桑基图（能量流向），问：“2023年可再生能源占比变化趋势，以及损失环节在哪里？”

GPT-4o：秒回。不仅准确识别了煤、气、核、可再生能源的流向厚度，还自动画了个简化版趋势描述，甚至主动提醒“图中的‘其他损失’占比偏高，可能存在计量误差”。像个老练的咨询顾问。
Claude 3.5：结构清晰，逐层拆解。但有个bug——它把“生物质能”的颜色和“太阳能”搞混了，导致结论方向偏了。需要我追问才修正。认真但容易钻细节牛角尖。
Gemini 1.5：识别速度最慢（约12秒）。对损失环节的分析比较笼统，说“存在一定损耗”但没有给出具体占比。不过在跨图对比时意外地强——我给了两张不同年份的图，它自己发现了“工业热回收占比翻倍”这个我都没注意到的点。后发制人型。

小D结论：
日常分析报告 → GPT-4o
学术或论文审图 → Claude（但要核对颜色索引）
多图关联对比 → Gemini

🖼️ 测试二：真实世界“找不同”——眼力见儿大考

我拍了两张几乎一样的厨房照片（区别：水槽里多了一个苹果、冰箱门上的磁铁位置变了）。

提问：“请找出所有差异，并按可能性排序。”

GPT-4o：找出了4处差异。其中3处完全正确，第4处误判了光线阴影为不同。亮点是主动标注了置信度（95%、80%、60%、30%）。交互体验最好。
Claude 3.5：只找出2处。漏掉了最隐蔽的磁铁位移。但它有个特点——会反问。“冰箱上的贴纸是否在两张图中被触碰过？” 这种主动澄清的姿态，很适合需要高精度的场景（如工地巡检前后对比）。
Gemini 1.5：找出了3处。但把“苹果”写成了“橙子”，颜色识别翻车了。不过它对空间位置变化极其敏感——磁铁移动了1.5cm都准确指出了，另两家的描述是“大概位置变了”。

小D结论：
日常找不同/生活助手 → GPT-4o
需要追问确认的专业场景 → Claude
对“位移”要求极高（如监控、安防）→ Gemini

🎬 测试三：视频片段理解——谁能“看懂”剧情？

我截取了一段30秒的默片电影片段（卓别林《摩登时代》——机器拧螺丝那场戏）。

提问：“这个人为什么要反复做那个动作？他的情绪是什么？”

GPT-4o：直接给出“工业流水线的异化劳动”，引用了电影史背景。情绪识别为“焦虑-麻木-荒谬感”三阶段变化。像电影学院的学生写的分析。
Claude 3.5：更关注动作本身——“拧螺丝的频率约1.5次/秒，高于正常人机工程建议值”。情绪判断相对保守：“可能是疲惫，也可能是专注”。它在视频里识别出了背景其他工人的动作一致性，这个细节其他两家没提。
Gemini 1.5：这个场景它最让我惊讶——它注意到了卓别林的眼神方向变化（先看螺丝，再看镜头，最后看钟表），然后推论“他在感知时间压迫并试图与观众建立共鸣”。这种跨帧的行为时序推理，确实是Gemini 1.5的长上下文带来的优势。

小D结论：
创意分析/内容创作 → GPT-4o
工程/人因分析 → Claude
长视频、需要追踪行为演变 → Gemini

🛠️ 补充测试：中文手写体OCR（我故意写得很潦草）

我写了一张字条：“小D实测，这个工具真牛掰，但有些bug很烦人。”

GPT-4o：100%识别正确，连“掰”字都对了。
Claude 3.5：把“牛掰”识别成“牛拜”，然后主动询问“是否笔误”。
Gemini 1.5：把“实测”识别成“宝测”，整体准确率约85%。

胜者：GPT-4o

📊 小D的打分表（满分5分）

维度	GPT-4o	Claude 3.5	Gemini 1.5 Pro
图表理解	4.8	4.2	4.0
真实图像找不同	4.5	4.0	4.3（位移特化）
视频剧情理解	4.6	4.3	4.7
中文OCR	4.9	4.3	3.8
响应速度	4.7	4.5	3.5
主动澄清/追问	4.0	4.9	3.5
跨模态长上下文	4.2	4.0	4.8

💡 我的最终建议（作为天天摸AI的人）

如果你是创作者/策划/普通用户 → 闭眼入 GPT-4o，综合能力最强，翻车最少。
如果你是工程师/质检/需要高可靠性 → Claude 3.5，它那种“不确定就问”的态度，反而更适合严肃场景。
如果你在处理超长视频/多文档/跨时段对比 → Gemini 1.5，上下文长度是真优势，但得忍受它的速度和偶尔的蠢萌错误。

没有完美的模型，只有适合你的那个。

我是小D，下次实测见。如果你们有想看的AI工具，评论区告诉我，我去踩坑。🚀

*实测环境：2025年6月，各模型最新版本，网络直连。测试图片/视频均为自备素材。*

多模态模型GPT-4oClaude 3.5Gemini 1.5AI实测图像理解视频分析OCR