首页 笔记 小D实测笔记:当AI开始“看懂”世界——GPT-4o、Claude 3.5与Gemini 1.5多模态横评
笔记 2026-05-25 09:49:07

小D实测笔记:当AI开始“看懂”世界——GPT-4o、Claude 3.5与Gemini 1.5多模态横评

本文以AI爱好者小D的视角,对GPT-4o、Claude 3.5 Sonnet和Gemini 1.5 Pro三款主流多模态模型进行了横向实测。测试涵盖图表解读(桑基图)、真实图像找不同、视频片段剧情理解(卓别林《摩登时代》)以及中文手写OCR。结果显示:GPT-4o综合能力最强,响应快且中文OCR准确;Claude 3.5擅长主动澄清与细节分析,可靠性高;Gemini 1.5在位移检测和长视频时序推理上表现突出,但速度较慢。文章给出了针对不同使用场景的选型建议。

原创
小D

哈喽,我是小D。一个没事就蹲在AI工具海里“捞宝”的普通爱好者。bhU找找AI - 专业AI导航网站,一站式AI导航,找找AI官网

最近有个趋势很明显——多模态。模型不再只是“读文字”,开始真正“看”图片、“听”声音、“理解”视频了。说得浪漫点,AI长出了眼睛。bhU找找AI - 专业AI导航网站,一站式AI导航,找找AI官网

我花了三天时间,把手头三款顶流多模态模型拉出来遛了一圈:GPT-4oClaude 3.5 SonnetGemini 1.5 ProbhU找找AI - 专业AI导航网站,一站式AI导航,找找AI官网

不吹参数,不画大饼。直接上实测,全是干货和翻车现场。bhU找找AI - 专业AI导航网站,一站式AI导航,找找AI官网


🧪 测试一:图表解读——谁是真·数据分析师?

我给了一张复杂的桑基图(能量流向),问:“2023年可再生能源占比变化趋势,以及损失环节在哪里?”bhU找找AI - 专业AI导航网站,一站式AI导航,找找AI官网

小D结论bhU找找AI - 专业AI导航网站,一站式AI导航,找找AI官网
日常分析报告 → GPT-4obhU找找AI - 专业AI导航网站,一站式AI导航,找找AI官网
学术或论文审图 → Claude(但要核对颜色索引)bhU找找AI - 专业AI导航网站,一站式AI导航,找找AI官网
多图关联对比 → GeminibhU找找AI - 专业AI导航网站,一站式AI导航,找找AI官网


🖼️ 测试二:真实世界“找不同”——眼力见儿大考

我拍了两张几乎一样的厨房照片(区别:水槽里多了一个苹果、冰箱门上的磁铁位置变了)。bhU找找AI - 专业AI导航网站,一站式AI导航,找找AI官网

提问:“请找出所有差异,并按可能性排序。”bhU找找AI - 专业AI导航网站,一站式AI导航,找找AI官网

小D结论bhU找找AI - 专业AI导航网站,一站式AI导航,找找AI官网
日常找不同/生活助手 → GPT-4obhU找找AI - 专业AI导航网站,一站式AI导航,找找AI官网
需要追问确认的专业场景 → ClaudebhU找找AI - 专业AI导航网站,一站式AI导航,找找AI官网
对“位移”要求极高(如监控、安防)→ GeminibhU找找AI - 专业AI导航网站,一站式AI导航,找找AI官网


🎬 测试三:视频片段理解——谁能“看懂”剧情?

我截取了一段30秒的默片电影片段(卓别林《摩登时代》——机器拧螺丝那场戏)。bhU找找AI - 专业AI导航网站,一站式AI导航,找找AI官网

提问:“这个人为什么要反复做那个动作?他的情绪是什么?”bhU找找AI - 专业AI导航网站,一站式AI导航,找找AI官网

小D结论bhU找找AI - 专业AI导航网站,一站式AI导航,找找AI官网
创意分析/内容创作 → GPT-4obhU找找AI - 专业AI导航网站,一站式AI导航,找找AI官网
工程/人因分析 → ClaudebhU找找AI - 专业AI导航网站,一站式AI导航,找找AI官网
长视频、需要追踪行为演变 → GeminibhU找找AI - 专业AI导航网站,一站式AI导航,找找AI官网


🛠️ 补充测试:中文手写体OCR(我故意写得很潦草)

我写了一张字条:“小D实测,这个工具真牛掰,但有些bug很烦人。”bhU找找AI - 专业AI导航网站,一站式AI导航,找找AI官网

胜者:GPT-4obhU找找AI - 专业AI导航网站,一站式AI导航,找找AI官网


📊 小D的打分表(满分5分)

维度 GPT-4o Claude 3.5 Gemini 1.5 Pro
图表理解 4.8 4.2 4.0
真实图像找不同 4.5 4.0 4.3(位移特化)
视频剧情理解 4.6 4.3 4.7
中文OCR 4.9 4.3 3.8
响应速度 4.7 4.5 3.5
主动澄清/追问 4.0 4.9 3.5
跨模态长上下文 4.2 4.0 4.8

💡 我的最终建议(作为天天摸AI的人)

没有完美的模型,只有适合你的那个。bhU找找AI - 专业AI导航网站,一站式AI导航,找找AI官网

我是小D,下次实测见。如果你们有想看的AI工具,评论区告诉我,我去踩坑。🚀bhU找找AI - 专业AI导航网站,一站式AI导航,找找AI官网


*实测环境:2025年6月,各模型最新版本,网络直连。测试图片/视频均为自备素材。*bhU找找AI - 专业AI导航网站,一站式AI导航,找找AI官网

多模态模型GPT-4oClaude 3.5Gemini 1.5AI实测图像理解视频分析OCR

作者更多笔记