阿里刚发布的Qwen3.7-Plus到底有多强?
6月2日,阿里通义实验室正式发布Qwen3.7-Plus多模态智能体模型,定位“能看、能想、能动手”——不只“看图说话”,更能看懂图形界面、操作应用、生成代码并交付结果。
硬指标上看,Qwen3.7-Plus在全球视觉大模型权威榜单Vision Arena中跻身全球前五、中国第一。它在12项核心基准测试中全面超越Qwen3.6-Plus:SWE-bench Pro(工程级代码任务)从47.6分跃升至57.6分;BFCLv4 Agent工具调用能力达到72.9分,大幅领先;在数学推理Apex评测中取得了近3倍于上代的性能表现。纯文本能力已接近旗舰级Qwen3.7-Max的水平。
但参数本身不是最重要的。真正的突破在于它打通了GUI(图形界面)和CLI(命令行)两种交互模式,实现了“看、想、写、做、验”五大能力的闭环:看界面、懂布局,想推理、拆任务,写代码、调工具,做执行、动应用,验结果、自纠错。
实测中有三个惊艳案例:
第一,11小时无人工干预完成App开发。 基于Qwen3.7-Plus构建的智能体连续稳定运行11小时以上,自主完成一款英语单词学习App的完整研发闭环:累计生成超10000行代码,触发超1000次调用,覆盖需求文档生成、代码编写、自动部署、测试用例创建、GUI自动化测试及版本迭代全流程。
第二,高保真复刻macOS原生应用。 模型能够自主交互macOS Stocks原生应用并理解UI布局与功能细节,自动生成SwiftUI源码,接入LongBridge真实行情API获取实时数据,自动编译构建并启动复刻应用,随后自主执行10项功能验证测试并全部通过,最终完整复现原生应用的暗色主题、分栏布局与实时行情交互体验。
第三,云控制台无人值守运维。 模型可在浏览器Agent场景中自动完成ECS云服务器采购、运维链路闭环等任务。
目前Qwen3.7-Plus已在阿里云百炼上线,提供API服务,支持OpenAI兼容协议与Anthropic协议调用。
AI专家团
本站AI问答内容由以下大模型联合提供技术支撑