一、从“问答”到“代办”:Gemini Spark的诞生
北京时间2026年5月20日凌晨,谷歌I/O开发者大会在美国加州山景城开幕。与往年大会聚焦某一款模型或特定功能不同,今年谷歌传递的核心信号是一次系统性的战略转向——AI正在从“聊天工具”进化为“数字分身”。
谷歌CEO桑达尔·皮查伊在开场演讲中给出了这一转向的数据背景:谷歌各平台当前每月处理3.2千万亿个token,同比增长七倍;Gemini App月活用户已超过9亿,覆盖230个国家和地区、70多种语言。在这些数字背后,用户对AI的需求已经从“回答问题”转变为“帮我做事”——而Gemini Spark正是对这一需求的直接回应。
Gemini Spark被官方定义为“首款面向消费者的个人AI智能体”,正如皮查伊在会前简报中所描述的:“它是你的个人AI智能体,帮助你驾驭数字生活,在你授权和指令下代为行动。”
二、技术底座:Gemini 3.5 Flash与Antigravity框架
Spark的核心驱动力来自谷歌同期发布的新一代大模型Gemini 3.5 Flash。该模型被定义为“兼具前沿智能与行动能力”的新一代模型,在复杂长周期任务、代码生成及多模态理解方面均有显著提升。其输出速度较其他前沿模型快约4倍,而运行成本仅为后者的约三分之一至一半。
与Gemini 3.5 Flash协同工作的,是谷歌的Antigravity AI编程工具框架。Antigravity同时迎来重大更新:谷歌推出全新的Antigravity桌面应用,作为管理AI驱动智能体及其任务的统一中心,还发布了新的命令行界面以及供开发者构建自有AI工具的软件开发工具包。两者结合,构成了Spark在云端持续运行的技术底座。
三、核心能力:到底能做什么?
1. 24/7云端后台任务执行
Spark最突出的差异化能力,是其“永不关机”的运行架构。它运行在谷歌云专属虚拟机上,即使用户合上笔记本电脑或关闭手机,Spark依然能在后台持续执行任务-1。谷歌实验室、Gemini与AI Studio副总裁Josh Woodward在发布会上形容道:“用起来的感觉就像是随手把任务抛出去,Spark接住它,然后把事情搞定。”
2. 深度整合Workspace生态
Spark原生接入Gmail、Google Docs、Sheets、Slides和Drive,能够自动提取跨应用信息,生成邮件、文档与汇总报告-1。对Google用户而言,无需额外的API配置或繁琐授权即可访问邮件、文档和日历数据,大幅降低了上手门槛-1。
3. 跨应用工作流构建
Spark能够跨多个应用完成复杂任务链条。例如,它可以同时读取邮件和聊天记录,合成会议纪要,生成结构化的Google Doc,并在此基础上起草后续的项目启动邮件。
4. 第三方服务接入
通过MCP(Model Context Protocol)模型上下文协议,Spark可以接入Canva、OpenTable、Instacart等第三方平台,未来还将扩展至DoorDash、Asana、Uber等更多服务。这一开放协议让Spark能够接入更广泛的外部系统和数据,超越了谷歌自有生态的边界。
5. 技能教学系统
Spark支持用户通过自然语言或多次示例训练来掌握专属工作流。例如,用户可以教会Spark识别特定客户的邮件,并自动更新CRM表格中的对应记录。
6. 多平台同步与语音交互
Spark支持Android、iOS和Web平台,今年夏季还将登陆macOS桌面端与Chrome浏览器-1。用户可以在手机上通过自然语言一次下达多项指令,Spark会自动拆解为独立子任务并在后台异步执行,最终结果统一汇总。
四、优势解析:为什么是Spark?
在个人AI智能体赛道上,Spark并非孤例。Anthropic推出了Claude Cowork,OpenAI发布了ChatGPT Agent,开源社区也有OpenClaw等备受关注的产品。但与这些竞品相比,Spark拥有几个独特的优势维度。
首先是“永不关机”的架构优势。 传统本地运行的个人智能体在设备休眠或关机时任务即中断,而Spark的云端虚拟机架构彻底解决了这一痛点,尤其适合跨时区、长时间的信息监控与聚合任务。
其次是零配置的生态接入。 对已经深度使用Google服务的用户而言,Spark几乎不需要额外设置就能访问邮件、文档和日历数据,大幅降低了智能体应用的使用门槛。
再次是渐进式的权限控制。 Spark遵循“在用户指令下运行”的原则,用户可以自主控制智能体的连接范围和开关状态。在执行付款、发送邮件等高风险操作之前,系统会提前向用户请求授权,确保用户对智能体的行为保持掌控-13。
最后是跨设备的无缝衔接。 用户可以在手机端下达任务,通过Android Halo系统实时追踪进度,最终在电脑端查看结果,状态通过云端自动同步。
五、如何使用:当前状态与获取方式
Spark目前正处于分阶段开放中。本周率先向“受信任的测试用户”开放,下周在美国地区面向Google AI Ultra订阅用户推出Beta版本。目前仅限美国地区,用户需订阅Google AI Ultra服务(月费99.99美元)才能体验,macOS版本预计于今年夏季上线。
使用流程方面,用户需要在Gemini App的设置中开启“Spark”或“Agent”标签页,按指引授权访问Gmail、日历、Drive等Workspace工具,之后即可通过自然语言创建任务,例如“每周五下午总结本周会议纪要,整理成Google Doc并分享给团队”。对于重复性工作,用户还可以通过多次示例训练Spark形成可复用的技能模式,并配置周期性或条件性触发器。
六、适用人群
Spark的设计覆盖了广泛的使用场景和用户群体。高频使用Google Workspace的职场人士可以利用它自动化处理邮件、文档和会议跟进;小型企业主与客服团队可借助Spark监控客户咨询邮件、自动整理业务信息;学生与教育工作者可以实时更新学习笔记、跟踪作业截止日期;跨时区协作者与远程团队可以依靠Spark持续进行信息聚合、价格监控和竞品追踪;开发者和技术爱好者则可通过Antigravity 2.0 SDK为Spark扩展更多自定义功能。
七、挑战与展望
尽管Spark展示出令人瞩目的能力前景,但它也面临着不容忽视的挑战。谷歌明确提示该功能仍处于实验阶段,可能在未经用户确认的情况下完成付款或分享信息。这意味着在AI智能体获得真实行动能力的初期,如何平衡自动化效率与用户安全控制权,仍是一个需要持续探索的命题。
从更大的图景来看,Spark的出现标志着谷歌AI战略从“聊天工具”向“执行者”的系统性跃迁。正如多家媒体在报道中所指出的,谷歌正在将AI智能体全面嵌入搜索框、Chrome浏览器、Android手机乃至智能眼镜等所有核心入口。Gemini不再只是一个对话助手,而是一个可以持续运行、跨应用执行任务的AI代理。
值得注意的是,Spark并非谷歌在智能体领域的孤立发布。有报道称,谷歌此前曾以“Project Jarvis”为代号秘密开发Chrome浏览器内的AI智能体,旨在自动化日常网页任务,如信息搜集、产品购买和航班预订-。这一项目如今似乎已整合进Spark的长期规划中——谷歌已明确表示,今年夏季Spark将在Chrome浏览器中直接运行。
结语
Gemini Spark的发布,或许预示着一个新的技术周期的开启:个人AI助手不再只是被动等待用户提问的工具,而是主动在后台执行的数字代理。对于普通用户而言,这意味着日常数字生活中的大量重复性、长周期任务,将有越来越多地由智能体代为完成。至于Spark能否真正如谷歌所愿,成为人们“随时抛出手边事务的接球手”,答案将在接下来的公测和正式上线中逐步揭晓。