找找AI 原创出品技术

AGenUI：高德×阿里千问，给AI Agent一本“原生UI说明书”

小D 找找AI

2026-05-20 12:39:20

AI 摘要

高德地图和阿里千问联合开源的生成式UI框架，核心就一件事：让AI Agent输出的不再是干巴巴的文字，而是能直接跑在手机上的交互卡片——一套描述，iOS、Android、鸿蒙三端通吃。

这东西到底是干嘛的？

AGenUI，是高德地图联合阿里千问C端应用团队在2026年5月中旬推出来的一个开源框架。全称有点长，叫端云一体原生A2UI开源框架，其实翻译成人话就一句话：让AI Agent描述的界面，能直接在iOS、安卓、鸿蒙手机上跑起来，而且跑出来是原生的样子。

如果你用过AI Agent，应该对这个场景不陌生：你让Agent帮你订个机票，它二话不说给你发了一大段文字——“请选择出发日期，请选择航班，请填写乘客信息……”然后你就得手动一项一项填，填完再告诉它下一步。Agent明明知道需要什么，但它就是没办法直接给你一个表单。这就是痛点。

这个问题的根源在于：AI Agent“知道”要什么样的界面，但没有办法直接生成并呈现给用户——它只能输出文本，把“搭界面”这件事推给用户自己完成-2。

谷歌去年底开了一个叫A2UI（Agent-to-User Interface）的协议，就是来解决这个问题的。它的思路是：Agent不用再去写HTML代码了，只需要输出一套结构化的JSON，描述“我需要什么界面组件”就行。但谷歌的A2UI只定义了协议标准，怎么在手机上真正跑起来这件事，谷歌没管。高德和千问这次做的就是补上这一环——在iOS、安卓、鸿蒙三端，把A2UI的JSON描述真正渲染成原生组件。

它有什么不一样的地方？

1. 行业首个三端原生全覆盖

这是目前市面上第一个同时支持iOS、Android、HarmonyOS三端的原生A2UI渲染框架。三端共用同一套C++ Core，通过各平台的原生能力（iOS的UIView、安卓的View、鸿蒙的ArkUI）完成最终渲染，一套代码三个平台都能跑-1。不用再为了适配不同操作系统写三遍UI代码。

2. 端云一体，分工明确

云侧的事交给千问：通过Agent Skill生成符合A2UI协议的JSON结构化界面描述，大幅降低大模型的Token消耗和输出不确定性-1。端侧的事交给高德：跨平台C++ Core统一处理协议解析、状态管理和布局计算，直接在各端原生渲染。一个管“想”，一个管“做”，分工清晰。

3. Streaming-first流式渲染，边来边显

传统的界面生成方式是等AI全部想好再一次性渲染，用户得干等着。AGenUI支持“边生成边呈现”，组件到达即刻挂载，不用等完整JSON生成完毕-1。配合最小化节点差分更新和独立线程异步渲染，核心场景目标对齐120fps，高频更新也不卡主线程。

4. 鸿蒙版有天然加成

AGenUI深度适配鸿蒙的1+8+N全场景分布式架构，直连系统级渲染、动效和分布式核心能力，与小艺、鸿蒙意图框架天然协同-1-45。性能上，鸿蒙版比iOS和安卓版渲染性能提升20%，内存占用降低18%-1。一套协议就能无缝适配鸿蒙手机、平板、车机、智慧屏、穿戴等多种终端。

5. 组件体系齐全，开箱即用

内置22个基础组件（18个A2UI协议组件+4个SDK扩展组件）和45+项CSS样式属性，覆盖文本、图片、按钮、列表、输入框、卡片等常用元素-1。Theme系统支持Design Token，模型只需要输出语义描述（比如primary、surface），端侧就能自动映射成符合品牌规范的具体颜色、字体和间距。

6. 纯Native渲染，不走WebView

市面上很多跨平台方案依赖JavaScript或WebView，但AGenUI走的是纯Native路线。核心逻辑（协议解析、状态管理、布局计算、节点Diff）全在独立线程完成，主线程只负责提交轻量级UI操作，性能和流畅度更有保障。

传统UI开发vs生成式UI，到底差在哪？

传统UI开发是为确定性页面设计的，每个界面都要手写代码，需求一变就要重新开发。而生成式UI是动态的，Agent根据任务需求实时生成界面，一套协议就能适配多种终端，不用单独调式调试。

拿旅行规划来举个例子。传统模式下，你想让Agent规划行程，它给你一段文字，你在微信和备忘录之间来回折腾，最后界面体验非常割裂。但在AGenUI模式下，Agent可以直接生成一个交互式行程卡——左边是地图预览，右边是可编辑的清单，你想换酒店直接在卡片上改。界面原生，响应流畅，不用跳出App，所有操作在一处完成。

另一个很典型的场景是复杂表单填写。企业OA系统里经常要填各种申请单、报销单，过去Agent只能一步步问你要信息。现在Agent直接生成一张带所有字段的结构化表单，你填完提交就行，交互效率提升一个台阶。

哪些人最值得关注？

AI Agent开发者：如果你的Agent需要和用户进行结构化交互，再也不用靠大段文字解释了，直接输出A2UI JSON，AGenUI负责在端侧渲染成漂亮的原生界面。
跨平台App开发者：不想为一个功能在iOS、安卓、鸿蒙写三遍UI代码的，AGenUI让一套JSON三端通吃。
鸿蒙生态开发者：深度适配鸿蒙分布式架构，性能还有加成，想搭鸿蒙生车做AI应用的可以重点关注。
企业级应用开发团队：OA系统、客服系统、业务流程工具中有大量表单和卡片场景，用AGenUI可以让AI Agent动态生成交互界面，减少定制开发工作量。

怎么开始？

AGenUI目前已正式开源，采用MIT协议。你需要的东西全在下面：

官网：genui.amap.com-5
GitHub：https://github.com/AGenUI/AGenUI[reference:19][reference:20]
端侧SDK：三端原生渲染能力，接入即可用-1
云侧Agent Skill：生成A2UI JSON的能力-1
Playground：内置的调试和体验环境，可以直接跑协议和端云协同流程-1

接入方式也很直接：通过统一入口SurfaceManager，只需要少量代码就能创建渲染容器、加载A2UI JSON并监听事件回流-1。三端的接入逻辑高度一致，学一次就能在三个平台复用。

说两句感想

这次高德和千问的合作挺有意思的。高德长期深耕地图导航、本地生活这些真实世界的复杂服务，积累了大量的跨平台工程能力；千问则在大规模AI应用入口和Agent交互生态上持续投入-5。一个懂“怎么做”，一个懂“怎么想”，正好互补。

谷歌定了A2UI协议标准，高德千问做出了端侧渲染引擎——这个分工有点像谷歌开源了Android系统，各家手机厂商做硬件适配。AGenUI不一定能像Android那样大一统，但它至少给出了一个让生成式UI在手机上落地的可行方案。

AI Agent已经从“只会聊”进化到“能做规划、能调工具”，但卡在界面上很久了。AGenUI往前推了一步。如果这个方向跑通了，以后你让Agent帮你订机票，它给的应该是一张可以直接填的表单，而不是需要你自己整理的一串文字。