找找AI 原创出品技术

高通AI250：近存计算架构对“内存墙”瓶颈的系统性破解

原创标识

高通AI250是2026年至2027年AI推理芯片赛道最受关注的架构创新之一。该芯片首次在数据中心级AI推理场景中引入近存计算（Near-Memory Computing）创新内存架构，通过提供超过10倍的有效内存带宽提升并显著降低功耗，为AI推理工作负载带来跨世代的性能与能效突破。

“内存墙”问题的工程本质。传统冯·诺依曼架构下，计算单元与存储单元物理分离，AI推理任务需要在高带宽内存（HBM）与计算核心之间频繁搬运数据。随着模型参数规模的指数级增长（从GPT-3的1750亿到万亿级参数），数据搬运的功耗和延迟已成为制约推理性能的最主要瓶颈——即“内存墙”问题。高通的解决方案是将计算逻辑向内存更紧密地迁移：AI250的近存计算架构将部分数据处理操作直接在内存附近完成，大幅减少了核心与内存间的数据移动，从而实现了10倍以上的有效内存带宽提升。这一架构还支持解耦式AI推理，使硬件资源的利用率大幅提升，有效解决了传统架构中“内存墙”导致的性能瓶颈。

多线竞争格局中的差异化卡位。高通AI200系列整体策略展现了清晰的差异化路径：AI200加速卡采用768GB LPDDR内存而非行业主流的HBM，通过降低内存成本实现低总拥有成本（TCO）目标，精准命中云服务提供商“每美元tokens数”的核心诉求。AI250则定位于更高端市场，预计2027年商用。两家芯片均采用直接液冷散热技术，单机架功耗控制在160千瓦，支持PCIe纵向扩展与以太网横向扩展，构建了完整的机架级方案体系。高通已与沙特AI公司HUMAIN达成合作，计划部署200兆瓦的高通推理解决方案，构建全球首个边缘到云端的混合AI系统。在高通之外，华为通过UCM推理记忆数据管理器构建三级存储架构避免重复计算，与高通形成不同技术路径的探索。