视觉大语言模型为何迫使边缘AI硬件重新思考
创始人
2026-06-03 00:39:07
0

随着以视觉为中心的大语言模型转向设备端部署,仅用原始TOPS来衡量性能已经不够。架构需要围绕真实工作负载、内存行为和持续利用率来构建,尤其是在边缘场景。

过去十年,大多数边缘AI芯片都是为了极其出色地完成一项工作而构建的:运行卷积网络来进行图像分类、检测和基本分割。随着多模态模型从研究阶段进入商业边缘系统,这种设计思路正变得不再充分。

视觉大语言模型在单一管道中融合了感知、语义和推理能力。它们可以理解场景,回答关于所见内容的问题,总结跨时间的事件,并越来越多地帮助决定下一步该做什么。摄像头、车辆、工业系统和医疗平台越来越多地要求在本地而非完全在云端实现这些能力。

在设备上运行这些模型具有明显优势。本地推理可以降低延迟,改善隐私保护,并减少对网络连接和云推理成本的依赖。但这也打破了第一代边缘加速器背后的许多假设。

内存而非算力成为瓶颈

乍一看,在边缘运行视觉大语言模型似乎是一个简单的扩展问题:采用现有的NPU或GPU,增加更多计算和内存。但实际上,团队很快发现瓶颈往往是内存流量和利用率,而不是理论算术吞吐量。

第一个问题是模型规模。现代基于Transformer的系统以数十亿参数来衡量,多模态系统还增加了视觉前端,将图像或视频转换为Token供下游推理使用。结果是庞大的权重占用、大量激活值以及不断增长的键值状态,所有这些都增加了内存容量和内存带宽压力。

第二个问题是注意力机制。底层的缩放点积注意力机制随上下文大约呈二次方增长,这意味着更长的提示、更丰富的多模态上下文和更大的Token数量会迅速压垮边缘内存子系统。即使峰值计算在纸面上看起来足够,许多系统也会因为数据移动成为实际限制而停滞。

第三个问题是工作负载的不规则性。视觉大语言模型不仅仅是附加了图像的Transformer。它们结合了视觉编码器、Transformer层、前馈块、归一化、向量操作和输出头,所有这些都具有不同的形状和重用模式。在对现代多模态图的内部评估中,在孤立基准测试中看起来高效的模型,一旦启用更长的上下文和完整的视觉管道,往往会显示出较差的利用率。

三层优化方法

Expedera的视觉大语言模型研究中一个更有用的结论是,边缘部署必须在三个层面进行优化:模型架构、系统级调度和专用硬件支持。这种框架很重要,因为它将讨论从单芯片解决方案思维转向软硬件协同设计。

在模型层面,团队可以考虑混合或非Transformer设计、蒸馏变体以及以较低成本保留关键能力的具身智能体模型等替代方案。在软件层面,量化、FlashAttention等分块方法以及推测解码有助于减少内存压力并改善延迟。但如果底层架构仍然假设规则的层行为和逐层执行,这些技术只能起到有限作用。

这就是专用硬件支持变得重要的地方。正确的加速器不仅需要根据峰值吞吐量进行评估,还要根据它在真实多模态图上维持利用率的能力以及控制外部内存流量的能力进行评估。

传统NPU的局限性

当今现场的许多NPU都是围绕以CNN为主的边缘视觉现实而设计的。隐含地,它们假设相对规则的层形状、可预测的分块行为以及权重、激活值和片上内存之间的可管理平衡。

这些假设在视觉大语言模型工作负载上崩溃了。严格的逐层执行往往会更频繁地将激活值溢出到外部内存,当图在视觉编码、注意力、前馈和向量密集型操作之间交替时,固定的执行模式效率较低。随着上下文窗口增长和多模态融合变得更加丰富,键值状态和激活值移动成为功耗和延迟的过大贡献者。

这也是为什么峰值TOPS正在成为边缘性能交付的较弱代理指标。如果一个设计在合成基准测试上看起来很强,但如果它无法在工作负载从一个阶段转移到另一个阶段时保持局部性和利用率,它在实际视觉大语言模型图上的表现可能仍然很差。

基于数据包的架构

对这个问题的一个回应是重新思考硬件中的执行单元。Expedera的Origin架构采用了这种方法,将其描述为基于数据包的AI处理架构。

数据包是神经网络的小型、依赖感知片段,它们垂直穿过图,而不是强制系统一次处理一个完整的层。这些数据包可以通过专门的处理资源进行路由,以低上下文切换开销重新排序,并在不再需要其激活值时退出。

这种抽象的变化有几个含义。首先,它可以提高持续利用率,因为硬件不太依赖于每一层都匹配理想的执行形状。其次,它可以通过允许更早地消耗和退出中间数据来减少昂贵的外部内存移动。第三,数据包化不会改变模型的底层数学,因此它被定位为执行策略而不是网络精度或模型语义的改变。

视觉大语言模型作为压力测试

视觉大语言模型是任何加速器的良好压力测试,因为它们将多种计算特性组合到单一推理路径中。典型的管道从视觉编码开始,进入具有注意力和前馈层的多模态推理,并以输出生成或动作选择结束。

这些阶段对硬件的要求并不相同。视觉前端重用了边缘视觉中熟悉的模式,但推理路径引入了与大语言模型相关的序列密集型、缓存密集型行为。输出和融合阶段通常依赖于向量和支持操作,这些操作在仅针对密集矩阵数学调优的硬件上服务不足。

基于数据包的架构非常适合这种异构性,因为它可以通过专门的前馈、注意力和向量块路由工作,而不是强制每个阶段使用相同的执行模型。更广泛地说,它反映了一个可能超越任何一个供应商的设计原则:以与现代多模态图实际执行方式相匹配的粒度表示工作。

评估标准需要演进

对于SoC架构师和软件团队来说,可以得出几个结论。首先是评估标准需要演进。峰值TOPS和TOPS/W仍然有用,但它们应该由特定工作负载的度量来补充,例如持续利用率、外部内存事务以及真实视觉大语言模型图上的尾部延迟。

其次是硬件灵活性比以往任何时候都更重要。架构应该针对包括传统CNN、基于Transformer的大语言模型、扩散管道和更新的多模态模型在内的组合进行测试,因为边缘产品在其生命周期内将越来越需要支持所有这些。

第三是硬件和软件不能再被视为独立的交付物。例如,Expedera的堆栈包括编译器、估算器、调度器和量化器,以及核心NPU架构,强化了更广泛的教训,即高效的视觉大语言模型部署依赖于端到端的协同设计。

工作负载优先的思维方式

视觉大语言模型将继续向边缘移动,因为产品价值太强大而无法忽视。能够理解所见内容、对本地上下文进行推理并在不将所有内容发送到云端的情况下做出响应的设备将提供更好的延迟、更强的隐私保护,并且通常具有更低的运营成本。

因此,核心硬件问题不再是在给定的功耗和面积预算内可以容纳多少TOPS。而是架构是否围绕真实的多模态工作负载行为构建,特别是内存移动、激活值生命周期、不规则图下的利用率以及有效调度所有这些所需的软件。

像Expedera基于数据包的Origin NPU这样的架构指向了一个可能的答案:以现代神经网络实际执行的方式表示工作,然后围绕这一现实构建计算、内存和软件。对于构建下一代边缘芯片的团队来说,这种工作负载优先的思维方式可能比任何单一的峰值性能数字更重要。

Q&A

Q1:视觉大语言模型在边缘设备部署时面临的主要瓶颈是什么?

A:主要瓶颈是内存流量和利用率,而不是理论算术吞吐量。具体包括三个问题:一是模型规模庞大,权重占用、激活值和键值状态都增加了内存压力;二是注意力机制随上下文呈二次方增长,会压垮边缘内存子系统;三是工作负载不规则,结合了视觉编码器、Transformer层、前馈块等不同形状和重用模式的组件,导致利用率较差。

Q2:为什么峰值TOPS不再是衡量边缘AI硬件性能的充分指标?

A:因为视觉大语言模型的工作负载特性已经改变。传统NPU假设规则的层形状和逐层执行,但视觉大语言模型在视觉编码、注意力、前馈和向量操作之间交替,工作负载不规则。一个在合成基准测试上峰值TOPS很高的设计,如果无法在工作负载转换时保持局部性和利用率,在实际多模态图上的表现可能很差。评估标准应该包括持续利用率、外部内存事务和尾部延迟等指标。

Q3:Expedera的基于数据包的架构有什么特点?

A:这种架构将神经网络分解为小型、依赖感知的数据包片段,让它们垂直穿过图,而不是逐层处理。数据包可以通过专门的前馈、注意力和向量块进行路由,以低开销重新排序,并在激活值不再需要时退出。这样可以提高持续利用率,减少外部内存移动,同时不改变模型的底层数学。它反映了以现代多模态图实际执行方式来表示工作的设计原则。

相关内容

视觉大语言模型为何迫使边缘...
随着以视觉为中心的大语言模型转向设备端部署,仅用原始TOPS来衡量...
2026-06-03 00:39:07
Cosmos 3如何帮助物...
现实世界始终处于运动之中。为了实现自主运行,物理AI系统——包括机...
2026-06-02 00:32:44
Rubrics综述:Age...
近年来,随着大模型从简单问答,走向深度研究、医疗咨询、多模态生成和...
2026-05-31 21:07:33
高端市场 中国品牌为何打不...
当下的30万元级高端纯电市场,已成为中国新能源品牌的「军备竞赛主战...
2026-05-31 10:42:05
【预告】罗林教授:区域国别...
编者按:6月2日,由中国人民大学区域国别研究院(重阳金融研究院)、...
2026-05-30 15:54:49
原创 ...
2026年5月初,伊朗通过巴基斯坦向美国递交了一份包含14条核心内...
2026-05-29 14:14:23

热门资讯

原创 如... 肺是人体非常重要的器官,空气中的很多灰尘和垃圾都会随空气进入肺部,所以肺部的清洁是非常重要的。我们可...
孕妈检测出胎儿没有“胎心”究竟... 原标题:孕妈检测出胎儿没有“胎心”究竟为何?多半是这4种原因,预防下 昨天小樱...
耳聋耳背知识分享-----耳朵... 耳朵听力下降恢复方法首先要找出听力下降的病因,其次针对病因进行对症治疗。 耳朵听力下降,如何恢复听...
激光术后护理指南:如何科学恢复... 二氧化碳激光是一种常用于去除瘢痕、色素沉着、皱纹和其他皮肤问题的治疗方法。它通过发射高能量的二氧化碳...
如何有效应对低血压问题,提升生... 血压低,这个问题在生活中并不罕见。很多人可能会觉得,血压低就像是个小毛病,不用太在意。但实际上,低血...
郑州银行大额存单利率:1、活期... 导读2022郑州银行大额存单利率一、存款利率:1、活期存款:0.3%2、整存整取:三个月1.60%,...
孩子自控力差?家长如何引导培养 孩子自控力差?家长如何引导培养 在孩子的成长过程中,自控力是一项至关重要的能力。它关乎孩子的学业表现...
原创 婴... 在宝宝的成长过程中,奶粉作为重要的营养来源,其选择至关重要。那么,什么样的婴儿奶粉比较好呢?奶粉的营...
原创 高... 《水浒传》中,那些绿林好汉多半是不近女色的,比如晁盖登场时,书中就提到这么一句。 “那东溪村保正,姓...
存款利息怎么算?湖南农商行存款... 导读湖南农商行存款利息怎么算?湖南农商行作为湖南最大的股份制银行,它是一家地方性、集约化、国际化、股...