MMEdge：通过分阶段感知和编码加速设备端多模态推理

于红博 · 发表于 2025-11-2 22:08:55

摘要: 边缘设备上的实时多模态推断对于自动驾驶、人机交互和移动健康等应用至关重要。然而，先前的工作通常忽视了传感动态和模型执行之间的紧密耦合，以及复杂的跨模态依赖关系。在本文中，我们提出了一种新的基于管道化传感和编码的设备上多模态推断框架MMEdge。MMEdge将整个推断过程分解为一系列细粒度的传感和编码单元，允许计算随着数据的到达逐步进行。MMEdge还引入了一个轻量但有效的时间聚合模块，捕获不同管道单元之间丰富的时间动态，以保持准确性能。这种管道化设计也为细粒度的跨模态优化和推断过程中的早期决策提供了机会。为了进一步增强系统在资源变化和输入数据复杂性下的性能，MMEdge集成了一个自适应多模态配置优化器，根据延迟约束动态选择每种模态的最佳传感和模型配置，以及一个跨模态的推测跳过机制，在早期预测达到足够信心时跳过较慢模态的未来单元。我们使用两个公共多模态数据集对MMEdge进行评估，并将其部署在一个真实世界的基于无人机的多模态测试平台上。结果显示，MMEdge显著降低了端到端延迟，同时在各种系统和数据动态下保持高任务准确性。

更新时间: 2025-10-30 02:51:38

领域: cs.CV,cs.AI,cs.LG

下载: http://arxiv.org/abs/2510.25327v2

		自动登录	找回密码
密码			立即注册