|
摘要: 随着AR/VR设备日益普及,将深度学习模型部署到边缘设备已经成为一个关键挑战。这些设备需要实时推理、低功耗和最小延迟。许多框架设计者面临着在效率和性能之间平衡的难题。我们设计了一个轻量级框架,采用编码器-解码器架构,并引入了几个旨在提高效率和准确性的关键贡献。我们在ResNet-18骨干上应用了稀疏卷积,以利用手部姿势图像中固有的稀疏性,实现了42%的端到端效率改善。此外,我们提出了我们的SPLite解码器。这种新的架构显著提高了在树莓派5上的解码过程的帧率,同时保持了准确性。为了进一步优化性能,我们应用了量化感知训练,减少了内存使用量,同时保持了准确性(在FreiHAND上,PA-MPJPE仅从9.0毫米增加到9.1毫米)。总体而言,我们的系统在树莓派5 CPU(BCM2712四核Arm A76处理器)上实现了2.98倍的加速。我们的方法还在复合基准数据集上进行了评估,展示了与最先进方法相当的准确性,同时显著提高了计算效率。 更新时间: 2025-10-30 04:59:32 领域: cs.CV,cs.AI
|