NdLinear：保留多维结构以实现参数高效的神经网络

于红博 · 发表于 2025-10-9 16:29:46

摘要: 在深度学习中，处理多维输入（如图像、医学扫描和时间序列）是一个重要任务，通常需要将输入展平。我们引入了$\mathit{NdLinear}$，这是一个直接在张量上操作的线性层的替代品，不需要展平。通过沿着每个维度分别应用变换，$\mathit{NdLinear}$保留了原始数据结构，同时实现了显著的参数减少，往往是数量级的降低，且内存开销最小。我们证明了$\mathit{NdLinear}$通过结构化的Tucker分解来维持表达能力，同时保持了VC-维度的扩展。广泛的实验表明，$\mathit{NdLinear}$能够实现显著的参数减少，同时获得实质性的墙钟效率提升和最小的内存开销。例如，我们的$\mathit{NdLinear-LoRA}$在语言推理任务中使用的参数数量少至多达$9\times$，与标准LoRA相匹配或超过。在视觉、语言、时间序列和表格任务上，跨CNNs、RNNs、Transformers和MLPs的实验一致表明$\mathit{NdLinear}$的效率提升。虽然在轴分离任务上表现出色，但$\mathit{NdLinear}$在空间相互作用纠缠方面有限。通过以其原始的N维形式处理数据，$\mathit{NdLinear}$为构建更有效的神经结构提供了一个理论上扎实的、实用的组件。

更新时间: 2025-10-08 17:59:37

领域: cs.LG,cs.AI

下载: http://arxiv.org/abs/2503.17353v3

		自动登录	找回密码
密码			立即注册