二值神经网络朝着算法简化收敛：学习即压缩假设的实证支持

于红博 · 发表于 2025-9-21 14:58:34

摘要: 理解和控制神经网络的信息复杂性是机器学习中的一个核心挑战，对泛化、优化和模型容量具有重要意义。虽然大多数方法依赖于基于熵的损失函数和统计指标，但这些度量经常无法捕捉嵌入在网络结构中的更深层次、因果相关的算法规律。我们提出了向算法信息理论转变的建议，使用二值化神经网络（BNNs）作为第一个代理。基于算法概率（AP）和其所定义的通用分布，我们的方法通过一个形式化的、因果相关的视角来表征学习动态。我们应用基于AP的可扩展算法复杂度的块分解方法（BDM），并且证明它在训练过程中更接近于跟踪结构变化，与熵相比，在不同模型大小和随机化训练运行中一贯展现出与训练损失更强的相关性。这些结果支持将训练视为算法压缩过程的观点，其中学习对应于逐步内化结构规律。通过这样做，我们的工作提供了对学习进展的原理估计，并提出了一个基于信息理论、复杂性和可计算性的第一原理的复杂性感知学习和正则化框架。

更新时间: 2025-09-18 15:30:41

领域: cs.LG,cs.AI,cs.IT,math.IT,68T07, 68Q30, 68Q32,I.2.6; F.1.1; F.1.3

下载: http://arxiv.org/abs/2505.20646v3

		自动登录	找回密码
密码			立即注册