mHC的关键机制在于将残差映射投影到“流形”上,从而恢复恒等映射特性。具体来说,DeepSeek通过Sinkhorn-Knopp算法实现了这一投影操作,使得残差映射矩阵具备了能量守恒性、稳定性闭合性以及几何可解释性等三大性质,显著提升了信号传播的稳定性。
智东西1月1日报道,昨日晚间, DeepSeek 团队送出一份新年“贺礼”,正式发布新论文《Manifold-Constrained Hyper-Connections》, 提出一种能稳定训练并提升大模型可扩展性的残差连接新方案 。