正则化参数 λ_k 未按论文策略调度

论文第 4.2 节给出“λ_k 递减”策略：λ_k = λ_0 / √(k+1)，但代码里所有 stage 共享同一个 self.lambda1 = nn.Parameter(torch.tensor(0.1))