论文第 4.2 节给出“λ_k 递减”策略:λ_k = λ_0 / √(k+1),但代码里所有 stage 共享同一个 self.lambda1 = nn.Parameter(torch.tensor(0.1))
论文第 4.2 节给出“λ_k 递减”策略:λ_k = λ_0 / √(k+1),但代码里所有 stage 共享同一个 self.lambda1 = nn.Parameter(torch.tensor(0.1))