问题描述:在使用 train.py 训练模型时,设置采样率为 0.1,使用默认参数(batch_size=64,lr=0.001),训练到第 5 个 epoch 左右时,batch_loss 突然增大到 2 以上,触发代码中的警告 Warning: your loss > 2 !。后续 epoch 的 loss 持续波动且难以收敛,导致模型重建效果较差(PSNR 值明显下降)。
复现步骤:
将 BSDS500 和 VOC2012 数据集放入 ./dataset/train/ 目录
执行命令:python train.py --device 0 --rate 0.1
观察训练日志,在第 5-10 个 epoch 期间出现 loss 突增现象
环境信息:
PyTorch 版本:1.13.1
CUDA 版本:11.7
GPU:NVIDIA RTX 3090(24GB 显存)
系统:Ubuntu 20.04
补充说明:
检查过数据集路径正确,且数据已成功打包为 train.pt
尝试降低学习率至 0.0001,loss 突增现象有所缓解,但仍存在波动
训练日志中未出现显存溢出或设备错误
问题描述:在使用 train.py 训练模型时,设置采样率为 0.1,使用默认参数(batch_size=64,lr=0.001),训练到第 5 个 epoch 左右时,batch_loss 突然增大到 2 以上,触发代码中的警告 Warning: your loss > 2 !。后续 epoch 的 loss 持续波动且难以收敛,导致模型重建效果较差(PSNR 值明显下降)。
复现步骤:
将 BSDS500 和 VOC2012 数据集放入 ./dataset/train/ 目录
执行命令:python train.py --device 0 --rate 0.1
观察训练日志,在第 5-10 个 epoch 期间出现 loss 突增现象
环境信息:
PyTorch 版本:1.13.1
CUDA 版本:11.7
GPU:NVIDIA RTX 3090(24GB 显存)
系统:Ubuntu 20.04
补充说明:
检查过数据集路径正确,且数据已成功打包为 train.pt
尝试降低学习率至 0.0001,loss 突增现象有所缓解,但仍存在波动
训练日志中未出现显存溢出或设备错误