关于训练过程中 loss 突然增大的问题

问题描述：在使用 train.py 训练模型时，设置采样率为 0.1，使用默认参数（batch_size=64，lr=0.001），训练到第 5 个 epoch 左右时，batch_loss 突然增大到 2 以上，触发代码中的警告 Warning: your loss > 2 !。后续 epoch 的 loss 持续波动且难以收敛，导致模型重建效果较差（PSNR 值明显下降）。
复现步骤：
将 BSDS500 和 VOC2012 数据集放入 ./dataset/train/ 目录
执行命令：python train.py --device 0 --rate 0.1
观察训练日志，在第 5-10 个 epoch 期间出现 loss 突增现象
环境信息：
PyTorch 版本：1.13.1
CUDA 版本：11.7
GPU：NVIDIA RTX 3090（24GB 显存）
系统：Ubuntu 20.04
补充说明：
检查过数据集路径正确，且数据已成功打包为 train.pt
尝试降低学习率至 0.0001，loss 突增现象有所缓解，但仍存在波动
训练日志中未出现显存溢出或设备错误

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

关于训练过程中 loss 突然增大的问题 #19

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

关于训练过程中 loss 突然增大的问题 #19

Description

Metadata

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Issue actions