Skip to content

关于训练过程中 loss 突然增大的问题 #19

@flynn17625

Description

@flynn17625

问题描述:在使用 train.py 训练模型时,设置采样率为 0.1,使用默认参数(batch_size=64,lr=0.001),训练到第 5 个 epoch 左右时,batch_loss 突然增大到 2 以上,触发代码中的警告 Warning: your loss > 2 !。后续 epoch 的 loss 持续波动且难以收敛,导致模型重建效果较差(PSNR 值明显下降)。
复现步骤:
将 BSDS500 和 VOC2012 数据集放入 ./dataset/train/ 目录
执行命令:python train.py --device 0 --rate 0.1
观察训练日志,在第 5-10 个 epoch 期间出现 loss 突增现象
环境信息:
PyTorch 版本:1.13.1
CUDA 版本:11.7
GPU:NVIDIA RTX 3090(24GB 显存)
系统:Ubuntu 20.04
补充说明:
检查过数据集路径正确,且数据已成功打包为 train.pt
尝试降低学习率至 0.0001,loss 突增现象有所缓解,但仍存在波动
训练日志中未出现显存溢出或设备错误

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions