Save scaler state dict when checkpointing by sgugger · Pull Request #11663 · huggingface/transformers

sgugger · 2021-05-10T14:44:28Z

What does this PR do?

One last thing was missing for resuming with checkpoints and have exactly the same results as a complete training: the gradient scaler state when using mixed precision with AMP in PyTorch. This PR addresses that.

Fixes #11323

LysandreJik

Great! LGTM, thanks @sgugger!

Save scaler state dict when checkpointing

af290a7

sgugger requested a review from LysandreJik May 10, 2021 14:44

LysandreJik approved these changes May 10, 2021

View reviewed changes

LysandreJik merged commit 05a9306 into master May 10, 2021

LysandreJik deleted the checkpoint_scaler branch May 10, 2021 14:58

Iwontbecreative pushed a commit to Iwontbecreative/transformers that referenced this pull request Jul 15, 2021

Save scaler state dict when checkpointing (huggingface#11663)

2b66ef7

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Save scaler state dict when checkpointing#11663

Save scaler state dict when checkpointing#11663
LysandreJik merged 1 commit intomasterfrom
checkpoint_scaler

sgugger commented May 10, 2021

Uh oh!

LysandreJik left a comment

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants

Conversation

sgugger commented May 10, 2021

What does this PR do?

Uh oh!

LysandreJik left a comment

Choose a reason for hiding this comment

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants