[feat] Resume from ckpt by kevssim · Pull Request #135 · modelscope/twinkle

kevssim · 2026-03-31T01:45:42Z

PR type

Bug Fix
New Feature
Document Updates
More Models or Datasets Support

PR information

实现完整训练状态的恢复——包括优化器、调度器、RNG配置以及数据集跳过

gemini-code-assist

Code Review

This pull request implements a comprehensive "Strict Resume" feature for Transformers models, enabling the restoration of full training state including optimizer, scheduler, scaler, RNG states, and data progress. Key changes involve implementing load_training_state and read_training_progress across the model, server, and client layers, alongside dataloader enhancements to support sample-level skipping for map-style datasets. Feedback highlights several critical improvements: ensuring deterministic RNG in distributed settings by avoiding unseeded random states, addressing the deprecated use of StopIteration in generators, improving security by using weights_only=True during checkpoint loading, and removing an accidental BOM character in the client generator. Additionally, a more robust approach for re-initializing the dataloader is suggested to avoid modifying private PyTorch attributes.

…into resume_from_ckpt

kevssim · 2026-04-01T06:42:20Z

/gemini summary

Yunnglin · 2026-04-29T08:22:13Z

+    def skip_consumed_samples(self, consumed_train_samples: int):
+        response = http_post(
+            url=f'{self.server_url}/call',
+            json_data={
+                'processor_id': self.processor_id,
+                'function': 'skip_consumed_samples',
+                **{'consumed_train_samples': consumed_train_samples},
+            }
+        )
+        response.raise_for_status()
+        return response.json()["result"]
+
+
+    def resume_from_checkpoint(self, consumed_train_samples, **kwargs):
+        response = http_post(
+            url=f'{self.server_url}/call',
+            json_data={
+                'processor_id': self.processor_id,
+                'function': 'resume_from_checkpoint',
+                **{'consumed_train_samples': consumed_train_samples},
+                **kwargs
+            }
+        )
+        response.raise_for_status()
+        return response.json()["result"]
+
+
+    def get_state(self):
+        response = http_post(
+            url=f'{self.server_url}/call',
+            json_data={
+                'processor_id': self.processor_id,
+                'function': 'get_state',
+                **{},
+            }
+        )
+        response.raise_for_status()
+        return response.json()["result"]


This part of the code should be modified in the client_generator.py, and then the script should be called to generate.

The DataLoader client file was regenerated, not manually edited.

These methods are generated from the new @remote_function() methods in src/twinkle/dataloader/dataloader.py; no generator logic change is needed for this case because client_tools/client_generator.py already scans remote functions and emits the client wrappers.

Copilot

Pull request overview

This PR adds end-to-end checkpoint resumption for Twinkle training, covering model weights plus full training state (optimizer/scheduler/scaler/RNG) and dataloader progress (skipping already-consumed samples), with corresponding client/server API surface, documentation, and examples.

Changes:

Add resume_from_checkpoint(...) to model interfaces and implementations (Transformers + Megatron), and persist/restore training state (trainer_state.json, optimizer/scheduler/scaler/RNG).
Add dataloader-side consumed-sample tracking + skipping/resume helpers and sampler changes to ensure skipping happens before DP slicing.
Expose the feature via Twinkle server endpoint + generated client types/wrappers, and add tests/docs/cookbook examples.

Reviewed changes

Copilot reviewed 28 out of 28 changed files in this pull request and generated 9 comments.

Show a summary per file

File	Description
tests/dataloader/test_sampler.py	Adds ordering test for skip vs device-mesh slicing.
tests/dataloader/test_dataloader.py	Adds tests for map-style skipping + iterable-dataset warning behavior.
src/twinkle_client/types/model.py	Adds request/response models for resume endpoint.
src/twinkle_client/types/init.py	Re-exports new resume-related types.
src/twinkle_client/model/multi_lora_transformers.py	Adds generated client method `resume_from_checkpoint`.
src/twinkle_client/dataloader/dataloader.py	Adds generated client methods for skip/resume/get_state on dataloader processor.
src/twinkle/server/model/twinkle_handlers.py	Adds `/twinkle/resume_from_checkpoint` endpoint to trigger server-side resume.
src/twinkle/model/base.py	Extends base model interface with abstract `resume_from_checkpoint`.
src/twinkle/model/transformers/transformers.py	Saves/restores training state (optimizer/scheduler/scaler/RNG) and implements `resume_from_checkpoint`.
src/twinkle/model/transformers/multi_lora_transformers.py	Updates load flow to restore training state (and accept local paths).
src/twinkle/model/transformers/strategy/native_fsdp.py	Adds strategy hooks to save/load optimizer checkpoints (incl. wrapped/FSDP2 cases).
src/twinkle/model/transformers/strategy/accelerate.py	Adds optimizer checkpoint save/load support for Accelerate (incl. FSDP2 plugin).
src/twinkle/model/transformers/strategy/sequence_parallel/init.py	Adds default optimizer checkpoint save/load hooks for SP strategy.
src/twinkle/model/megatron/megatron.py	Persists trainer_state metadata and adds `resume_from_checkpoint`.
src/twinkle/model/megatron/multi_lora_megatron.py	Adds multi-LoRA Megatron resume: per-rank optimizer + RNG + trainer_state.
src/twinkle/dataloader/dataloader.py	Adds consumed-sample tracking, skip/resume API, and rebuildable sampler stack.
src/twinkle/dataloader/retry_sampler.py	Adds deterministic seeding + skip-aware emission behavior.
src/twinkle/dataloader/device_mesh_sampler.py	Adds skip-before-slice support at the batch-sampler layer.
docs/source_en/Usage Guide/Server and Client/Twinkle-Client.md	Updates client-server example to use resume flow and persist consumed samples.
docs/source_en/Usage Guide/Quick-Start.md	Adds resume-from-checkpoint guide and notes for client-server training.
docs/source_en/Components/Model/TransformersModel.md	Documents save/resume semantics and dataloader progress tracking.
cookbook/transformers/fsdp2.py	Updates example to demonstrate resume + dataloader skipping + checkpoint metadata.
cookbook/megatron/tp_resume.py	New example demonstrating Megatron TP/PP/DP resume flow.
cookbook/client/twinkle/self_host/self_cognition.py	Updates client-server training example to use resume flow and persist consumed samples.
client_tools/client_generator.py	Updates generator to include `resume_from_checkpoint` in generated clients.

kevssim and others added 13 commits March 27, 2026 12:00

docs: add transformers resume design spec

5cd3c0f

docs: refine transformers resume design spec

91eeaeb

docs: trim resume state fields

6eebda8

docs: add npu resume compatibility requirements

cdd9c1b

chore: ignore local worktrees

1542492

wip

9883118

wip

d41a634

wip

21f9918

fix

1e59531

wip

9bb3f39

fix

fdf1f71

wip

6cf5160

Merge branch 'modelscope:main' into resume_from_ckpt

144ffe6

gemini-code-assist Bot reviewed Mar 31, 2026

View reviewed changes

kevssim added 15 commits March 31, 2026 09:52

lint

e21f870

Merge branch 'resume_from_ckpt' of https://github.com/kevssim/twinkle …

3359209

…into resume_from_ckpt

wip

70ebe50

wip

483778d

wip

039789b

wip

54de1a4

wip

920ab86

lint

ffd6304

wip

582bd41

wip

9cb6106

wip

c0cf72e

wip

505a75c

fix

a222b5b

wip

7499e00

doc

cd0b094

kevssim added 15 commits April 21, 2026 16:25

wip

4ffa5c7

wip

0b43055

wip

c8bc9ab

wip

8c0399e

Merge remote-tracking branch 'origin/main' into resume_from_ckpt

94af275

refactor: delete resume_utils.py, inline logic in fsdp2.py, update docs

10b4a20

wip

3df191a

Merge remote-tracking branch 'origin/main' into resume_from_ckpt

deeb648

wip

7a657e8

fix

ae67122

lint

5b15d67

remove

f0d36e2

wip

d0219df

update

9d5327d

doc

85b7cf8

tpx818 reviewed Apr 28, 2026

View reviewed changes

Comment thread src/twinkle/model/megatron/multi_lora_megatron.py Outdated

tpx818 reviewed Apr 28, 2026

View reviewed changes

Comment thread src/twinkle/model/megatron/multi_lora_megatron.py Outdated

fix

9af73bc

kevssim marked this pull request as ready for review April 29, 2026 01:26

tastelikefeet approved these changes Apr 29, 2026

View reviewed changes

Yunnglin requested changes Apr 29, 2026

View reviewed changes

Yunnglin requested a review from Copilot April 29, 2026 08:44

Copilot started reviewing on behalf of Yunnglin April 29, 2026 08:44 View session

Copilot AI reviewed Apr 29, 2026

View reviewed changes

kevssim added 5 commits April 30, 2026 15:04

fix doc

482a451

fix

2396419

lint

9a6fbb9

update cookbook

daa9202

fix

a75f8b1

kevssim requested a review from Yunnglin April 30, 2026 09:23

Conversation

kevssim commented Mar 31, 2026 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

PR type

PR information

Uh oh!

gemini-code-assist Bot left a comment

Choose a reason for hiding this comment

Code Review

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

kevssim commented Apr 1, 2026

Uh oh!

Uh oh!

Uh oh!

Yunnglin Apr 29, 2026

Choose a reason for hiding this comment

Uh oh!

kevssim Apr 30, 2026 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Uh oh!

Uh oh!

Copilot AI left a comment

Choose a reason for hiding this comment

Pull request overview

Reviewed changes

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

5 participants

kevssim commented Mar 31, 2026 •

edited

Loading

kevssim Apr 30, 2026 •

edited

Loading