feat: Fix CPU offloading + add options for FSDP offload and expandable segments by yfw · Pull Request #122 · NVIDIA-NeMo/RL

yfw · 2025-04-02T21:11:45Z

What does this PR do ?

Addresses #33 (FSDP1) and #67 by:

Fixing the cpu offloading implementation so that HFPolicyWorker's memory is closer to 0 during VLLM generation.
Adding an option for using FSDP's built-in cpu offloading. With FSDP cpu offloading enabled, only the forward and backward passes are done on the GPU. Everything else, including the optimizer step update, is done on the CPU.
Adding the ability to set PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True for the HFPolicy.

To test the impact of these settings, I did a sweep across different models, context lengths, and offload types. The results are here: https://docs.google.com/spreadsheets/d/1lWtw6-jbq4TAlM5Bu5Z3jNQjwAa_CEUX3bsKuMXHEkM/edit?usp=sharing

Offload Types:

Main: Previous implementation on the main branch
Manual: "Fixed" cpu offloading with the changes in this PR. This will be the default setting after this PR.
FSDP: FSDP's built-in CPU offloading

Key Takeways:

"Manual" offloading generally maintains or improves step time at lower allocated and reserved memory when compared with "Main"
FSDP cpu offloading generally incurs some overhead in terms of Step 1 and Step 3 times when compared to "Manual" offloading.
- An exception is for 8B, 7500 sequence length (row 23) which is the longest sequence length I tested without OOMing for "Manual" offloading
Using expandable_segments keeps the reserved memory closer to allocated memory, but this is most evident with the "Main" offload type. Reserved memory is generally low for "Manual" and FSDP offload types.
- One case where this does make a difference for the "Manual" offload type is the Llama3.1-8B model on 7500 context length, which OOMs without expandable_segments, but can run (slowly) without OOMing with expandable_segments (rows 22 and 23)
For 8k context length and 8B model (FSDP1 memory usage still too high (8b on 8k seqlen not fitting) #67), FSDP cpu offloading is the only case that works without OOMing (Rows 30 and 31).
Enabling expandable_segments also incurs some overhead in terms of step time, but this is most evident in the SFT case for 8k context, 8B model (rows 50-55), where expandable_segments runs ~3x slower than non-expandable_segments.

Issues

#33 (FSDP1 part)
#67

Usage

You can potentially add a usage example below

# Add a code snippet demonstrating how to use this

Before your PR is "Ready for review"

Pre checks:

Make sure you read and followed Contributor guidelines
Did you write any new necessary tests?
Did you run the unit tests and functional tests locally? Visit our Testing Guide for how to run tests
Did you add or update any necessary documentation? Visit our Document Development Guide for how to write, build and test the docs.

Additional Information

...

Signed-off-by: Yi-Fu Wu <yifu.wu@gmail.com>

Signed-off-by: Parth Chadha <pchadha@nvidia.com>

Signed-off-by: Terry Kong <terryk@nvidia.com> Signed-off-by: Yi-Fu Wu <yifu.wu@gmail.com>

…e merge (#91) Signed-off-by: Terry Kong <terryk@nvidia.com> Signed-off-by: Yi-Fu Wu <yifu.wu@gmail.com>

Signed-off-by: Yi-Fu Wu <yifu.wu@gmail.com>

Signed-off-by: Parth Chadha <pchadha@nvidia.com> Signed-off-by: Yi-Fu Wu <yifu.wu@gmail.com>

…up (#94) Signed-off-by: Terry Kong <terryk@nvidia.com> Signed-off-by: Yi-Fu Wu <yifu.wu@gmail.com>

Signed-off-by: Yuki Huang <yukih@nvidia.com> Signed-off-by: Yi-Fu Wu <yifu.wu@gmail.com>

Signed-off-by: Parth Chadha <pchadha@nvidia.com> Signed-off-by: Yi-Fu Wu <yifu.wu@gmail.com>

Signed-off-by: Yi-Fu Wu <yifu.wu@gmail.com> Co-authored-by: Terry Kong <terrycurtiskong@gmail.com> Signed-off-by: Yi-Fu Wu <yifu.wu@gmail.com>

Signed-off-by: ashors1 <ashors@nvidia.com> Signed-off-by: Oleksii Kuchaiev <okuchaiev@nvidia.com> Co-authored-by: Oleksii Kuchaiev <okuchaiev@nvidia.com> Co-authored-by: Terry Kong <terrycurtiskong@gmail.com> Signed-off-by: Yi-Fu Wu <yifu.wu@gmail.com>

Signed-off-by: Sahil Jain <sahilj@nvidia.com> Signed-off-by: Yi-Fu Wu <yifu.wu@gmail.com>

#95) Signed-off-by: Parth Chadha <pchadha@nvidia.com> Co-authored-by: Sahil Jain <48468750+SahilJain314@users.noreply.github.com> Signed-off-by: Yi-Fu Wu <yifu.wu@gmail.com>

Signed-off-by: KiddoZhu <zhaochengz@nvidia.com> Signed-off-by: Sahil Jain <sahilj@nvidia.com> Co-authored-by: Parth Chadha <pchadha@nvidia.com> Co-authored-by: Sahil Jain <48468750+SahilJain314@users.noreply.github.com> Signed-off-by: Yi-Fu Wu <yifu.wu@gmail.com>

…readme (#104) Signed-off-by: Terry Kong <terryk@nvidia.com> Signed-off-by: Yi-Fu Wu <yifu.wu@gmail.com>

#105) Signed-off-by: Parth Chadha <pchadha@nvidia.com> Signed-off-by: Yi-Fu Wu <yifu.wu@gmail.com>

Signed-off-by: Hemil Desai <hemild@nvidia.com> Signed-off-by: Yi-Fu Wu <yifu.wu@gmail.com>

Signed-off-by: ashors1 <ashors@nvidia.com> Signed-off-by: Anna Shors <ashors@nvidia.com> Co-authored-by: Terry Kong <terrycurtiskong@gmail.com>

#111) Signed-off-by: Parth Chadha <pchadha@nvidia.com> Signed-off-by: Yi-Fu Wu <yifu.wu@gmail.com>

Signed-off-by: Parth Chadha <pchadha@nvidia.com> Signed-off-by: Yi-Fu Wu <yifu.wu@gmail.com>

yfw · 2025-04-02T21:37:53Z

Closing for #123

yfw requested a review from terrykong April 2, 2025 21:11

yfw changed the title ~~feat: Fix CPU offloading and add options for FSDP cpu offload and expandable segments~~ feat: Fix CPU offloading + add options for FSDP offload and expandable segments Apr 2, 2025

yfw and others added 27 commits April 2, 2025 14:25

WIP commit

a1fe428

Signed-off-by: Yi-Fu Wu <yifu.wu@gmail.com>

fix: Remove reference of tokenizer from generation backend (#75) (#82)

39cd956

Signed-off-by: Parth Chadha <pchadha@nvidia.com>

feat: unit test metric tracking (#40)

f8e51a5

Signed-off-by: Terry Kong <terryk@nvidia.com> Signed-off-by: Yi-Fu Wu <yifu.wu@gmail.com>

fix: unit test error when coverage wasn't specified (#88)

778f5b0

Signed-off-by: Terry Kong <terryk@nvidia.com> Signed-off-by: Yi-Fu Wu <yifu.wu@gmail.com>

ci: temporarily disable CI on main since PRs must be up to date befor…

c46581e

…e merge (#91) Signed-off-by: Terry Kong <terryk@nvidia.com> Signed-off-by: Yi-Fu Wu <yifu.wu@gmail.com>

Cleanup + expandable_segments

dc9d857

Signed-off-by: Yi-Fu Wu <yifu.wu@gmail.com>

More cleanup

fd0f613

Signed-off-by: Yi-Fu Wu <yifu.wu@gmail.com>

cpu offload

d9b7fd4

Signed-off-by: Yi-Fu Wu <yifu.wu@gmail.com>

Make everything configurable

d24a9c3

Signed-off-by: Yi-Fu Wu <yifu.wu@gmail.com>

expandable_segments and fsdp offload configs

11fbef7

Signed-off-by: Yi-Fu Wu <yifu.wu@gmail.com>

Make port configurable in ray.sub

ad48c1d

Signed-off-by: Yi-Fu Wu <yifu.wu@gmail.com>

fix: error out early if ray cluster does not have resources (#89)

83bd55d

Signed-off-by: Parth Chadha <pchadha@nvidia.com> Signed-off-by: Yi-Fu Wu <yifu.wu@gmail.com>

ci: skip functional until more capacity available and/or tests speed …

f6a3d91

…up (#94) Signed-off-by: Terry Kong <terryk@nvidia.com> Signed-off-by: Yi-Fu Wu <yifu.wu@gmail.com>

feat: evaluation implement (#16)

4eb1d6d

Signed-off-by: Yuki Huang <yukih@nvidia.com> Signed-off-by: Yi-Fu Wu <yifu.wu@gmail.com>

fix: gradient should be averaged instead of summed across mbs (#86)

8062086

Signed-off-by: Parth Chadha <pchadha@nvidia.com> Signed-off-by: Yi-Fu Wu <yifu.wu@gmail.com>

fix: Use separate step_metric for GPU Monitoring (#92)

1ce2901

Signed-off-by: Yi-Fu Wu <yifu.wu@gmail.com> Co-authored-by: Terry Kong <terrycurtiskong@gmail.com> Signed-off-by: Yi-Fu Wu <yifu.wu@gmail.com>

fix: Grammar nit (#98)

c0aa989

Signed-off-by: Sahil Jain <sahilj@nvidia.com> Signed-off-by: Yi-Fu Wu <yifu.wu@gmail.com>

feat: add capability to set min/max eps separately as proposed in the… (

e27b5fd

#95) Signed-off-by: Parth Chadha <pchadha@nvidia.com> Co-authored-by: Sahil Jain <48468750+SahilJain314@users.noreply.github.com> Signed-off-by: Yi-Fu Wu <yifu.wu@gmail.com>

fix: correct version and use setuptools.dynamic metadata for version/…

b17069c

…readme (#104) Signed-off-by: Terry Kong <terryk@nvidia.com> Signed-off-by: Yi-Fu Wu <yifu.wu@gmail.com>

fix: remove usage of vllm to get device uuid and instead use nvidia-m… (

6f2c31e

#105) Signed-off-by: Parth Chadha <pchadha@nvidia.com> Signed-off-by: Yi-Fu Wu <yifu.wu@gmail.com>

fix: Change optional-dependencies to dependency-groups (#81)

4e20786

Signed-off-by: Hemil Desai <hemild@nvidia.com> Signed-off-by: Yi-Fu Wu <yifu.wu@gmail.com>

feat: Add support for hydra style overrides (#80)

d6de793

Signed-off-by: Hemil Desai <hemild@nvidia.com> Signed-off-by: Yi-Fu Wu <yifu.wu@gmail.com>

fix: Do not initialize reference model for sft (#71)

f874746

Signed-off-by: ashors1 <ashors@nvidia.com> Signed-off-by: Anna Shors <ashors@nvidia.com> Co-authored-by: Terry Kong <terrycurtiskong@gmail.com>

fix: change grpo default to use 64 prompts per step and 32 generation… (

0c0aa6d

#111) Signed-off-by: Parth Chadha <pchadha@nvidia.com> Signed-off-by: Yi-Fu Wu <yifu.wu@gmail.com>

feat: use cuda_graph by default for vllm (#116)

97c5e1b

Signed-off-by: Parth Chadha <pchadha@nvidia.com> Signed-off-by: Yi-Fu Wu <yifu.wu@gmail.com>

yfw force-pushed the yifu/cpu_offload branch from e7c6d7f to 97c5e1b Compare April 2, 2025 21:29

github-actions Bot added Documentation Improvements or additions to documentation CI Relating to CI labels Apr 2, 2025

yfw closed this Apr 2, 2025

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

feat: Fix CPU offloading + add options for FSDP offload and expandable segments#122

feat: Fix CPU offloading + add options for FSDP offload and expandable segments#122
yfw wants to merge 27 commits intomainfrom
yifu/cpu_offload

yfw commented Apr 2, 2025

Uh oh!

yfw commented Apr 2, 2025

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

8 participants

Conversation

yfw commented Apr 2, 2025

What does this PR do ?

Issues

Usage

Before your PR is "Ready for review"

Additional Information

Uh oh!

yfw commented Apr 2, 2025

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

8 participants