Transformers compatability by maxjeblick · Pull Request #115 · NVIDIA/kvpress

maxjeblick · 2025-08-12T13:52:52Z

PR description

Updates kvpress to upcoming transformers version 4.56.0.

Follwoing issues/PRs need to be fixed before merging this PR:

PR was tested on huggingface/transformers#40002

TODOS:

rerun (subset) of ruler benchmark to ensure no regression

Checklist

Tests are working (make test)
Code is formatted correctly (make style, on errors try fix with make format)
Copyright header is included
All commits are signed-off using git commit -s
(new press) mypress_press.py is in the presses directory
(new press) MyPress is in __init__.py
(new press) README.md is updated with a 1 liner about the new press in the Available presses section
(new press) New press is in the default_presses list in tests/default_presses.py
(new press) A docstring is provided that follows the same structure as the existing ones

maxjeblick · 2025-08-12T13:55:35Z

To test with current transformers PR being open:
uv pip install git+https://github.com/vasqu/transformers.git@fix-fa-integration

Signed-off-by: Max Jeblick <maximilianjeblick@gmail.com>

* Add DuoAttentionPress * Fix tests and compression_ratio * Address feedback * Update plot * Update version Signed-off-by: Max Jeblick <maximilianjeblick@gmail.com>

Signed-off-by: Max Jeblick <maximilianjeblick@gmail.com>

Signed-off-by: SimJeg <sjegou@nvidia.com> Co-authored-by: giulio98 <corallo.giulio@yahoo.it> Co-authored-by: miriam-16 <miriam.lamari2@gmail.com> Co-authored-by: FaureElia <s283469@studenti.polito.it> Co-authored-by: YuhuiXu <yuhuixu1993@126.com> Co-authored-by: win10 <doss72180@gmail.com> Signed-off-by: Max Jeblick <maximilianjeblick@gmail.com>

Signed-off-by: Emmanuel Ferdman <emmanuelferdman@gmail.com> Signed-off-by: Max Jeblick <maximilianjeblick@gmail.com>

Signed-off-by: Max Jeblick <maximilianjeblick@gmail.com>

manueldeprada · 2025-08-13T12:49:18Z

Also note that now we compute the flash attention varlen kwargs early in generate:
https://github.com/vasqu/transformers/blob/cb89dbee4694ca1fec3d5733c296b729291bb507/src/transformers/generation/utils.py#L681-L692

to avoid expensive recomputations on each attention pass. This is the case since huggingface/transformers#39474 and huggingface/transformers#40002

Unfortunately, this means kvpress might cause an out of bound access, since the condition assert keys.shape[0] == cu_seqlens_k[-1] must hold and it doesnt if kvpress changes the keys and the computation of cu_seqlens_k happened earlier, in generate.

Have a look at 9986c31 as a possible fix. This script tests for such failure:

import os
os.environ["CUDA_LAUNCH_BLOCKING"] = "1"
from transformers import AutoModelForCausalLM, AutoTokenizer
from kvpress import KnormPress

ckpt = "meta-llama/Meta-Llama-3-8B-Instruct"
device = "cuda"

model = AutoModelForCausalLM.from_pretrained(ckpt, torch_dtype="auto").to(device)
model.set_attn_implementation("flash_attention_2")
tok = AutoTokenizer.from_pretrained(ckpt)
inputs = tok("Hello, how are you? bla bla how are you? this is some text lala ddd", return_tensors="pt").to(device)

with KnormPress(0.8)(model):
    outputs = model.generate(**inputs, max_new_tokens=10, do_sample=False)

Signed-off-by: Max Jeblick <maximilianjeblick@gmail.com>

maxjeblick · 2025-08-14T07:38:50Z

Thanks a lot for the comments @manueldeprada, this is really appreciated!

Signed-off-by: Max Jeblick <maximilianjeblick@gmail.com>

Signed-off-by: alessiodevoto <devoto.alessio@gmail.com>

copy-pr-bot · 2025-09-01T13:38:02Z

This pull request requires additional validation before any workflows can run on NVIDIA's runners.

Pull request vetters can view their responsibilities here.

Contributors can view more details about this message here.

Signed-off-by: alessiodevoto <devoto.alessio@gmail.com>

alessiodevoto · 2025-09-01T13:43:42Z

/ok to test f37b768

alessiodevoto · 2025-09-03T07:52:04Z

Thanks a lot @maxjeblick for handling this, and @Jack-Yu-815 for the review!

maxjeblick requested a review from alessiodevoto August 12, 2025 13:52

maxjeblick changed the title ~~Max/transformers compat~~ Transformers compatability Aug 12, 2025

maxjeblick force-pushed the max/transformers_compat branch from 66d37d9 to e74d852 Compare August 12, 2025 14:02

maxjeblick and others added 26 commits August 12, 2025 16:14

Fix transformers <4.48

1f3af6a

Signed-off-by: Max Jeblick <maximilianjeblick@gmail.com>

Add infinitebench benchmark

d78ac5f

Signed-off-by: Max Jeblick <maximilianjeblick@gmail.com>

Support transformers 4.48 (#39)

80da31d

Signed-off-by: Max Jeblick <maximilianjeblick@gmail.com>

AdaKVPress (#38)

319ff44

Signed-off-by: Max Jeblick <maximilianjeblick@gmail.com>

Update README (#41)

3e8bac7

Signed-off-by: Max Jeblick <maximilianjeblick@gmail.com>

Add chunk press

cc1d61f

Signed-off-by: Max Jeblick <maximilianjeblick@gmail.com>

Update README (#42)

6398626

Signed-off-by: Max Jeblick <maximilianjeblick@gmail.com>

Fix style errors

bf314f9

Signed-off-by: Max Jeblick <maximilianjeblick@gmail.com>

Add CriticalKVPress (#46)

2bf6b2c

Signed-off-by: Max Jeblick <maximilianjeblick@gmail.com>

Add epsilon to ExpectedAttentionPress (#47)

6518ed3

Signed-off-by: Max Jeblick <maximilianjeblick@gmail.com>

Fix distributed inference (#49)

8cc1e3b

Signed-off-by: Max Jeblick <maximilianjeblick@gmail.com>

Add DuoAttentionPress (#50)

4221186

* Add DuoAttentionPress * Fix tests and compression_ratio * Address feedback * Update plot * Update version Signed-off-by: Max Jeblick <maximilianjeblick@gmail.com>

add ChunkKV

4ca556a

Signed-off-by: Max Jeblick <maximilianjeblick@gmail.com>

Update copyright date (#60)

beaf605

Signed-off-by: Max Jeblick <maximilianjeblick@gmail.com>

Add QFilterPress (#54)

c578e4a

Signed-off-by: Max Jeblick <maximilianjeblick@gmail.com>

Add longbench benchmark

6c90873

Signed-off-by: Max Jeblick <maximilianjeblick@gmail.com>

Add DuoAttention on the fly (#63)

0dafec8

Signed-off-by: Max Jeblick <maximilianjeblick@gmail.com>

Add PyramidKVPress

e6c97ea

Signed-off-by: Max Jeblick <maximilianjeblick@gmail.com>

Fix style errors (#68)

48c1a19

Signed-off-by: Max Jeblick <maximilianjeblick@gmail.com>

Add FinchPress (#69)

462dffc

Signed-off-by: Max Jeblick <maximilianjeblick@gmail.com>

Align dev dependencies with new poetry format (#71)

8e2d22b

Signed-off-by: Emmanuel Ferdman <emmanuelferdman@gmail.com> Signed-off-by: Max Jeblick <maximilianjeblick@gmail.com>

Reorganize dependencies (#74)

adaca4e

Signed-off-by: Max Jeblick <maximilianjeblick@gmail.com>

Add missing SPDX headers

bb00088

Signed-off-by: Max Jeblick <maximilianjeblick@gmail.com>

Add LagKVPress (#77)

0e6d429

Signed-off-by: Max Jeblick <maximilianjeblick@gmail.com>

Support Qwen3 and Gemma3 (#81)

994d5c4

Signed-off-by: Max Jeblick <maximilianjeblick@gmail.com>

fix version of transformers

ddb66ed

Signed-off-by: Max Jeblick <maximilianjeblick@gmail.com>

fix style

bd76240

Signed-off-by: Max Jeblick <maximilianjeblick@gmail.com>

maxjeblick mentioned this pull request Aug 14, 2025

fix typo #117

Closed

maxjeblick and others added 13 commits August 14, 2025 10:13

fix style

5090951

Signed-off-by: Max Jeblick <maximilianjeblick@gmail.com>

fix style

cd26de8

Signed-off-by: Max Jeblick <maximilianjeblick@gmail.com>

move to transformers 4.56

bc7dc1d

Signed-off-by: Max Jeblick <maximilianjeblick@gmail.com>

fix quantized cache

0391dc3

Signed-off-by: Max Jeblick <maximilianjeblick@gmail.com>

fix cumulative len for qunatized cache

d868d7a

Signed-off-by: Max Jeblick <maximilianjeblick@gmail.com>

update comment

f9465cf

Signed-off-by: Max Jeblick <maximilianjeblick@gmail.com>

update transformers to 4.55.3

ca423ab

Signed-off-by: Max Jeblick <maximilianjeblick@gmail.com>

fix style/refactor

c7afcd1

Signed-off-by: Max Jeblick <maximilianjeblick@gmail.com>

fix past_key_value

a50d85e

Signed-off-by: Max Jeblick <maximilianjeblick@gmail.com>

fix past_key_value

065dccd

Signed-off-by: Max Jeblick <maximilianjeblick@gmail.com>

fix past_key_value

0e539d2

Signed-off-by: Max Jeblick <maximilianjeblick@gmail.com>

fix past_key_value

714461e

Signed-off-by: Max Jeblick <maximilianjeblick@gmail.com>

update compat

1bfa1c4

Signed-off-by: alessiodevoto <devoto.alessio@gmail.com>

merge main into max/transformers_compat

f37b768

Signed-off-by: alessiodevoto <devoto.alessio@gmail.com>

alessiodevoto approved these changes Sep 2, 2025

View reviewed changes

alessiodevoto requested a review from Jack-Yu-815 September 2, 2025 16:55

Jack-Yu-815 approved these changes Sep 3, 2025

View reviewed changes

alessiodevoto merged commit 7dbd3f0 into main Sep 3, 2025
3 checks passed

alessiodevoto deleted the max/transformers_compat branch September 3, 2025 07:52

alessiodevoto mentioned this pull request Sep 4, 2025

Update for new version of HF transformers. #104

Closed

This was referenced Nov 7, 2025

How to get the performance metrics of KVzip in the graph? #147

Closed

Fix kvzip having poor performance #152

Merged

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Transformers compatability#115

Transformers compatability#115
alessiodevoto merged 138 commits intomainfrom
max/transformers_compat

maxjeblick commented Aug 12, 2025

Uh oh!

maxjeblick commented Aug 12, 2025

Uh oh!

manueldeprada commented Aug 13, 2025

Uh oh!

maxjeblick commented Aug 14, 2025

Uh oh!

copy-pr-bot Bot commented Sep 1, 2025

Uh oh!

alessiodevoto commented Sep 1, 2025

Uh oh!

alessiodevoto commented Sep 3, 2025

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

16 participants

Conversation

maxjeblick commented Aug 12, 2025

PR description

Checklist

Uh oh!

maxjeblick commented Aug 12, 2025

Uh oh!

manueldeprada commented Aug 13, 2025

Uh oh!

maxjeblick commented Aug 14, 2025

Uh oh!

copy-pr-bot Bot commented Sep 1, 2025

Uh oh!

alessiodevoto commented Sep 1, 2025

Uh oh!

alessiodevoto commented Sep 3, 2025

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

16 participants