HF Kernel for CPU: AMX, AVX2, AVX512 optimized #2232

jiqing-feng · 2025-12-03T08:19:16Z

Add HF Kernel for CPU, can get significant speed-up on TTFT compared to torch_fused.

Requires review after kernels-community is ready.

Signed-off-by: jiqing-feng <jiqing.feng@intel.com>

yao-matrix · 2025-12-04T17:03:31Z

kernel PR merged huggingface/kernels-community#81, pls make it to ready for review once kernel binary propagated, @jiqing-feng

jiqing-feng · 2025-12-05T01:23:41Z

Hi @Qubitium . This PR is ready to be reviewed.

Qubitium · 2025-12-05T01:30:23Z

@jiqing-feng Awesome. We now are approaching a threshold where we have more mature CPU kernels than GPU ones thanks to Intel. =)

Please add hf_kernel to ci kernel test: https://github.com/ModelCloud/GPTQModel/blob/main/tests/test_kernel_output_torch_fused.py

And maybe change the test_kernel_output_torch_fused.py test name to test_kernel_output_intel_cpu_xpu.py since it now tests both xpu and cpu kernels for output regressions.

Qubitium · 2025-12-05T01:38:28Z

@jiqing-feng One thing. Please add kernels hard dependency to both pyproject.toml and requirements.txt. I checked the pkg dependency for https://github.com/huggingface/kernels/blob/main/pyproject.toml and kernel is very small and has very low dependency so i think it's safe for us to add this new hard dependency.

jiqing-feng · 2025-12-05T02:23:26Z

Hi @Qubitium . I have fixed your comments. Please verify it cause I cannot load the test model /monster/data/model/bloom-560m-gptqmodel-4bit

Qubitium · 2025-12-05T02:27:49Z

Hi @Qubitium . I have fixed your comments. Please verify it cause I cannot load the test model /monster/data/model/bloom-560m-gptqmodel-4bit

Ok. Thanks. I will run the unit test and merge after it passes.

Qubitium · 2025-12-05T05:06:56Z

CI tests passed

Signed-off-by: jiqing-feng <jiqing.feng@intel.com>

jiqing-feng · 2025-12-08T02:13:01Z

Hi @Qubitium . Please let me know what needs to be changed before merging. Thanks.

Signed-off-by: jiqing-feng <jiqing.feng@intel.com>

jiqing-feng marked this pull request as draft December 3, 2025 08:19

jiqing-feng added 5 commits December 3, 2025 15:09

enable hf cpu kernel

d0ee669

Signed-off-by: jiqing-feng <jiqing.feng@intel.com>

add get kernel

ed4a61a

Signed-off-by: jiqing-feng <jiqing.feng@intel.com>

fix fallback path

e46d178

Signed-off-by: jiqing-feng <jiqing.feng@intel.com>

fix log

e5d6ed0

Signed-off-by: jiqing-feng <jiqing.feng@intel.com>

fix fallback path

c02a9e3

Signed-off-by: jiqing-feng <jiqing.feng@intel.com>

Qubitium self-assigned this Dec 4, 2025

Merge branch 'main' into kernel

53d5388

Qubitium changed the title ~~HF Kernel for CPU~~ HF Kernel for CPU: AMX, AVX2, AVX512 optimized Dec 4, 2025

jiqing-feng marked this pull request as ready for review December 5, 2025 01:23

jiqing-feng added 4 commits December 5, 2025 09:08

update get kernel

1232864

Signed-off-by: jiqing-feng <jiqing.feng@intel.com>

rm Path

ee6bdd9

Signed-off-by: jiqing-feng <jiqing.feng@intel.com>

add hf kernel tests

2f84e61

Signed-off-by: jiqing-feng <jiqing.feng@intel.com>

change test file name

5461047

Signed-off-by: jiqing-feng <jiqing.feng@intel.com>

Qubitium merged commit 5e66941 into ModelCloud:main Dec 8, 2025
1 check passed

jiqing-feng added 2 commits December 8, 2025 10:38

update validate

5cf0039

Signed-off-by: jiqing-feng <jiqing.feng@intel.com>

fix import memory issue

1596b9c

Signed-off-by: jiqing-feng <jiqing.feng@intel.com>

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

HF Kernel for CPU: AMX, AVX2, AVX512 optimized #2232

HF Kernel for CPU: AMX, AVX2, AVX512 optimized #2232

jiqing-feng commented Dec 3, 2025 •

edited

Loading

Uh oh!

yao-matrix commented Dec 4, 2025

Uh oh!

jiqing-feng commented Dec 5, 2025

Uh oh!

Qubitium commented Dec 5, 2025

Uh oh!

Qubitium commented Dec 5, 2025

Uh oh!

jiqing-feng commented Dec 5, 2025

Uh oh!

Qubitium commented Dec 5, 2025

Uh oh!

Qubitium commented Dec 5, 2025

Uh oh!

jiqing-feng commented Dec 8, 2025

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

3 participants

HF Kernel for CPU: AMX, AVX2, AVX512 optimized #2232

HF Kernel for CPU: AMX, AVX2, AVX512 optimized #2232

Conversation

jiqing-feng commented Dec 3, 2025 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Uh oh!

yao-matrix commented Dec 4, 2025

Uh oh!

jiqing-feng commented Dec 5, 2025

Uh oh!

Qubitium commented Dec 5, 2025

Uh oh!

Qubitium commented Dec 5, 2025

Uh oh!

jiqing-feng commented Dec 5, 2025

Uh oh!

Qubitium commented Dec 5, 2025

Uh oh!

Qubitium commented Dec 5, 2025

Uh oh!

jiqing-feng commented Dec 8, 2025

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

3 participants

jiqing-feng commented Dec 3, 2025 •

edited

Loading