opencl: add q6_K gemm and gemv kernels for Adreno by lhez · Pull Request #20089 · ggml-org/llama.cpp

lhez · 2026-03-03T19:30:31Z

This PR adds Q6_K gemm and gemv kernels for Adreno. This should improve performance for models containing Q6_K quantization.

For Q4_K_M, we will need to go through the same for Q4_K. Therefore, Q4_K_M is still slow but should be better.

On X Elite,

before,

Qwen3-0.6B-Q6_K,

common_perf_print: prompt eval time =     724.44 ms /   235 tokens (    3.08 ms per token,   324.39 tokens per second)
common_perf_print:        eval time =   13167.73 ms /   256 runs   (   51.44 ms per token,    19.44 tokens per second)

Qwen3-4B-Q6_K,

common_perf_print: prompt eval time =    4901.20 ms /   235 tokens (   20.86 ms per token,    47.95 tokens per second)
common_perf_print:        eval time =   51144.81 ms /   256 runs   (  199.78 ms per token,     5.01 tokens per second)

Qwen3-0.6B-Q4_K_M,

common_perf_print: prompt eval time =    1514.15 ms /   235 tokens (    6.44 ms per token,   155.20 tokens per second)
common_perf_print:        eval time =    8231.90 ms /   256 runs   (   32.16 ms per token,    31.10 tokens per second)

Qwen3-4B-Q4_K_M.gguf,

common_perf_print: prompt eval time =   11502.19 ms /   235 tokens (   48.95 ms per token,    20.43 tokens per second)
common_perf_print:        eval time =   28561.40 ms /   256 runs   (  111.57 ms per token,     8.96 tokens per second)

after,

Qwen3-0.6B-Q6_K,

common_perf_print: prompt eval time =     281.45 ms /   235 tokens (    1.20 ms per token,   834.95 tokens per second)
common_perf_print:        eval time =    4243.57 ms /   256 runs   (   16.58 ms per token,    60.33 tokens per second)

Qwen3-4B-Q6_K,

common_perf_print: prompt eval time =    1605.23 ms /   235 tokens (    6.83 ms per token,   146.40 tokens per second)
common_perf_print:        eval time =   23625.54 ms /   256 runs   (   92.29 ms per token,    10.84 tokens per second)

Qwen3-0.6B-Q4_K_M,

common_perf_print: prompt eval time =    1497.88 ms /   235 tokens (    6.37 ms per token,   156.89 tokens per second)
common_perf_print:        eval time =    5191.81 ms /   256 runs   (   20.28 ms per token,    49.31 tokens per second)

Qwen3-4B-Q4_K_M.gguf,

common_perf_print: prompt eval time =   10775.26 ms /   235 tokens (   45.85 ms per token,    21.81 tokens per second)
common_perf_print:        eval time =   25510.26 ms /   256 runs   (   99.65 ms per token,    10.04 tokens per second)

* opencl: add q6_K noshuffle kernels, initial q6_K gemv, some host code * opencl: add q6_K transpose * opencl: fix cvt kernel name * opencl: add call to q6_K gemv * opencl: fix q6_K scale transpose * opencl: fix loading for gemv q6_K, refactor * opencl: fix transpose_8_buf kernel assignment, refactor * opencl: refactor q6_K transpose * opencl: add gemm_noshuffle_q6_k_f32 * opencl: fix qh loading * opencl: refactor q6_K gemv host side, release bufs and imgs * opencl: refactor * opencl: fix q6_K dequant and scale selection * opencl: workaround compiler bug, fix dump_tensor * opencl: refactor q6_K convert kernels * opencl: unpack transformed q6_K in get_tensor * opencl: refactor, handle non-uniform workgroups * opencl: support non-vector subgroup bcast

github-actions Bot added ggml changes relating to the ggml tensor library for machine learning OpenCL Issues specific to the OpenCL backend labels Mar 3, 2026

lhez added 18 commits March 22, 2026 13:27

opencl: add q6_K noshuffle kernels, initial q6_K gemv, some host code

d46ad23

opencl: add q6_K transpose

646f8b8

opencl: fix cvt kernel name

1fc2fd3

opencl: add call to q6_K gemv

e5bed55

opencl: fix q6_K scale transpose

34f5a76

opencl: fix loading for gemv q6_K, refactor

5e35b7f

opencl: fix transpose_8_buf kernel assignment, refactor

0a7025a

opencl: refactor q6_K transpose

2a0fdd8

opencl: add gemm_noshuffle_q6_k_f32

efbcdf9

opencl: fix qh loading

2e5c6e1

opencl: refactor q6_K gemv host side, release bufs and imgs

d7d46fa

opencl: refactor

3720637

opencl: fix q6_K dequant and scale selection

b5a296c

opencl: workaround compiler bug, fix dump_tensor

011a19e

opencl: refactor q6_K convert kernels

ff775c6

opencl: unpack transformed q6_K in get_tensor

bc7aa34

opencl: refactor, handle non-uniform workgroups

bdb3226

opencl: support non-vector subgroup bcast

b8554e1

lhez force-pushed the lh/q6_k-trans branch from 7398185 to b8554e1 Compare March 22, 2026 21:55

lhez marked this pull request as ready for review March 22, 2026 22:57

lhez requested a review from a team as a code owner March 22, 2026 22:57

max-krasnyansky approved these changes Mar 23, 2026

View reviewed changes

max-krasnyansky merged commit 1772701 into ggml-org:master Mar 23, 2026
48 checks passed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

opencl: add q6_K gemm and gemv kernels for Adreno#20089

opencl: add q6_K gemm and gemv kernels for Adreno#20089
max-krasnyansky merged 18 commits intoggml-org:masterfrom
qualcomm:lh/q6_k-trans

lhez commented Mar 3, 2026 •

edited

Loading

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants

Conversation

lhez commented Mar 3, 2026 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants

lhez commented Mar 3, 2026 •

edited

Loading