Faster Q3_K implementation on Metal by ikawrakow · Pull Request #2307 · ggml-org/llama.cpp

ikawrakow · 2023-07-21T07:56:42Z

Similar to #2290 but for Q3_K, which is notoriously difficult to implement efficiently.

The table gives TG-128 time for Q3_K_S in ms/t on M2 Max with 30-core GPU:

Model	Master	This PR	Speedup
7B	28.1	22.0	27.7%
13B	50.3	37.5	34.1%
33B	121.3	88.8	36.6%
65B	230.3	167.8	37.2%

21.6 ms/t -> 21.1 ms/t

ggerganov

M1 Pro

Model	Master	This PR
7B	43.6	35.4
13B	78.6	62.9

* Faster Q3_K on Metal * Additional Q3_K speedup on Metal * Q3_K for QK_K = 64 * Better Q3_K for QK_K = 64 21.6 ms/t -> 21.1 ms/t --------- Co-authored-by: Iwan Kawrakow <iwan.kawrakow@gmail.com>

Iwan Kawrakow added 4 commits July 21, 2023 10:46

Faster Q3_K on Metal

5bb23b5

Additional Q3_K speedup on Metal

8dba28c

Q3_K for QK_K = 64

0099570

Better Q3_K for QK_K = 64

d3c3624

21.6 ms/t -> 21.1 ms/t

ikawrakow requested a review from ggerganov July 21, 2023 07:56

ggerganov approved these changes Jul 21, 2023

View reviewed changes

ikawrakow merged commit 4d76a5f into master Jul 21, 2023

ikawrakow deleted the ik/metal_faster_q3k branch July 21, 2023 14:05

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Faster Q3_K implementation on Metal#2307

Faster Q3_K implementation on Metal#2307
ikawrakow merged 4 commits intomasterfrom
ik/metal_faster_q3k

ikawrakow commented Jul 21, 2023

Uh oh!

ggerganov left a comment

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants

Conversation

ikawrakow commented Jul 21, 2023

Uh oh!

ggerganov left a comment

Choose a reason for hiding this comment

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants