Optimize MOE GEMV kernel for BS > 1. by gaugarg-nv · Pull Request #20905 · ggml-org/llama.cpp

gaugarg-nv · 2026-03-23T14:36:05Z

This PR is in follow-up to #20635

The previous MOE kernel for BS > 1 had too many thread blocks (nrows_x, nchannels_dst, ncols_dst), with very little work per threadblock. threadblock of (32, 4) was doing inner dot product for a single row.

New mul_mat_vec_q_moe kernel is dedicated for MoE multi-token kernel with grid (ceil(nrows_x/rpb), nchannels_dst), block (warp_size, ncols_dst). Each warp handles two rows independently with warp-level reduction only (no shared memory sync).

This change doesn't increase any compilation time as a single template instance is needed per type. This also simplifies the original GEMV kernel and gets rid of is_multi_token_id specialization.

Performance

gpu_info	model_type	n_ubatch	n_prompt	Master-f93c09e26-avg_ts	PR-avg_ts	Speed-up
NVIDIA GeForce RTX 5090	qwen3moe 30B.A3B Q4_0	2	512	450.3733	492.9244	1.09
NVIDIA GeForce RTX 5090	qwen3moe 30B.A3B Q4_0	3	512	521.3469	604.3901	1.16
NVIDIA GeForce RTX 5090	qwen3moe 30B.A3B Q4_0	4	512	598.1453	726.8059	1.22
NVIDIA GeForce RTX 5090	qwen3moe 30B.A3B Q4_K - Medium	2	512	383.5636	414.1365	1.08
NVIDIA GeForce RTX 5090	qwen3moe 30B.A3B Q4_K - Medium	3	512	496.5287	575.0555	1.16
NVIDIA GeForce RTX 5090	qwen3moe 30B.A3B Q4_K - Medium	4	512	550.214	665.2835	1.21
NVIDIA GeForce RTX 5090	qwen3moe 30B.A3B Q8_0	2	512	333.9944	391.5877	1.17
NVIDIA GeForce RTX 5090	qwen3moe 30B.A3B Q8_0	3	512	430.2956	476.4898	1.11
NVIDIA GeForce RTX 5090	qwen3moe 30B.A3B Q8_0	4	512	494.9256	573.6039	1.16
NVIDIA GeForce RTX 5090	qwen35moe 35B.A3B Q4_K - Medium	2	512	336.5498	358.5733	1.07
NVIDIA GeForce RTX 5090	qwen35moe 35B.A3B Q4_K - Medium	3	512	455.541	500.7537	1.10
NVIDIA GeForce RTX 5090	qwen35moe 35B.A3B Q4_K - Medium	4	512	540.154	614.7323	1.14
NVIDIA GeForce RTX 5090	gpt-oss 20B MXFP4 MoE	2	512	539.6443	630.7859	1.17
NVIDIA GeForce RTX 5090	gpt-oss 20B MXFP4 MoE	3	512	694.8123	773.4004	1.11
NVIDIA GeForce RTX 5090	gpt-oss 20B MXFP4 MoE	4	512	789.3362	908.4758	1.15
NVIDIA GeForce RTX 5090	gpt-oss 20B Q4_K - Medium	2	512	564.7201	600.5675	1.06
NVIDIA GeForce RTX 5090	gpt-oss 20B Q4_K - Medium	3	512	721.6997	804.7416	1.12
NVIDIA GeForce RTX 5090	gpt-oss 20B Q4_K - Medium	4	512	802.8353	922.9511	1.15
NVIDIA RTX PRO 6000 Blackwell Workstation Edition	qwen3moe 30B.A3B Q4_0	2	512	447.2068	485.0051	1.08
NVIDIA RTX PRO 6000 Blackwell Workstation Edition	qwen3moe 30B.A3B Q4_0	3	512	521.3682	595.0763	1.14
NVIDIA RTX PRO 6000 Blackwell Workstation Edition	qwen3moe 30B.A3B Q4_0	4	512	596.4848	720.1008	1.21
NVIDIA RTX PRO 6000 Blackwell Workstation Edition	qwen3moe 30B.A3B Q4_K - Medium	2	512	382.9618	462.0411	1.21
NVIDIA RTX PRO 6000 Blackwell Workstation Edition	qwen3moe 30B.A3B Q4_K - Medium	3	512	503.1637	571.6991	1.14
NVIDIA RTX PRO 6000 Blackwell Workstation Edition	qwen3moe 30B.A3B Q4_K - Medium	4	512	562.423	669.4282	1.19
NVIDIA RTX PRO 6000 Blackwell Workstation Edition	qwen3moe 30B.A3B Q8_0	2	512	332.2923	382.9107	1.15
NVIDIA RTX PRO 6000 Blackwell Workstation Edition	qwen3moe 30B.A3B Q8_0	3	512	434.0147	471.7925	1.09
NVIDIA RTX PRO 6000 Blackwell Workstation Edition	qwen3moe 30B.A3B Q8_0	4	512	499.0083	564.7199	1.13
NVIDIA RTX PRO 6000 Blackwell Workstation Edition	qwen35moe 35B.A3B Q4_K - Medium	2	512	333.2131	400.1267	1.20
NVIDIA RTX PRO 6000 Blackwell Workstation Edition	qwen35moe 35B.A3B Q4_K - Medium	3	512	452.5427	493.7494	1.09
NVIDIA RTX PRO 6000 Blackwell Workstation Edition	qwen35moe 35B.A3B Q4_K - Medium	4	512	540.4372	608.4603	1.13
NVIDIA RTX PRO 6000 Blackwell Workstation Edition	gpt-oss 20B MXFP4 MoE	2	512	537.8328	623.5488	1.16
NVIDIA RTX PRO 6000 Blackwell Workstation Edition	gpt-oss 20B MXFP4 MoE	3	512	696.4054	767.9747	1.10
NVIDIA RTX PRO 6000 Blackwell Workstation Edition	gpt-oss 20B MXFP4 MoE	4	512	798.8649	910.6224	1.14
NVIDIA RTX PRO 6000 Blackwell Workstation Edition	gpt-oss 20B Q4_K - Medium	2	512	560.4776	655.734	1.17
NVIDIA RTX PRO 6000 Blackwell Workstation Edition	gpt-oss 20B Q4_K - Medium	3	512	724.9005	805.8596	1.11
NVIDIA RTX PRO 6000 Blackwell Workstation Edition	gpt-oss 20B Q4_K - Medium	4	512	817.6949	932.1244	1.14
NVIDIA RTX PRO 6000 Blackwell Workstation Edition	qwen3next 80B.A3B Q4_K - Medium	2	512	258.839	316.9603	1.22
NVIDIA RTX PRO 6000 Blackwell Workstation Edition	qwen3next 80B.A3B Q4_K - Medium	3	512	349.9941	389.8006	1.11
NVIDIA RTX PRO 6000 Blackwell Workstation Edition	qwen3next 80B.A3B Q4_K - Medium	4	512	406.3511	471.7863	1.16
NVIDIA RTX PRO 6000 Blackwell Workstation Edition	gpt-oss 120B MXFP4 MoE	2	512	347.8694	397.0758	1.14
NVIDIA RTX PRO 6000 Blackwell Workstation Edition	gpt-oss 120B MXFP4 MoE	3	512	449.5139	488.3505	1.09
NVIDIA RTX PRO 6000 Blackwell Workstation Edition	gpt-oss 120B MXFP4 MoE	4	512	513.5035	574.5022	1.12
NVIDIA GeForce RTX 3090	qwen3moe 30B.A3B Q4_0	3	512	310.1992	394.1881	1.27
NVIDIA GeForce RTX 3090	qwen3moe 30B.A3B Q4_0	4	512	337.4377	450.5619	1.34
NVIDIA GeForce RTX 3090	qwen3moe 30B.A3B Q4_K - Medium	2	512	242.4454	278.222	1.15
NVIDIA GeForce RTX 3090	qwen3moe 30B.A3B Q4_K - Medium	3	512	287.2251	353.3931	1.23
NVIDIA GeForce RTX 3090	qwen3moe 30B.A3B Q4_K - Medium	4	512	309.4449	392.9521	1.27
NVIDIA GeForce RTX 3090	qwen35moe 35B.A3B Q4_K - Medium	2	512	222.2873	242.5083	1.09
NVIDIA GeForce RTX 3090	qwen35moe 35B.A3B Q4_K - Medium	3	512	286.8951	331.7216	1.16
NVIDIA GeForce RTX 3090	qwen35moe 35B.A3B Q4_K - Medium	4	512	330.5946	398.2023	1.20
NVIDIA GeForce RTX 3090	gpt-oss 20B MXFP4 MoE	2	512	316.2192	346.3659	1.10
NVIDIA GeForce RTX 3090	gpt-oss 20B MXFP4 MoE	3	512	363.7077	423.9369	1.17
NVIDIA GeForce RTX 3090	gpt-oss 20B MXFP4 MoE	4	512	385.6871	466.7459	1.21
NVIDIA GeForce RTX 3090	gpt-oss 20B Q4_K - Medium	2	512	328.897	363.2213	1.10
NVIDIA GeForce RTX 3090	gpt-oss 20B Q4_K - Medium	3	512	371.8909	435.7728	1.17
NVIDIA GeForce RTX 3090	gpt-oss 20B Q4_K - Medium	4	512	389.532	472.3913	1.21

Requirements

I have read and agree with the contributing guidelines
AI usage disclosure: Yes. AI used to write comments, add tests in test-backend-ops for BS=2,3 (not part of the PR, made local change for testing), benchmark, and auto-tuning to finalize rows_per_block value.

gaugarg-nv · 2026-03-23T14:37:41Z

FYI @JohannesGaessler @am17an @IMbackK

am17an · 2026-03-23T14:45:54Z

You can check till bs=8, the earlier kernel was performance wise not better after bs = 4, but this kernel might be.

gaugarg-nv · 2026-03-23T14:48:57Z

You can check till bs=8, the earlier kernel was performance wise not better after bs = 4, but this kernel might be.

I thought max batch size for MOE is MMVQ_MMID_MAX_BATCH_SIZE (which is 4).

am17an · 2026-03-23T14:52:55Z

Yes that was because the current kernel didn't show any benefit beyond bs=4, we can increase it if there is some benefit from this kernel. The added benefit is that those batch sizes get cuda graph enabled for them

gaugarg-nv · 2026-03-23T15:33:25Z

Yes that was because the current kernel didn't show any benefit beyond bs=4, we can increase it if there is some benefit from this kernel. The added benefit is that those batch sizes get cuda graph enabled for them

Will check and get back.

@am17an As I mentioned at #20885 (comment), this PR shows better perf across models and GPUs. Your small_k check for BS=1 from PR #20885 will be useful, though. Do you want to commit that change into this PR, or will you follow up with a new one?

am17an · 2026-03-24T12:50:34Z

@gaugarg-nv you can add that check to this PR. However, we would need to do another round of tests with all devices + quants that @JohannesGaessler did earlier with this new kernel. Also did you check performance for bs=1 with this new kernel?

IMbackK · 2026-03-25T00:04:12Z

Changes look reasonable to me from static analysis. Performance spot check of the current version looks ok for cdna

Model	Microbatch size	Test	t/s master	t/s moe_opt	Speedup
qwen35moe 35B.A3B Q8_0	1	pp512@d16384	75.67	74.44	0.98
qwen35moe 35B.A3B Q8_0	4	pp512@d16384	98.79	104.62	1.06

Never mind the 0.98 result at batch 1 - is noise.

Will run a larger sweep when from #20885 change is added

IMbackK · 2026-03-25T00:09:16Z

@gaugarg-nv ai usage disclosure?

JohannesGaessler · 2026-03-25T19:27:52Z

Performance

GPU	Model	Microbatch size	Test	t/s `fd18364`	t/s `e50879e`	Speedup
MI60 / MI50	gpt-oss 20B MXFP4 MoE	2	pp512	171.42	194.47	1.13
MI60 / MI50	gpt-oss 20B MXFP4 MoE	3	pp512	179.96	207.16	1.15
MI60 / MI50	gpt-oss 20B MXFP4 MoE	4	pp512	196.82	230.37	1.17
MI60 / MI50	granitemoe 3B IQ1_S - 1.5625 bpw	2	pp512	221.67	270.08	1.22
MI60 / MI50	granitemoe 3B IQ1_S - 1.5625 bpw	3	pp512	262.27	332.80	1.27
MI60 / MI50	granitemoe 3B IQ1_S - 1.5625 bpw	4	pp512	300.07	397.10	1.32
MI60 / MI50	granitemoe 3B IQ2_S - 2.5 bpw	2	pp512	144.94	176.30	1.22
MI60 / MI50	granitemoe 3B IQ2_S - 2.5 bpw	3	pp512	166.77	204.72	1.23
MI60 / MI50	granitemoe 3B IQ2_S - 2.5 bpw	4	pp512	182.05	230.03	1.26
MI60 / MI50	granitemoe 3B IQ2_XS - 2.3125 bpw	2	pp512	154.85	185.13	1.20
MI60 / MI50	granitemoe 3B IQ2_XS - 2.3125 bpw	3	pp512	176.96	215.67	1.22
MI60 / MI50	granitemoe 3B IQ2_XS - 2.3125 bpw	4	pp512	193.68	242.54	1.25
MI60 / MI50	granitemoe 3B IQ2_XXS - 2.0625 bpw	2	pp512	156.14	187.58	1.20
MI60 / MI50	granitemoe 3B IQ2_XXS - 2.0625 bpw	3	pp512	179.02	219.55	1.23
MI60 / MI50	granitemoe 3B IQ2_XXS - 2.0625 bpw	4	pp512	196.50	245.96	1.25
MI60 / MI50	granitemoe 3B IQ3_S - 3.4375 bpw	2	pp512	122.82	168.21	1.37
MI60 / MI50	granitemoe 3B IQ3_S - 3.4375 bpw	3	pp512	137.43	196.02	1.43
MI60 / MI50	granitemoe 3B IQ3_S - 3.4375 bpw	4	pp512	147.50	216.29	1.47
MI60 / MI50	granitemoe 3B IQ3_S mix - 3.66 bpw	2	pp512	128.75	174.01	1.35
MI60 / MI50	granitemoe 3B IQ3_S mix - 3.66 bpw	3	pp512	142.72	204.16	1.43
MI60 / MI50	granitemoe 3B IQ3_S mix - 3.66 bpw	4	pp512	153.41	223.90	1.46
MI60 / MI50	granitemoe 3B IQ3_XS - 3.3 bpw	2	pp512	126.69	168.26	1.33
MI60 / MI50	granitemoe 3B IQ3_XS - 3.3 bpw	3	pp512	142.62	194.77	1.37
MI60 / MI50	granitemoe 3B IQ3_XS - 3.3 bpw	4	pp512	154.60	217.92	1.41
MI60 / MI50	granitemoe 3B IQ3_XXS - 3.0625 bpw	2	pp512	137.10	171.79	1.25
MI60 / MI50	granitemoe 3B IQ3_XXS - 3.0625 bpw	3	pp512	156.54	199.72	1.28
MI60 / MI50	granitemoe 3B IQ3_XXS - 3.0625 bpw	4	pp512	170.84	227.41	1.33
MI60 / MI50	granitemoe 3B IQ4_NL - 4.5 bpw	2	pp512	246.17	302.09	1.23
MI60 / MI50	granitemoe 3B IQ4_NL - 4.5 bpw	3	pp512	287.23	363.10	1.26
MI60 / MI50	granitemoe 3B IQ4_NL - 4.5 bpw	4	pp512	329.99	432.88	1.31
MI60 / MI50	granitemoe 3B IQ4_XS - 4.25 bpw	2	pp512	242.26	285.62	1.18
MI60 / MI50	granitemoe 3B IQ4_XS - 4.25 bpw	3	pp512	281.58	334.68	1.19
MI60 / MI50	granitemoe 3B IQ4_XS - 4.25 bpw	4	pp512	324.53	395.18	1.22
MI60 / MI50	granitemoe 3B Q2_K_M	2	pp512	195.15	260.83	1.34
MI60 / MI50	granitemoe 3B Q2_K_M	3	pp512	226.69	304.21	1.34
MI60 / MI50	granitemoe 3B Q2_K_M	4	pp512	253.17	357.74	1.41
MI60 / MI50	granitemoe 3B Q3_K_S	2	pp512	170.88	246.76	1.44
MI60 / MI50	granitemoe 3B Q3_K_S	3	pp512	197.24	290.30	1.47
MI60 / MI50	granitemoe 3B Q3_K_S	4	pp512	215.38	331.09	1.54
MI60 / MI50	granitemoe 3B Q4_0	2	pp512	252.12	309.16	1.23
MI60 / MI50	granitemoe 3B Q4_0	3	pp512	285.89	363.30	1.27
MI60 / MI50	granitemoe 3B Q4_0	4	pp512	331.90	452.26	1.36
MI60 / MI50	granitemoe 3B Q4_1	2	pp512	249.41	313.97	1.26
MI60 / MI50	granitemoe 3B Q4_1	3	pp512	287.67	376.45	1.31
MI60 / MI50	granitemoe 3B Q4_1	4	pp512	336.05	463.91	1.38
MI60 / MI50	granitemoe 3B Q4_K_S	2	pp512	226.59	266.07	1.17
MI60 / MI50	granitemoe 3B Q4_K_S	3	pp512	264.45	317.96	1.20
MI60 / MI50	granitemoe 3B Q4_K_S	4	pp512	300.09	372.36	1.24
MI60 / MI50	granitemoe 3B Q5_0	2	pp512	239.76	282.46	1.18
MI60 / MI50	granitemoe 3B Q5_0	3	pp512	268.75	326.02	1.21
MI60 / MI50	granitemoe 3B Q5_0	4	pp512	315.73	395.07	1.25
MI60 / MI50	granitemoe 3B Q5_1	2	pp512	241.64	284.51	1.18
MI60 / MI50	granitemoe 3B Q5_1	3	pp512	276.49	335.59	1.21
MI60 / MI50	granitemoe 3B Q5_1	4	pp512	320.30	407.19	1.27
MI60 / MI50	granitemoe 3B Q5_K_S	2	pp512	222.41	248.24	1.12
MI60 / MI50	granitemoe 3B Q5_K_S	3	pp512	261.03	292.31	1.12
MI60 / MI50	granitemoe 3B Q5_K_S	4	pp512	286.95	330.53	1.15
MI60 / MI50	granitemoe 3B Q6_K	2	pp512	223.93	264.38	1.18
MI60 / MI50	granitemoe 3B Q6_K	3	pp512	261.72	316.46	1.21
MI60 / MI50	granitemoe 3B Q6_K	4	pp512	294.21	367.49	1.25
MI60 / MI50	granitemoe 3B Q8_0	2	pp512	238.55	283.47	1.19
MI60 / MI50	granitemoe 3B Q8_0	3	pp512	267.08	297.70	1.11
MI60 / MI50	granitemoe 3B Q8_0	4	pp512	315.41	389.20	1.23
MI100	gpt-oss 20B MXFP4 MoE	2	pp512	199.52	225.11	1.13
MI100	gpt-oss 20B MXFP4 MoE	3	pp512	230.23	256.47	1.11
MI100	gpt-oss 20B MXFP4 MoE	4	pp512	212.12	236.00	1.11
MI100	granitemoe 3B IQ1_S - 1.5625 bpw	2	pp512	253.13	287.97	1.14
MI100	granitemoe 3B IQ1_S - 1.5625 bpw	3	pp512	327.51	378.50	1.16
MI100	granitemoe 3B IQ2_S - 2.5 bpw	2	pp512	183.88	211.66	1.15
MI100	granitemoe 3B IQ2_S - 2.5 bpw	3	pp512	224.26	261.49	1.17
MI100	granitemoe 3B IQ2_S - 2.5 bpw	4	pp512	186.04	210.09	1.13
MI100	granitemoe 3B IQ2_XS - 2.3125 bpw	2	pp512	194.16	217.69	1.12
MI100	granitemoe 3B IQ2_XS - 2.3125 bpw	3	pp512	233.66	271.21	1.16
MI100	granitemoe 3B IQ2_XS - 2.3125 bpw	4	pp512	194.59	218.02	1.12
MI100	granitemoe 3B IQ2_XXS - 2.0625 bpw	2	pp512	194.64	221.10	1.14
MI100	granitemoe 3B IQ2_XXS - 2.0625 bpw	3	pp512	237.70	278.61	1.17
MI100	granitemoe 3B IQ2_XXS - 2.0625 bpw	4	pp512	195.84	220.13	1.12
MI100	granitemoe 3B IQ3_S - 3.4375 bpw	2	pp512	165.52	205.88	1.24
MI100	granitemoe 3B IQ3_S - 3.4375 bpw	3	pp512	200.24	255.43	1.28
MI100	granitemoe 3B IQ3_S - 3.4375 bpw	4	pp512	168.37	208.84	1.24
MI100	granitemoe 3B IQ3_S mix - 3.66 bpw	2	pp512	169.90	212.86	1.25
MI100	granitemoe 3B IQ3_S mix - 3.66 bpw	3	pp512	204.46	261.84	1.28
MI100	granitemoe 3B IQ3_S mix - 3.66 bpw	4	pp512	169.88	211.08	1.24
MI100	granitemoe 3B IQ3_XS - 3.3 bpw	2	pp512	162.71	201.28	1.24
MI100	granitemoe 3B IQ3_XS - 3.3 bpw	3	pp512	197.44	252.67	1.28
MI100	granitemoe 3B IQ3_XS - 3.3 bpw	4	pp512	166.62	206.93	1.24
MI100	granitemoe 3B IQ3_XXS - 3.0625 bpw	2	pp512	163.38	204.80	1.25
MI100	granitemoe 3B IQ3_XXS - 3.0625 bpw	3	pp512	195.52	255.74	1.31
MI100	granitemoe 3B IQ3_XXS - 3.0625 bpw	4	pp512	164.92	206.32	1.25
MI100	granitemoe 3B IQ4_NL - 4.5 bpw	2	pp512	267.38	297.99	1.11
MI100	granitemoe 3B IQ4_NL - 4.5 bpw	3	pp512	343.05	395.63	1.15
MI100	granitemoe 3B IQ4_NL - 4.5 bpw	4	pp512	254.67	282.68	1.11
MI100	granitemoe 3B IQ4_XS - 4.25 bpw	2	pp512	266.20	294.12	1.10
MI100	granitemoe 3B IQ4_XS - 4.25 bpw	3	pp512	337.79	382.69	1.13
MI100	granitemoe 3B IQ4_XS - 4.25 bpw	4	pp512	253.06	277.13	1.10
MI100	granitemoe 3B Q2_K_M	2	pp512	226.80	270.50	1.19
MI100	granitemoe 3B Q2_K_M	3	pp512	286.15	344.40	1.20
MI100	granitemoe 3B Q2_K_M	4	pp512	220.31	255.12	1.16
MI100	granitemoe 3B Q3_K_S	2	pp512	214.99	265.66	1.24
MI100	granitemoe 3B Q3_K_S	3	pp512	259.72	332.98	1.28
MI100	granitemoe 3B Q3_K_S	4	pp512	205.01	250.86	1.22
MI100	granitemoe 3B Q4_0	2	pp512	270.76	309.18	1.14
MI100	granitemoe 3B Q4_0	3	pp512	349.10	416.50	1.19
MI100	granitemoe 3B Q4_0	4	pp512	259.00	294.77	1.14
MI100	granitemoe 3B Q4_1	2	pp512	271.90	310.87	1.14
MI100	granitemoe 3B Q4_1	3	pp512	350.61	410.90	1.17
MI100	granitemoe 3B Q4_1	4	pp512	258.12	293.00	1.14
MI100	granitemoe 3B Q4_K_S	2	pp512	245.90	276.79	1.13
MI100	granitemoe 3B Q4_K_S	3	pp512	310.28	356.49	1.15
MI100	granitemoe 3B Q4_K_S	4	pp512	237.19	263.86	1.11
MI100	granitemoe 3B Q5_0	2	pp512	260.59	283.39	1.09
MI100	granitemoe 3B Q5_0	3	pp512	325.57	369.87	1.14
MI100	granitemoe 3B Q5_0	4	pp512	248.52	270.03	1.09
MI100	granitemoe 3B Q5_1	2	pp512	257.65	283.03	1.10
MI100	granitemoe 3B Q5_1	3	pp512	330.84	373.56	1.13
MI100	granitemoe 3B Q5_1	4	pp512	249.73	273.34	1.09
MI100	granitemoe 3B Q5_K_S	2	pp512	243.65	268.82	1.10
MI100	granitemoe 3B Q5_K_S	3	pp512	307.41	338.23	1.10
MI100	granitemoe 3B Q5_K_S	4	pp512	233.44	253.85	1.09
MI100	granitemoe 3B Q6_K	2	pp512	243.28	271.66	1.12
MI100	granitemoe 3B Q6_K	3	pp512	308.98	355.62	1.15
MI100	granitemoe 3B Q6_K	4	pp512	233.30	259.60	1.11
MI100	granitemoe 3B Q8_0	2	pp512	256.87	287.25	1.12
MI100	granitemoe 3B Q8_0	3	pp512	319.62	331.13	1.04
MI100	granitemoe 3B Q8_0	4	pp512	244.61	258.81	1.06
P40	gpt-oss 20B MXFP4 MoE	2	pp512	120.51	136.52	1.13
P40	gpt-oss 20B MXFP4 MoE	3	pp512	136.67	163.70	1.20
P40	gpt-oss 20B MXFP4 MoE	4	pp512	140.66	173.32	1.23
P40	granitemoe 3B IQ1_S - 1.5625 bpw	2	pp512	187.75	262.58	1.40
P40	granitemoe 3B IQ1_S - 1.5625 bpw	3	pp512	225.80	341.46	1.51
P40	granitemoe 3B IQ1_S - 1.5625 bpw	4	pp512	243.46	380.29	1.56
P40	granitemoe 3B IQ2_S - 2.5 bpw	2	pp512	162.70	227.86	1.40
P40	granitemoe 3B IQ2_S - 2.5 bpw	3	pp512	192.09	290.20	1.51
P40	granitemoe 3B IQ2_S - 2.5 bpw	4	pp512	206.74	325.95	1.58
P40	granitemoe 3B IQ2_XS - 2.3125 bpw	2	pp512	169.60	238.09	1.40
P40	granitemoe 3B IQ2_XS - 2.3125 bpw	3	pp512	198.90	302.23	1.52
P40	granitemoe 3B IQ2_XS - 2.3125 bpw	4	pp512	213.69	338.14	1.58
P40	granitemoe 3B IQ2_XXS - 2.0625 bpw	2	pp512	176.33	246.92	1.40
P40	granitemoe 3B IQ2_XXS - 2.0625 bpw	3	pp512	209.73	317.02	1.51
P40	granitemoe 3B IQ2_XXS - 2.0625 bpw	4	pp512	222.36	348.65	1.57
P40	granitemoe 3B IQ3_S - 3.4375 bpw	2	pp512	154.98	213.27	1.38
P40	granitemoe 3B IQ3_S - 3.4375 bpw	3	pp512	180.41	264.75	1.47
P40	granitemoe 3B IQ3_S - 3.4375 bpw	4	pp512	193.33	294.67	1.52
P40	granitemoe 3B IQ3_S mix - 3.66 bpw	2	pp512	157.16	215.77	1.37
P40	granitemoe 3B IQ3_S mix - 3.66 bpw	3	pp512	183.05	267.64	1.46
P40	granitemoe 3B IQ3_S mix - 3.66 bpw	4	pp512	194.84	295.60	1.52
P40	granitemoe 3B IQ3_XS - 3.3 bpw	2	pp512	154.77	211.97	1.37
P40	granitemoe 3B IQ3_XS - 3.3 bpw	3	pp512	183.06	267.91	1.46
P40	granitemoe 3B IQ3_XS - 3.3 bpw	4	pp512	196.10	297.33	1.52
P40	granitemoe 3B IQ3_XXS - 3.0625 bpw	2	pp512	161.03	215.07	1.34
P40	granitemoe 3B IQ3_XXS - 3.0625 bpw	3	pp512	191.87	274.50	1.43
P40	granitemoe 3B IQ3_XXS - 3.0625 bpw	4	pp512	205.24	303.57	1.48
P40	granitemoe 3B IQ4_NL - 4.5 bpw	2	pp512	221.86	284.37	1.28
P40	granitemoe 3B IQ4_NL - 4.5 bpw	3	pp512	273.33	381.87	1.40
P40	granitemoe 3B IQ4_NL - 4.5 bpw	4	pp512	290.74	420.75	1.45
P40	granitemoe 3B IQ4_XS - 4.25 bpw	2	pp512	183.87	262.93	1.43
P40	granitemoe 3B IQ4_XS - 4.25 bpw	3	pp512	218.95	346.43	1.58
P40	granitemoe 3B IQ4_XS - 4.25 bpw	4	pp512	229.83	380.45	1.66
P40	granitemoe 3B Q2_K_M	2	pp512	152.94	230.37	1.51
P40	granitemoe 3B Q2_K_M	3	pp512	178.00	293.45	1.65
P40	granitemoe 3B Q2_K_M	4	pp512	188.84	326.12	1.73
P40	granitemoe 3B Q3_K_S	2	pp512	135.03	210.77	1.56
P40	granitemoe 3B Q3_K_S	3	pp512	154.70	261.58	1.69
P40	granitemoe 3B Q3_K_S	4	pp512	164.89	291.10	1.77
P40	granitemoe 3B Q4_0	2	pp512	198.99	287.00	1.44
P40	granitemoe 3B Q4_0	3	pp512	239.06	390.82	1.63
P40	granitemoe 3B Q4_0	4	pp512	252.80	432.30	1.71
P40	granitemoe 3B Q4_1	2	pp512	210.62	286.00	1.36
P40	granitemoe 3B Q4_1	3	pp512	255.00	386.28	1.51
P40	granitemoe 3B Q4_1	4	pp512	266.78	419.97	1.57
P40	granitemoe 3B Q4_K_S	2	pp512	196.49	270.94	1.38
P40	granitemoe 3B Q4_K_S	3	pp512	233.13	349.86	1.50
P40	granitemoe 3B Q4_K_S	4	pp512	248.71	389.57	1.57
P40	granitemoe 3B Q5_0	2	pp512	199.72	263.81	1.32
P40	granitemoe 3B Q5_0	3	pp512	240.76	349.35	1.45
P40	granitemoe 3B Q5_0	4	pp512	253.40	385.55	1.52
P40	granitemoe 3B Q5_1	2	pp512	198.76	260.70	1.31
P40	granitemoe 3B Q5_1	3	pp512	239.23	344.15	1.44
P40	granitemoe 3B Q5_1	4	pp512	252.89	381.34	1.51
P40	granitemoe 3B Q5_K_S	2	pp512	191.13	251.53	1.32
P40	granitemoe 3B Q5_K_S	3	pp512	225.65	321.32	1.42
P40	granitemoe 3B Q5_K_S	4	pp512	235.22	348.62	1.48
P40	granitemoe 3B Q6_K	2	pp512	162.40	222.12	1.37
P40	granitemoe 3B Q6_K	3	pp512	188.49	281.44	1.49
P40	granitemoe 3B Q6_K	4	pp512	197.70	306.44	1.55
P40	granitemoe 3B Q8_0	2	pp512	162.62	224.43	1.38
P40	granitemoe 3B Q8_0	3	pp512	190.53	290.49	1.52
P40	granitemoe 3B Q8_0	4	pp512	197.93	313.72	1.59
Radeon 8060S Graphics	gpt-oss 20B MXFP4 MoE	2	pp512	103.51	104.64	1.01
Radeon 8060S Graphics	gpt-oss 20B MXFP4 MoE	3	pp512	132.50	138.12	1.04
Radeon 8060S Graphics	gpt-oss 20B MXFP4 MoE	4	pp512	152.38	172.16	1.13
Radeon 8060S Graphics	granitemoe 3B IQ1_S - 1.5625 bpw	2	pp512	198.90	207.66	1.04
Radeon 8060S Graphics	granitemoe 3B IQ1_S - 1.5625 bpw	3	pp512	266.94	281.77	1.06
Radeon 8060S Graphics	granitemoe 3B IQ1_S - 1.5625 bpw	4	pp512	321.48	342.16	1.06
Radeon 8060S Graphics	granitemoe 3B IQ2_S - 2.5 bpw	2	pp512	155.57	154.91	1.00
Radeon 8060S Graphics	granitemoe 3B IQ2_S - 2.5 bpw	3	pp512	192.76	194.10	1.01
Radeon 8060S Graphics	granitemoe 3B IQ2_S - 2.5 bpw	4	pp512	219.69	224.38	1.02
Radeon 8060S Graphics	granitemoe 3B IQ2_XS - 2.3125 bpw	2	pp512	158.09	157.54	1.00
Radeon 8060S Graphics	granitemoe 3B IQ2_XS - 2.3125 bpw	3	pp512	196.45	198.38	1.01
Radeon 8060S Graphics	granitemoe 3B IQ2_XS - 2.3125 bpw	4	pp512	225.44	230.13	1.02
Radeon 8060S Graphics	granitemoe 3B IQ2_XXS - 2.0625 bpw	2	pp512	159.14	161.95	1.02
Radeon 8060S Graphics	granitemoe 3B IQ2_XXS - 2.0625 bpw	3	pp512	197.62	200.93	1.02
Radeon 8060S Graphics	granitemoe 3B IQ2_XXS - 2.0625 bpw	4	pp512	227.22	232.92	1.03
Radeon 8060S Graphics	granitemoe 3B IQ3_S - 3.4375 bpw	2	pp512	148.80	142.55	0.96
Radeon 8060S Graphics	granitemoe 3B IQ3_S - 3.4375 bpw	3	pp512	191.31	186.76	0.98
Radeon 8060S Graphics	granitemoe 3B IQ3_S - 3.4375 bpw	4	pp512	215.34	213.67	0.99
Radeon 8060S Graphics	granitemoe 3B IQ3_S mix - 3.66 bpw	2	pp512	150.88	144.67	0.96
Radeon 8060S Graphics	granitemoe 3B IQ3_S mix - 3.66 bpw	3	pp512	191.60	188.51	0.98
Radeon 8060S Graphics	granitemoe 3B IQ3_S mix - 3.66 bpw	4	pp512	216.77	215.75	1.00
Radeon 8060S Graphics	granitemoe 3B IQ3_XS - 3.3 bpw	2	pp512	150.20	147.70	0.98
Radeon 8060S Graphics	granitemoe 3B IQ3_XS - 3.3 bpw	3	pp512	190.74	189.09	0.99
Radeon 8060S Graphics	granitemoe 3B IQ3_XS - 3.3 bpw	4	pp512	217.27	217.44	1.00
Radeon 8060S Graphics	granitemoe 3B IQ3_XXS - 3.0625 bpw	2	pp512	153.28	150.88	0.98
Radeon 8060S Graphics	granitemoe 3B IQ3_XXS - 3.0625 bpw	3	pp512	191.44	191.23	1.00
Radeon 8060S Graphics	granitemoe 3B IQ3_XXS - 3.0625 bpw	4	pp512	217.42	220.40	1.01
Radeon 8060S Graphics	granitemoe 3B IQ4_NL - 4.5 bpw	2	pp512	185.70	193.73	1.04
Radeon 8060S Graphics	granitemoe 3B IQ4_NL - 4.5 bpw	3	pp512	249.07	267.17	1.07
Radeon 8060S Graphics	granitemoe 3B IQ4_NL - 4.5 bpw	4	pp512	301.48	334.71	1.11
Radeon 8060S Graphics	granitemoe 3B IQ4_XS - 4.25 bpw	2	pp512	185.40	192.95	1.04
Radeon 8060S Graphics	granitemoe 3B IQ4_XS - 4.25 bpw	3	pp512	247.55	268.11	1.08
Radeon 8060S Graphics	granitemoe 3B IQ4_XS - 4.25 bpw	4	pp512	299.56	330.45	1.10
Radeon 8060S Graphics	granitemoe 3B Q2_K_M	2	pp512	189.22	202.24	1.07
Radeon 8060S Graphics	granitemoe 3B Q2_K_M	3	pp512	250.20	264.66	1.06
Radeon 8060S Graphics	granitemoe 3B Q2_K_M	4	pp512	293.49	314.59	1.07
Radeon 8060S Graphics	granitemoe 3B Q3_K_S	2	pp512	181.24	188.32	1.04
Radeon 8060S Graphics	granitemoe 3B Q3_K_S	3	pp512	239.81	252.56	1.05
Radeon 8060S Graphics	granitemoe 3B Q3_K_S	4	pp512	275.54	294.55	1.07
Radeon 8060S Graphics	granitemoe 3B Q4_0	2	pp512	183.58	194.28	1.06
Radeon 8060S Graphics	granitemoe 3B Q4_0	3	pp512	250.14	270.70	1.08
Radeon 8060S Graphics	granitemoe 3B Q4_0	4	pp512	302.09	339.66	1.12
Radeon 8060S Graphics	granitemoe 3B Q4_1	2	pp512	182.02	189.42	1.04
Radeon 8060S Graphics	granitemoe 3B Q4_1	3	pp512	245.48	266.15	1.08
Radeon 8060S Graphics	granitemoe 3B Q4_1	4	pp512	293.81	325.25	1.11
Radeon 8060S Graphics	granitemoe 3B Q4_K_S	2	pp512	168.43	172.48	1.02
Radeon 8060S Graphics	granitemoe 3B Q4_K_S	3	pp512	222.06	227.60	1.02
Radeon 8060S Graphics	granitemoe 3B Q4_K_S	4	pp512	263.89	273.00	1.03
Radeon 8060S Graphics	granitemoe 3B Q5_0	2	pp512	174.48	180.43	1.03
Radeon 8060S Graphics	granitemoe 3B Q5_0	3	pp512	233.27	249.41	1.07
Radeon 8060S Graphics	granitemoe 3B Q5_0	4	pp512	281.56	308.27	1.09
Radeon 8060S Graphics	granitemoe 3B Q5_1	2	pp512	170.72	176.86	1.04
Radeon 8060S Graphics	granitemoe 3B Q5_1	3	pp512	224.41	244.35	1.09
Radeon 8060S Graphics	granitemoe 3B Q5_1	4	pp512	269.19	302.19	1.12
Radeon 8060S Graphics	granitemoe 3B Q5_K_S	2	pp512	160.31	164.16	1.02
Radeon 8060S Graphics	granitemoe 3B Q5_K_S	3	pp512	210.72	216.37	1.03
Radeon 8060S Graphics	granitemoe 3B Q5_K_S	4	pp512	244.35	259.01	1.06
Radeon 8060S Graphics	granitemoe 3B Q6_K	2	pp512	154.71	162.30	1.05
Radeon 8060S Graphics	granitemoe 3B Q6_K	3	pp512	197.89	216.90	1.10
Radeon 8060S Graphics	granitemoe 3B Q6_K	4	pp512	232.10	258.09	1.11
Radeon 8060S Graphics	granitemoe 3B Q8_0	2	pp512	142.17	150.76	1.06
Radeon 8060S Graphics	granitemoe 3B Q8_0	3	pp512	188.05	204.59	1.09
Radeon 8060S Graphics	granitemoe 3B Q8_0	4	pp512	224.64	251.75	1.12
RTX 3090	gpt-oss 20B MXFP4 MoE	2	pp512	317.28	351.08	1.11
RTX 3090	gpt-oss 20B MXFP4 MoE	3	pp512	356.01	419.13	1.18
RTX 3090	gpt-oss 20B MXFP4 MoE	4	pp512	371.90	451.99	1.22
RTX 3090	granitemoe 3B IQ1_S - 1.5625 bpw	2	pp512	509.87	611.53	1.20
RTX 3090	granitemoe 3B IQ1_S - 1.5625 bpw	3	pp512	629.03	812.99	1.29
RTX 3090	granitemoe 3B IQ1_S - 1.5625 bpw	4	pp512	654.99	926.44	1.41
RTX 3090	granitemoe 3B IQ2_S - 2.5 bpw	2	pp512	468.57	566.15	1.21
RTX 3090	granitemoe 3B IQ2_S - 2.5 bpw	3	pp512	550.55	697.47	1.27
RTX 3090	granitemoe 3B IQ2_S - 2.5 bpw	4	pp512	605.16	743.71	1.23
RTX 3090	granitemoe 3B IQ2_XS - 2.3125 bpw	2	pp512	476.30	572.42	1.20
RTX 3090	granitemoe 3B IQ2_XS - 2.3125 bpw	3	pp512	561.35	692.33	1.23
RTX 3090	granitemoe 3B IQ2_XS - 2.3125 bpw	4	pp512	615.71	792.35	1.29
RTX 3090	granitemoe 3B IQ2_XXS - 2.0625 bpw	2	pp512	485.50	591.40	1.22
RTX 3090	granitemoe 3B IQ2_XXS - 2.0625 bpw	3	pp512	577.88	746.77	1.29
RTX 3090	granitemoe 3B IQ2_XXS - 2.0625 bpw	4	pp512	609.76	780.88	1.28
RTX 3090	granitemoe 3B IQ3_S - 3.4375 bpw	2	pp512	449.02	540.74	1.20
RTX 3090	granitemoe 3B IQ3_S - 3.4375 bpw	3	pp512	514.30	634.17	1.23
RTX 3090	granitemoe 3B IQ3_S - 3.4375 bpw	4	pp512	561.95	723.03	1.29
RTX 3090	granitemoe 3B IQ3_S mix - 3.66 bpw	2	pp512	451.11	540.14	1.20
RTX 3090	granitemoe 3B IQ3_S mix - 3.66 bpw	3	pp512	525.25	660.12	1.26
RTX 3090	granitemoe 3B IQ3_S mix - 3.66 bpw	4	pp512	568.99	738.41	1.30
RTX 3090	granitemoe 3B IQ3_XS - 3.3 bpw	2	pp512	453.75	550.09	1.21
RTX 3090	granitemoe 3B IQ3_XS - 3.3 bpw	3	pp512	527.16	667.49	1.27
RTX 3090	granitemoe 3B IQ3_XS - 3.3 bpw	4	pp512	577.58	747.13	1.29
RTX 3090	granitemoe 3B IQ3_XXS - 3.0625 bpw	2	pp512	453.57	558.88	1.23
RTX 3090	granitemoe 3B IQ3_XXS - 3.0625 bpw	3	pp512	523.61	658.15	1.26
RTX 3090	granitemoe 3B IQ3_XXS - 3.0625 bpw	4	pp512	577.64	749.47	1.30
RTX 3090	granitemoe 3B IQ4_NL - 4.5 bpw	2	pp512	555.78	646.76	1.16
RTX 3090	granitemoe 3B IQ4_NL - 4.5 bpw	3	pp512	664.38	865.28	1.30
RTX 3090	granitemoe 3B IQ4_NL - 4.5 bpw	4	pp512	729.46	997.84	1.37
RTX 3090	granitemoe 3B IQ4_XS - 4.25 bpw	2	pp512	518.73	612.39	1.18
RTX 3090	granitemoe 3B IQ4_XS - 4.25 bpw	3	pp512	621.22	802.28	1.29
RTX 3090	granitemoe 3B IQ4_XS - 4.25 bpw	4	pp512	659.48	891.69	1.35
RTX 3090	granitemoe 3B Q2_K_M	2	pp512	487.22	591.32	1.21
RTX 3090	granitemoe 3B Q2_K_M	3	pp512	568.00	731.49	1.29
RTX 3090	granitemoe 3B Q2_K_M	4	pp512	621.87	800.53	1.29
RTX 3090	granitemoe 3B Q3_K_S	2	pp512	436.83	527.88	1.21
RTX 3090	granitemoe 3B Q3_K_S	3	pp512	494.38	622.59	1.26
RTX 3090	granitemoe 3B Q3_K_S	4	pp512	525.84	676.39	1.29
RTX 3090	granitemoe 3B Q4_0	2	pp512	547.01	654.79	1.20
RTX 3090	granitemoe 3B Q4_0	3	pp512	678.38	889.54	1.31
RTX 3090	granitemoe 3B Q4_0	4	pp512	765.10	1075.02	1.41
RTX 3090	granitemoe 3B Q4_1	2	pp512	560.93	644.67	1.15
RTX 3090	granitemoe 3B Q4_1	3	pp512	706.92	885.13	1.25
RTX 3090	granitemoe 3B Q4_1	4	pp512	788.11	1062.00	1.35
RTX 3090	granitemoe 3B Q4_K_S	2	pp512	532.96	619.23	1.16
RTX 3090	granitemoe 3B Q4_K_S	3	pp512	645.34	828.65	1.28
RTX 3090	granitemoe 3B Q4_K_S	4	pp512	698.25	951.14	1.36
RTX 3090	granitemoe 3B Q5_0	2	pp512	537.93	613.43	1.14
RTX 3090	granitemoe 3B Q5_0	3	pp512	655.44	814.41	1.24
RTX 3090	granitemoe 3B Q5_0	4	pp512	718.78	939.61	1.31
RTX 3090	granitemoe 3B Q5_1	2	pp512	540.68	612.15	1.13
RTX 3090	granitemoe 3B Q5_1	3	pp512	662.72	828.20	1.25
RTX 3090	granitemoe 3B Q5_1	4	pp512	718.15	957.65	1.33
RTX 3090	granitemoe 3B Q5_K_S	2	pp512	519.37	596.53	1.15
RTX 3090	granitemoe 3B Q5_K_S	3	pp512	613.06	780.71	1.27
RTX 3090	granitemoe 3B Q5_K_S	4	pp512	660.86	884.14	1.34
RTX 3090	granitemoe 3B Q6_K	2	pp512	466.48	549.73	1.18
RTX 3090	granitemoe 3B Q6_K	3	pp512	538.60	683.04	1.27
RTX 3090	granitemoe 3B Q6_K	4	pp512	581.84	771.19	1.33
RTX 3090	granitemoe 3B Q8_0	2	pp512	440.24	536.12	1.22
RTX 3090	granitemoe 3B Q8_0	3	pp512	516.38	696.55	1.35
RTX 3090	granitemoe 3B Q8_0	4	pp512	553.51	797.89	1.44
RTX 4090	gpt-oss 20B MXFP4 MoE	2	pp512	432.33	459.17	1.06
RTX 4090	gpt-oss 20B MXFP4 MoE	3	pp512	548.15	621.05	1.13
RTX 4090	gpt-oss 20B MXFP4 MoE	4	pp512	623.41	731.38	1.17
RTX 4090	granitemoe 3B IQ1_S - 1.5625 bpw	2	pp512	675.83	785.84	1.16
RTX 4090	granitemoe 3B IQ1_S - 1.5625 bpw	3	pp512	894.24	1075.43	1.20
RTX 4090	granitemoe 3B IQ1_S - 1.5625 bpw	4	pp512	1042.79	1304.96	1.25
RTX 4090	granitemoe 3B IQ2_S - 2.5 bpw	2	pp512	652.67	747.33	1.15
RTX 4090	granitemoe 3B IQ2_S - 2.5 bpw	3	pp512	842.56	1002.36	1.19
RTX 4090	granitemoe 3B IQ2_S - 2.5 bpw	4	pp512	980.23	1209.51	1.23
RTX 4090	granitemoe 3B IQ2_XS - 2.3125 bpw	2	pp512	670.15	760.47	1.13
RTX 4090	granitemoe 3B IQ2_XS - 2.3125 bpw	3	pp512	853.21	1015.96	1.19
RTX 4090	granitemoe 3B IQ2_XS - 2.3125 bpw	4	pp512	984.00	1212.92	1.23
RTX 4090	granitemoe 3B IQ2_XXS - 2.0625 bpw	2	pp512	671.42	794.74	1.18
RTX 4090	granitemoe 3B IQ2_XXS - 2.0625 bpw	3	pp512	866.16	1054.44	1.22
RTX 4090	granitemoe 3B IQ2_XXS - 2.0625 bpw	4	pp512	989.97	1259.75	1.27
RTX 4090	granitemoe 3B IQ3_S - 3.4375 bpw	2	pp512	641.06	719.51	1.12
RTX 4090	granitemoe 3B IQ3_S - 3.4375 bpw	3	pp512	811.33	959.04	1.18
RTX 4090	granitemoe 3B IQ3_S - 3.4375 bpw	4	pp512	938.34	1158.27	1.23
RTX 4090	granitemoe 3B IQ3_S mix - 3.66 bpw	2	pp512	650.65	726.71	1.12
RTX 4090	granitemoe 3B IQ3_S mix - 3.66 bpw	3	pp512	832.64	980.63	1.18
RTX 4090	granitemoe 3B IQ3_S mix - 3.66 bpw	4	pp512	962.03	1171.23	1.22
RTX 4090	granitemoe 3B IQ3_XS - 3.3 bpw	2	pp512	652.90	733.53	1.12
RTX 4090	granitemoe 3B IQ3_XS - 3.3 bpw	3	pp512	825.30	979.50	1.19
RTX 4090	granitemoe 3B IQ3_XS - 3.3 bpw	4	pp512	957.24	1175.27	1.23
RTX 4090	granitemoe 3B IQ3_XXS - 3.0625 bpw	2	pp512	645.42	735.40	1.14
RTX 4090	granitemoe 3B IQ3_XXS - 3.0625 bpw	3	pp512	829.96	993.12	1.20
RTX 4090	granitemoe 3B IQ3_XXS - 3.0625 bpw	4	pp512	960.40	1191.78	1.24
RTX 4090	granitemoe 3B IQ4_NL - 4.5 bpw	2	pp512	703.66	771.96	1.10
RTX 4090	granitemoe 3B IQ4_NL - 4.5 bpw	3	pp512	930.16	1069.89	1.15
RTX 4090	granitemoe 3B IQ4_NL - 4.5 bpw	4	pp512	1086.22	1328.25	1.22
RTX 4090	granitemoe 3B IQ4_XS - 4.25 bpw	2	pp512	691.04	766.25	1.11
RTX 4090	granitemoe 3B IQ4_XS - 4.25 bpw	3	pp512	899.50	1061.05	1.18
RTX 4090	granitemoe 3B IQ4_XS - 4.25 bpw	4	pp512	1054.52	1290.18	1.22
RTX 4090	granitemoe 3B Q2_K_M	2	pp512	674.20	771.26	1.14
RTX 4090	granitemoe 3B Q2_K_M	3	pp512	866.72	1016.14	1.17
RTX 4090	granitemoe 3B Q2_K_M	4	pp512	999.43	1243.24	1.24
RTX 4090	granitemoe 3B Q3_K_S	2	pp512	638.51	739.21	1.16
RTX 4090	granitemoe 3B Q3_K_S	3	pp512	811.89	963.59	1.19
RTX 4090	granitemoe 3B Q3_K_S	4	pp512	925.92	1155.31	1.25
RTX 4090	granitemoe 3B Q4_0	2	pp512	705.17	772.08	1.09
RTX 4090	granitemoe 3B Q4_0	3	pp512	921.90	1079.71	1.17
RTX 4090	granitemoe 3B Q4_0	4	pp512	1075.27	1333.70	1.24
RTX 4090	granitemoe 3B Q4_1	2	pp512	699.06	753.46	1.08
RTX 4090	granitemoe 3B Q4_1	3	pp512	928.75	1056.88	1.14
RTX 4090	granitemoe 3B Q4_1	4	pp512	1089.43	1302.25	1.20
RTX 4090	granitemoe 3B Q4_K_S	2	pp512	695.47	754.92	1.09
RTX 4090	granitemoe 3B Q4_K_S	3	pp512	914.11	1053.71	1.15
RTX 4090	granitemoe 3B Q4_K_S	4	pp512	1049.73	1276.92	1.22
RTX 4090	granitemoe 3B Q5_0	2	pp512	685.21	728.59	1.06
RTX 4090	granitemoe 3B Q5_0	3	pp512	904.29	1018.27	1.13
RTX 4090	granitemoe 3B Q5_0	4	pp512	1065.65	1264.48	1.19
RTX 4090	granitemoe 3B Q5_1	2	pp512	679.51	719.19	1.06
RTX 4090	granitemoe 3B Q5_1	3	pp512	888.91	998.99	1.12
RTX 4090	granitemoe 3B Q5_1	4	pp512	1057.09	1244.66	1.18
RTX 4090	granitemoe 3B Q5_K_S	2	pp512	673.16	719.73	1.07
RTX 4090	granitemoe 3B Q5_K_S	3	pp512	888.92	1001.64	1.13
RTX 4090	granitemoe 3B Q5_K_S	4	pp512	1034.52	1227.30	1.19
RTX 4090	granitemoe 3B Q6_K	2	pp512	643.54	686.25	1.07
RTX 4090	granitemoe 3B Q6_K	3	pp512	831.15	939.83	1.13
RTX 4090	granitemoe 3B Q6_K	4	pp512	979.91	1152.21	1.18
RTX 4090	granitemoe 3B Q8_0	2	pp512	592.25	638.92	1.08
RTX 4090	granitemoe 3B Q8_0	3	pp512	769.15	881.74	1.15
RTX 4090	granitemoe 3B Q8_0	4	pp512	898.35	1087.64	1.21
RTX 5090	gpt-oss 20B MXFP4 MoE	2	pp512	572.46	609.58	1.06
RTX 5090	gpt-oss 20B MXFP4 MoE	3	pp512	675.98	753.16	1.11
RTX 5090	gpt-oss 20B MXFP4 MoE	4	pp512	767.39	879.45	1.15
RTX 5090	granitemoe 3B IQ1_S - 1.5625 bpw	2	pp512	724.42	850.84	1.17
RTX 5090	granitemoe 3B IQ1_S - 1.5625 bpw	3	pp512	862.85	1045.32	1.21
RTX 5090	granitemoe 3B IQ1_S - 1.5625 bpw	4	pp512	1007.21	1274.14	1.27
RTX 5090	granitemoe 3B IQ2_S - 2.5 bpw	2	pp512	731.59	825.81	1.13
RTX 5090	granitemoe 3B IQ2_S - 2.5 bpw	3	pp512	859.64	1015.56	1.18
RTX 5090	granitemoe 3B IQ2_S - 2.5 bpw	4	pp512	1013.42	1229.74	1.21
RTX 5090	granitemoe 3B IQ2_XS - 2.3125 bpw	2	pp512	740.74	845.42	1.14
RTX 5090	granitemoe 3B IQ2_XS - 2.3125 bpw	3	pp512	867.99	1022.52	1.18
RTX 5090	granitemoe 3B IQ2_XS - 2.3125 bpw	4	pp512	1008.29	1242.20	1.23
RTX 5090	granitemoe 3B IQ2_XXS - 2.0625 bpw	2	pp512	751.39	855.10	1.14
RTX 5090	granitemoe 3B IQ2_XXS - 2.0625 bpw	3	pp512	877.72	1036.86	1.18
RTX 5090	granitemoe 3B IQ2_XXS - 2.0625 bpw	4	pp512	1019.52	1242.64	1.22
RTX 5090	granitemoe 3B IQ3_S - 3.4375 bpw	2	pp512	702.97	800.19	1.14
RTX 5090	granitemoe 3B IQ3_S - 3.4375 bpw	3	pp512	814.97	956.23	1.17
RTX 5090	granitemoe 3B IQ3_S - 3.4375 bpw	4	pp512	954.19	1171.16	1.23
RTX 5090	granitemoe 3B IQ3_S mix - 3.66 bpw	2	pp512	707.89	807.30	1.14
RTX 5090	granitemoe 3B IQ3_S mix - 3.66 bpw	3	pp512	819.61	959.78	1.17
RTX 5090	granitemoe 3B IQ3_S mix - 3.66 bpw	4	pp512	946.02	1180.36	1.25
RTX 5090	granitemoe 3B IQ3_XS - 3.3 bpw	2	pp512	719.92	818.77	1.14
RTX 5090	granitemoe 3B IQ3_XS - 3.3 bpw	3	pp512	840.79	986.91	1.17
RTX 5090	granitemoe 3B IQ3_XS - 3.3 bpw	4	pp512	963.53	1190.42	1.24
RTX 5090	granitemoe 3B IQ3_XXS - 3.0625 bpw	2	pp512	719.15	817.27	1.14
RTX 5090	granitemoe 3B IQ3_XXS - 3.0625 bpw	3	pp512	852.03	986.78	1.16
RTX 5090	granitemoe 3B IQ3_XXS - 3.0625 bpw	4	pp512	981.49	1197.45	1.22
RTX 5090	granitemoe 3B IQ4_NL - 4.5 bpw	2	pp512	786.68	886.80	1.13
RTX 5090	granitemoe 3B IQ4_NL - 4.5 bpw	3	pp512	918.52	1082.35	1.18
RTX 5090	granitemoe 3B IQ4_NL - 4.5 bpw	4	pp512	1083.92	1332.58	1.23
RTX 5090	granitemoe 3B IQ4_XS - 4.25 bpw	2	pp512	775.48	864.61	1.11
RTX 5090	granitemoe 3B IQ4_XS - 4.25 bpw	3	pp512	911.81	1068.39	1.17
RTX 5090	granitemoe 3B IQ4_XS - 4.25 bpw	4	pp512	1069.49	1284.31	1.20
RTX 5090	granitemoe 3B Q2_K_M	2	pp512	735.75	849.60	1.15
RTX 5090	granitemoe 3B Q2_K_M	3	pp512	875.14	1034.31	1.18
RTX 5090	granitemoe 3B Q2_K_M	4	pp512	1027.14	1257.96	1.22
RTX 5090	granitemoe 3B Q3_K_S	2	pp512	722.10	845.10	1.17
RTX 5090	granitemoe 3B Q3_K_S	3	pp512	852.45	1013.74	1.19
RTX 5090	granitemoe 3B Q3_K_S	4	pp512	984.97	1245.18	1.26
RTX 5090	granitemoe 3B Q4_0	2	pp512	788.47	884.72	1.12
RTX 5090	granitemoe 3B Q4_0	3	pp512	929.83	1082.22	1.16
RTX 5090	granitemoe 3B Q4_0	4	pp512	1098.35	1341.23	1.22
RTX 5090	granitemoe 3B Q4_1	2	pp512	767.84	868.03	1.13
RTX 5090	granitemoe 3B Q4_1	3	pp512	914.69	1080.64	1.18
RTX 5090	granitemoe 3B Q4_1	4	pp512	1074.75	1329.51	1.24
RTX 5090	granitemoe 3B Q4_K_S	2	pp512	755.59	875.15	1.16
RTX 5090	granitemoe 3B Q4_K_S	3	pp512	894.87	1065.96	1.19
RTX 5090	granitemoe 3B Q4_K_S	4	pp512	1032.32	1316.28	1.28
RTX 5090	granitemoe 3B Q5_0	2	pp512	768.67	856.67	1.11
RTX 5090	granitemoe 3B Q5_0	3	pp512	918.67	1047.66	1.14
RTX 5090	granitemoe 3B Q5_0	4	pp512	1068.94	1303.62	1.22
RTX 5090	granitemoe 3B Q5_1	2	pp512	777.47	854.26	1.10
RTX 5090	granitemoe 3B Q5_1	3	pp512	912.96	1043.24	1.14
RTX 5090	granitemoe 3B Q5_1	4	pp512	1082.32	1287.99	1.19
RTX 5090	granitemoe 3B Q5_K_S	2	pp512	764.17	841.89	1.10
RTX 5090	granitemoe 3B Q5_K_S	3	pp512	908.90	1031.37	1.13
RTX 5090	granitemoe 3B Q5_K_S	4	pp512	1055.91	1273.16	1.21
RTX 5090	granitemoe 3B Q6_K	2	pp512	737.81	808.43	1.10
RTX 5090	granitemoe 3B Q6_K	3	pp512	872.48	980.28	1.12
RTX 5090	granitemoe 3B Q6_K	4	pp512	1017.11	1208.20	1.19
RTX 5090	granitemoe 3B Q8_0	2	pp512	714.01	778.21	1.09
RTX 5090	granitemoe 3B Q8_0	3	pp512	834.84	967.87	1.16
RTX 5090	granitemoe 3B Q8_0	4	pp512	994.17	1189.33	1.20
RX 6800	gpt-oss 20B MXFP4 MoE	2	pp512	145.66	152.76	1.05
RX 6800	gpt-oss 20B MXFP4 MoE	3	pp512	182.61	191.92	1.05
RX 6800	gpt-oss 20B MXFP4 MoE	4	pp512	210.78	228.05	1.08
RX 6800	granitemoe 3B IQ1_S - 1.5625 bpw	2	pp512	192.44	216.51	1.13
RX 6800	granitemoe 3B IQ1_S - 1.5625 bpw	3	pp512	256.86	284.06	1.11
RX 6800	granitemoe 3B IQ1_S - 1.5625 bpw	4	pp512	305.30	353.92	1.16
RX 6800	granitemoe 3B IQ2_S - 2.5 bpw	2	pp512	151.80	153.07	1.01
RX 6800	granitemoe 3B IQ2_S - 2.5 bpw	3	pp512	188.50	185.49	0.98
RX 6800	granitemoe 3B IQ2_S - 2.5 bpw	4	pp512	215.38	218.19	1.01
RX 6800	granitemoe 3B IQ2_XS - 2.3125 bpw	2	pp512	155.99	156.76	1.00
RX 6800	granitemoe 3B IQ2_XS - 2.3125 bpw	3	pp512	193.72	190.57	0.98
RX 6800	granitemoe 3B IQ2_XS - 2.3125 bpw	4	pp512	220.26	222.71	1.01
RX 6800	granitemoe 3B IQ2_XXS - 2.0625 bpw	2	pp512	157.54	158.99	1.01
RX 6800	granitemoe 3B IQ2_XXS - 2.0625 bpw	3	pp512	197.32	194.76	0.99
RX 6800	granitemoe 3B IQ2_XXS - 2.0625 bpw	4	pp512	224.96	228.43	1.02
RX 6800	granitemoe 3B IQ3_S - 3.4375 bpw	2	pp512	149.47	150.37	1.01
RX 6800	granitemoe 3B IQ3_S - 3.4375 bpw	3	pp512	186.38	183.47	0.98
RX 6800	granitemoe 3B IQ3_S - 3.4375 bpw	4	pp512	213.52	216.96	1.02
RX 6800	granitemoe 3B IQ3_S mix - 3.66 bpw	2	pp512	152.53	153.59	1.01
RX 6800	granitemoe 3B IQ3_S mix - 3.66 bpw	3	pp512	188.85	186.59	0.99
RX 6800	granitemoe 3B IQ3_S mix - 3.66 bpw	4	pp512	216.65	219.96	1.02
RX 6800	granitemoe 3B IQ3_XS - 3.3 bpw	2	pp512	148.60	149.69	1.01
RX 6800	granitemoe 3B IQ3_XS - 3.3 bpw	3	pp512	185.81	182.51	0.98
RX 6800	granitemoe 3B IQ3_XS - 3.3 bpw	4	pp512	213.75	217.25	1.02
RX 6800	granitemoe 3B IQ3_XXS - 3.0625 bpw	2	pp512	149.93	152.07	1.01
RX 6800	granitemoe 3B IQ3_XXS - 3.0625 bpw	3	pp512	187.28	185.03	0.99
RX 6800	granitemoe 3B IQ3_XXS - 3.0625 bpw	4	pp512	214.33	218.91	1.02
RX 6800	granitemoe 3B IQ4_NL - 4.5 bpw	2	pp512	213.77	230.06	1.08
RX 6800	granitemoe 3B IQ4_NL - 4.5 bpw	3	pp512	295.04	306.73	1.04
RX 6800	granitemoe 3B IQ4_NL - 4.5 bpw	4	pp512	364.05	382.64	1.05
RX 6800	granitemoe 3B IQ4_XS - 4.25 bpw	2	pp512	209.92	216.44	1.03
RX 6800	granitemoe 3B IQ4_XS - 4.25 bpw	3	pp512	283.67	291.50	1.03
RX 6800	granitemoe 3B IQ4_XS - 4.25 bpw	4	pp512	342.87	354.28	1.03
RX 6800	granitemoe 3B Q2_K_M	2	pp512	180.24	190.65	1.06
RX 6800	granitemoe 3B Q2_K_M	3	pp512	227.91	242.63	1.06
RX 6800	granitemoe 3B Q2_K_M	4	pp512	263.98	290.15	1.10
RX 6800	granitemoe 3B Q3_K_S	2	pp512	166.20	181.58	1.09
RX 6800	granitemoe 3B Q3_K_S	3	pp512	202.66	221.49	1.09
RX 6800	granitemoe 3B Q3_K_S	4	pp512	234.15	264.93	1.13
RX 6800	granitemoe 3B Q4_0	2	pp512	219.47	233.62	1.06
RX 6800	granitemoe 3B Q4_0	3	pp512	299.62	315.73	1.05
RX 6800	granitemoe 3B Q4_0	4	pp512	370.67	397.69	1.07
RX 6800	granitemoe 3B Q4_1	2	pp512	216.50	230.98	1.07
RX 6800	granitemoe 3B Q4_1	3	pp512	299.46	316.09	1.06
RX 6800	granitemoe 3B Q4_1	4	pp512	370.97	401.16	1.08
RX 6800	granitemoe 3B Q4_K_S	2	pp512	183.23	190.72	1.04
RX 6800	granitemoe 3B Q4_K_S	3	pp512	240.83	250.52	1.04
RX 6800	granitemoe 3B Q4_K_S	4	pp512	286.56	302.76	1.06
RX 6800	granitemoe 3B Q5_0	2	pp512	208.86	212.73	1.02
RX 6800	granitemoe 3B Q5_0	3	pp512	281.69	288.15	1.02
RX 6800	granitemoe 3B Q5_0	4	pp512	343.24	356.73	1.04
RX 6800	granitemoe 3B Q5_1	2	pp512	208.66	213.73	1.02
RX 6800	granitemoe 3B Q5_1	3	pp512	280.78	289.46	1.03
RX 6800	granitemoe 3B Q5_1	4	pp512	341.62	356.28	1.04
RX 6800	granitemoe 3B Q5_K_S	2	pp512	180.41	187.17	1.04
RX 6800	granitemoe 3B Q5_K_S	3	pp512	235.08	244.30	1.04
RX 6800	granitemoe 3B Q5_K_S	4	pp512	276.52	289.51	1.05
RX 6800	granitemoe 3B Q6_K	2	pp512	179.55	184.83	1.03
RX 6800	granitemoe 3B Q6_K	3	pp512	232.47	235.70	1.01
RX 6800	granitemoe 3B Q6_K	4	pp512	273.84	283.29	1.03
RX 6800	granitemoe 3B Q8_0	2	pp512	194.85	204.07	1.05
RX 6800	granitemoe 3B Q8_0	3	pp512	263.33	283.02	1.07
RX 6800	granitemoe 3B Q8_0	4	pp512	322.01	352.04	1.09
RX 9060 XT	gpt-oss 20B MXFP4 MoE	2	pp512	121.22	130.03	1.07
RX 9060 XT	gpt-oss 20B MXFP4 MoE	3	pp512	165.90	187.51	1.13
RX 9060 XT	gpt-oss 20B MXFP4 MoE	4	pp512	192.26	225.37	1.17
RX 9060 XT	granitemoe 3B IQ1_S - 1.5625 bpw	2	pp512	238.87	266.58	1.12
RX 9060 XT	granitemoe 3B IQ1_S - 1.5625 bpw	3	pp512	311.02	349.62	1.12
RX 9060 XT	granitemoe 3B IQ1_S - 1.5625 bpw	4	pp512	365.42	430.81	1.18
RX 9060 XT	granitemoe 3B IQ2_S - 2.5 bpw	2	pp512	171.69	169.23	0.99
RX 9060 XT	granitemoe 3B IQ2_S - 2.5 bpw	3	pp512	219.12	211.14	0.96
RX 9060 XT	granitemoe 3B IQ2_S - 2.5 bpw	4	pp512	245.87	248.82	1.01
RX 9060 XT	granitemoe 3B IQ2_XS - 2.3125 bpw	2	pp512	175.80	184.69	1.05
RX 9060 XT	granitemoe 3B IQ2_XS - 2.3125 bpw	3	pp512	229.66	236.05	1.03
RX 9060 XT	granitemoe 3B IQ2_XS - 2.3125 bpw	4	pp512	250.41	266.71	1.07
RX 9060 XT	granitemoe 3B IQ2_XXS - 2.0625 bpw	2	pp512	178.11	186.64	1.05
RX 9060 XT	granitemoe 3B IQ2_XXS - 2.0625 bpw	3	pp512	233.68	244.07	1.04
RX 9060 XT	granitemoe 3B IQ2_XXS - 2.0625 bpw	4	pp512	243.57	260.39	1.07
RX 9060 XT	granitemoe 3B IQ3_S - 3.4375 bpw	2	pp512	191.41	194.18	1.01
RX 9060 XT	granitemoe 3B IQ3_S - 3.4375 bpw	3	pp512	234.37	235.37	1.00
RX 9060 XT	granitemoe 3B IQ3_S - 3.4375 bpw	4	pp512	272.72	278.83	1.02
RX 9060 XT	granitemoe 3B IQ3_S mix - 3.66 bpw	2	pp512	183.22	195.90	1.07
RX 9060 XT	granitemoe 3B IQ3_S mix - 3.66 bpw	3	pp512	213.93	221.59	1.04
RX 9060 XT	granitemoe 3B IQ3_S mix - 3.66 bpw	4	pp512	247.26	261.70	1.06
RX 9060 XT	granitemoe 3B IQ3_XS - 3.3 bpw	2	pp512	178.42	181.04	1.01
RX 9060 XT	granitemoe 3B IQ3_XS - 3.3 bpw	3	pp512	224.92	218.92	0.97
RX 9060 XT	granitemoe 3B IQ3_XS - 3.3 bpw	4	pp512	275.13	281.32	1.02
RX 9060 XT	granitemoe 3B IQ3_XXS - 3.0625 bpw	2	pp512	179.61	168.39	0.94
RX 9060 XT	granitemoe 3B IQ3_XXS - 3.0625 bpw	3	pp512	215.36	211.50	0.98
RX 9060 XT	granitemoe 3B IQ3_XXS - 3.0625 bpw	4	pp512	257.56	255.08	0.99
RX 9060 XT	granitemoe 3B IQ4_NL - 4.5 bpw	2	pp512	187.41	264.88	1.41
RX 9060 XT	granitemoe 3B IQ4_NL - 4.5 bpw	3	pp512	234.01	367.84	1.57
RX 9060 XT	granitemoe 3B IQ4_NL - 4.5 bpw	4	pp512	263.95	457.73	1.73
RX 9060 XT	granitemoe 3B IQ4_XS - 4.25 bpw	2	pp512	170.13	262.36	1.54
RX 9060 XT	granitemoe 3B IQ4_XS - 4.25 bpw	3	pp512	206.13	360.31	1.75
RX 9060 XT	granitemoe 3B IQ4_XS - 4.25 bpw	4	pp512	230.83	446.82	1.94
RX 9060 XT	granitemoe 3B Q2_K_M	2	pp512	211.76	258.09	1.22
RX 9060 XT	granitemoe 3B Q2_K_M	3	pp512	264.15	342.37	1.30
RX 9060 XT	granitemoe 3B Q2_K_M	4	pp512	303.37	420.11	1.38
RX 9060 XT	granitemoe 3B Q3_K_S	2	pp512	221.62	242.23	1.09
RX 9060 XT	granitemoe 3B Q3_K_S	3	pp512	280.17	313.56	1.12
RX 9060 XT	granitemoe 3B Q3_K_S	4	pp512	319.98	361.89	1.13
RX 9060 XT	granitemoe 3B Q4_0	2	pp512	189.12	264.99	1.40
RX 9060 XT	granitemoe 3B Q4_0	3	pp512	235.14	371.21	1.58
RX 9060 XT	granitemoe 3B Q4_0	4	pp512	267.76	463.32	1.73
RX 9060 XT	granitemoe 3B Q4_1	2	pp512	191.48	261.92	1.37
RX 9060 XT	granitemoe 3B Q4_1	3	pp512	237.29	368.36	1.55
RX 9060 XT	granitemoe 3B Q4_1	4	pp512	270.38	461.50	1.71
RX 9060 XT	granitemoe 3B Q4_K_S	2	pp512	146.16	250.17	1.71
RX 9060 XT	granitemoe 3B Q4_K_S	3	pp512	162.25	315.44	1.94
RX 9060 XT	granitemoe 3B Q4_K_S	4	pp512	175.42	352.70	2.01
RX 9060 XT	granitemoe 3B Q5_0	2	pp512	181.10	248.30	1.37
RX 9060 XT	granitemoe 3B Q5_0	3	pp512	221.00	337.56	1.53
RX 9060 XT	granitemoe 3B Q5_0	4	pp512	249.45	421.53	1.69
RX 9060 XT	granitemoe 3B Q5_1	2	pp512	183.80	247.74	1.35
RX 9060 XT	granitemoe 3B Q5_1	3	pp512	225.45	345.46	1.53
RX 9060 XT	granitemoe 3B Q5_1	4	pp512	254.18	430.14	1.69
RX 9060 XT	granitemoe 3B Q5_K_S	2	pp512	143.75	237.77	1.65
RX 9060 XT	granitemoe 3B Q5_K_S	3	pp512	167.01	320.73	1.92
RX 9060 XT	granitemoe 3B Q5_K_S	4	pp512	175.97	339.86	1.93
RX 9060 XT	granitemoe 3B Q6_K	2	pp512	165.39	226.86	1.37
RX 9060 XT	granitemoe 3B Q6_K	3	pp512	198.51	303.46	1.53
RX 9060 XT	granitemoe 3B Q6_K	4	pp512	220.54	365.42	1.66
RX 9060 XT	granitemoe 3B Q8_0	2	pp512	170.91	190.99	1.12
RX 9060 XT	granitemoe 3B Q8_0	3	pp512	209.26	297.98	1.42
RX 9060 XT	granitemoe 3B Q8_0	4	pp512	237.62	367.49	1.55
V100-PCIE-32GB	gpt-oss 20B MXFP4 MoE	2	pp512	242.11	266.24	1.10
V100-PCIE-32GB	gpt-oss 20B MXFP4 MoE	3	pp512	280.81	319.08	1.14
V100-PCIE-32GB	gpt-oss 20B MXFP4 MoE	4	pp512	295.80	341.79	1.16
V100-PCIE-32GB	granitemoe 3B IQ1_S - 1.5625 bpw	2	pp512	328.92	395.94	1.20
V100-PCIE-32GB	granitemoe 3B IQ1_S - 1.5625 bpw	3	pp512	416.76	536.72	1.29
V100-PCIE-32GB	granitemoe 3B IQ1_S - 1.5625 bpw	4	pp512	461.88	618.19	1.34
V100-PCIE-32GB	granitemoe 3B IQ2_S - 2.5 bpw	2	pp512	309.53	370.27	1.20
V100-PCIE-32GB	granitemoe 3B IQ2_S - 2.5 bpw	3	pp512	387.70	487.04	1.26
V100-PCIE-32GB	granitemoe 3B IQ2_S - 2.5 bpw	4	pp512	430.83	563.53	1.31
V100-PCIE-32GB	granitemoe 3B IQ2_XS - 2.3125 bpw	2	pp512	314.76	375.61	1.19
V100-PCIE-32GB	granitemoe 3B IQ2_XS - 2.3125 bpw	3	pp512	389.64	495.64	1.27
V100-PCIE-32GB	granitemoe 3B IQ2_XS - 2.3125 bpw	4	pp512	436.93	574.44	1.31
V100-PCIE-32GB	granitemoe 3B IQ2_XXS - 2.0625 bpw	2	pp512	315.69	388.15	1.23
V100-PCIE-32GB	granitemoe 3B IQ2_XXS - 2.0625 bpw	3	pp512	395.65	519.06	1.31
V100-PCIE-32GB	granitemoe 3B IQ2_XXS - 2.0625 bpw	4	pp512	440.92	594.35	1.35
V100-PCIE-32GB	granitemoe 3B IQ3_S - 3.4375 bpw	2	pp512	297.35	353.71	1.19
V100-PCIE-32GB	granitemoe 3B IQ3_S - 3.4375 bpw	3	pp512	367.59	463.50	1.26
V100-PCIE-32GB	granitemoe 3B IQ3_S - 3.4375 bpw	4	pp512	410.27	536.21	1.31
V100-PCIE-32GB	granitemoe 3B IQ3_S mix - 3.66 bpw	2	pp512	301.02	359.18	1.19
V100-PCIE-32GB	granitemoe 3B IQ3_S mix - 3.66 bpw	3	pp512	371.06	465.56	1.25
V100-PCIE-32GB	granitemoe 3B IQ3_S mix - 3.66 bpw	4	pp512	414.88	536.50	1.29
V100-PCIE-32GB	granitemoe 3B IQ3_XS - 3.3 bpw	2	pp512	301.99	359.62	1.19
V100-PCIE-32GB	granitemoe 3B IQ3_XS - 3.3 bpw	3	pp512	376.60	470.85	1.25
V100-PCIE-32GB	granitemoe 3B IQ3_XS - 3.3 bpw	4	pp512	417.03	546.30	1.31
V100-PCIE-32GB	granitemoe 3B IQ3_XXS - 3.0625 bpw	2	pp512	299.97	363.69	1.21
V100-PCIE-32GB	granitemoe 3B IQ3_XXS - 3.0625 bpw	3	pp512	375.75	480.52	1.28
V100-PCIE-32GB	granitemoe 3B IQ3_XXS - 3.0625 bpw	4	pp512	420.05	551.96	1.31
V100-PCIE-32GB	granitemoe 3B IQ4_NL - 4.5 bpw	2	pp512	340.38	424.44	1.25
V100-PCIE-32GB	granitemoe 3B IQ4_NL - 4.5 bpw	3	pp512	422.01	579.32	1.37
V100-PCIE-32GB	granitemoe 3B IQ4_NL - 4.5 bpw	4	pp512	474.14	694.16	1.46
V100-PCIE-32GB	granitemoe 3B IQ4_XS - 4.25 bpw	2	pp512	333.77	414.82	1.24
V100-PCIE-32GB	granitemoe 3B IQ4_XS - 4.25 bpw	3	pp512	415.97	560.97	1.35
V100-PCIE-32GB	granitemoe 3B IQ4_XS - 4.25 bpw	4	pp512	464.74	664.67	1.43
V100-PCIE-32GB	granitemoe 3B Q2_K_M	2	pp512	310.28	378.81	1.22
V100-PCIE-32GB	granitemoe 3B Q2_K_M	3	pp512	388.36	499.70	1.29
V100-PCIE-32GB	granitemoe 3B Q2_K_M	4	pp512	428.84	584.47	1.36
V100-PCIE-32GB	granitemoe 3B Q3_K_S	2	pp512	285.83	345.58	1.21
V100-PCIE-32GB	granitemoe 3B Q3_K_S	3	pp512	354.95	451.72	1.27
V100-PCIE-32GB	granitemoe 3B Q3_K_S	4	pp512	392.90	516.20	1.31
V100-PCIE-32GB	granitemoe 3B Q4_0	2	pp512	339.63	422.74	1.24
V100-PCIE-32GB	granitemoe 3B Q4_0	3	pp512	422.36	581.94	1.38
V100-PCIE-32GB	granitemoe 3B Q4_0	4	pp512	474.92	705.98	1.49
V100-PCIE-32GB	granitemoe 3B Q4_1	2	pp512	343.30	427.60	1.25
V100-PCIE-32GB	granitemoe 3B Q4_1	3	pp512	434.01	620.95	1.43
V100-PCIE-32GB	granitemoe 3B Q4_1	4	pp512	478.87	715.13	1.49
V100-PCIE-32GB	granitemoe 3B Q4_K_S	2	pp512	333.71	408.54	1.22
V100-PCIE-32GB	granitemoe 3B Q4_K_S	3	pp512	415.60	554.34	1.33
V100-PCIE-32GB	granitemoe 3B Q4_K_S	4	pp512	468.47	664.56	1.42
V100-PCIE-32GB	granitemoe 3B Q5_0	2	pp512	333.25	402.97	1.21
V100-PCIE-32GB	granitemoe 3B Q5_0	3	pp512	413.19	546.39	1.32
V100-PCIE-32GB	granitemoe 3B Q5_0	4	pp512	466.82	655.99	1.41
V100-PCIE-32GB	granitemoe 3B Q5_1	2	pp512	334.92	405.96	1.21
V100-PCIE-32GB	granitemoe 3B Q5_1	3	pp512	415.54	551.40	1.33
V100-PCIE-32GB	granitemoe 3B Q5_1	4	pp512	468.65	661.92	1.41
V100-PCIE-32GB	granitemoe 3B Q5_K_S	2	pp512	326.41	390.07	1.20
V100-PCIE-32GB	granitemoe 3B Q5_K_S	3	pp512	409.22	532.02	1.30
V100-PCIE-32GB	granitemoe 3B Q5_K_S	4	pp512	455.80	625.39	1.37
V100-PCIE-32GB	granitemoe 3B Q6_K	2	pp512	306.64	360.27	1.17
V100-PCIE-32GB	granitemoe 3B Q6_K	3	pp512	379.50	476.34	1.26
V100-PCIE-32GB	granitemoe 3B Q6_K	4	pp512	426.04	562.70	1.32
V100-PCIE-32GB	granitemoe 3B Q8_0	2	pp512	296.08	369.72	1.25
V100-PCIE-32GB	granitemoe 3B Q8_0	3	pp512	369.73	510.46	1.38
V100-PCIE-32GB	granitemoe 3B Q8_0	4	pp512	401.19	581.19	1.45

In my testing of this PR the performance is basically universally increasing, I don't think it makes sense to add special cases for some combinations of models and GPUs. The small-k logic for batch size 1 still needs to be adjusted however:

On NVIDIA Turing or newer disable for iq3_xxs and iq3_s.
On NVIDIA Pascal or older disable for iq3_s, q2_k, and q3_k.
For AMD RDNA disable always.
For all other GPUs disable for iq1_s, iq1_m, iq2_xxs, iq2_xs, iq2_s, iq3_xxs, iq3_s, and iq4_xs.

The previous MOE kernel for BS > 1 had too many thread blocks (nrows_x, nchannels_dst, ncols_dst), with very little work per block. block of (32, 4) was doing inner dot product for a single row. New mul_mat_vec_q_moe kernel is dedicated for MoE multi-token kernel with grid (ceil(nrows_x/rpb), nchannels_dst), block (warp_size, ncols_dst). Each warp handles two rows independently with warp-level reduction only (no shared memory sync). This change doesn't increase any compilation time as a single template instance is needed per type. This also simplifies the original GEMV kernel and gets rid of `is_multi_token_id` specialization.

…optimization only for cases where it benefits Increase max batch size for MMVQ kernels for MUL_MAT_ID to 8

gaugarg-nv · 2026-03-25T21:29:31Z

Sorry for the late follow-up on the comments. I was on vacation.

You can check till bs=8, the earlier kernel was performance wise not better after bs = 4, but this kernel might be.

I see a significant speed-up for the BS=8 case with this kernel, so I have changed the value of MMVQ_MMID_MAX_BATCH_SIZE to 8. There is a slight regression after this for BS=2 because we don't use any kernel specialization based on ncols_dst. This can be improved if we do template specialization, but I have decided not to do that for now to save compilation time and binary size. However, even for BS=2, perf is still better than the current master.

gpu_info	model_type	n_ubatch	n_prompt	Master-avg_ts	PR- avg_ts	Speed-up
NVIDIA GeForce RTX 5090	qwen3moe 30B.A3B Q4_0	8	1024	694.1185	1246.065	1.80
NVIDIA GeForce RTX 5090	qwen3moe 30B.A3B Q4_K - Medium	8	1024	637.6798	1023.245	1.60
NVIDIA GeForce RTX 5090	qwen3moe 30B.A3B Q8_0	8	1024	601.9308	887.6569	1.47
NVIDIA GeForce RTX 5090	qwen35moe 35B.A3B Q4_K - Medium	8	1024	644.805	992.0667	1.54
NVIDIA GeForce RTX 5090	gpt-oss 20B MXFP4 MoE	8	1024	1057.849	1283.629	1.21
NVIDIA GeForce RTX 5090	gpt-oss 20B Q4_K - Medium	8	1024	1071.478	1309.397	1.22

Also did you check performance for bs=1 with this new kernel?

Yes, I tried implementing a separate CUDA kernel for BS=1 based on similar ideas of doing warp-only reduction with kernel fusion enabled. But I was not able to beat performance on the master branch (and there were slight regressions for a few models).

The small-k logic for batch size 1 still needs to be adjusted

I have cherry-picked changes from @am17an 's PR #20885

gaugarg-nv · 2026-03-27T22:16:39Z

@gaugarg-nv ai usage disclosure?

Added to the PR description

JohannesGaessler · 2026-03-27T23:08:09Z

I benchmarked the performance:

Details

GPU	Model	Microbatch size	Test	t/s `a970515`	t/s `5d282ad`	Speedup
MI60 / MI50	gpt-oss 20B MXFP4 MoE	2	pp512	171.06	194.12	1.13
MI60 / MI50	gpt-oss 20B MXFP4 MoE	3	pp512	179.64	206.85	1.15
MI60 / MI50	gpt-oss 20B MXFP4 MoE	4	pp512	197.23	230.67	1.17
MI60 / MI50	gpt-oss 20B MXFP4 MoE	5	pp512	125.11	240.27	1.92
MI60 / MI50	gpt-oss 20B MXFP4 MoE	6	pp512	140.40	241.94	1.72
MI60 / MI50	gpt-oss 20B MXFP4 MoE	7	pp512	157.23	251.85	1.60
MI60 / MI50	gpt-oss 20B MXFP4 MoE	8	pp512	173.95	267.45	1.54
MI60 / MI50	granitemoe 3B IQ1_S - 1.5625 bpw	2	pp512	221.88	271.65	1.22
MI60 / MI50	granitemoe 3B IQ1_S - 1.5625 bpw	3	pp512	262.15	336.87	1.29
MI60 / MI50	granitemoe 3B IQ1_S - 1.5625 bpw	4	pp512	300.19	397.90	1.33
MI60 / MI50	granitemoe 3B IQ1_S - 1.5625 bpw	5	pp512	399.36	429.44	1.08
MI60 / MI50	granitemoe 3B IQ1_S - 1.5625 bpw	6	pp512	442.73	430.86	0.97
MI60 / MI50	granitemoe 3B IQ1_S - 1.5625 bpw	7	pp512	443.30	413.77	0.93
MI60 / MI50	granitemoe 3B IQ1_S - 1.5625 bpw	8	pp512	508.41	458.69	0.90
MI60 / MI50	granitemoe 3B IQ2_S - 2.5 bpw	2	pp512	144.94	176.92	1.22
MI60 / MI50	granitemoe 3B IQ2_S - 2.5 bpw	3	pp512	166.70	204.18	1.22
MI60 / MI50	granitemoe 3B IQ2_S - 2.5 bpw	4	pp512	182.12	230.36	1.26
MI60 / MI50	granitemoe 3B IQ2_S - 2.5 bpw	5	pp512	303.82	235.98	0.78
MI60 / MI50	granitemoe 3B IQ2_S - 2.5 bpw	6	pp512	295.47	216.91	0.73
MI60 / MI50	granitemoe 3B IQ2_S - 2.5 bpw	7	pp512	282.54	205.55	0.73
MI60 / MI50	granitemoe 3B IQ2_S - 2.5 bpw	8	pp512	320.82	224.42	0.70
MI60 / MI50	granitemoe 3B IQ2_XS - 2.3125 bpw	2	pp512	154.08	186.02	1.21
MI60 / MI50	granitemoe 3B IQ2_XS - 2.3125 bpw	3	pp512	175.61	214.97	1.22
MI60 / MI50	granitemoe 3B IQ2_XS - 2.3125 bpw	4	pp512	193.75	242.55	1.25
MI60 / MI50	granitemoe 3B IQ2_XS - 2.3125 bpw	5	pp512	311.55	249.85	0.80
MI60 / MI50	granitemoe 3B IQ2_XS - 2.3125 bpw	6	pp512	353.56	255.35	0.72
MI60 / MI50	granitemoe 3B IQ2_XS - 2.3125 bpw	7	pp512	311.18	229.18	0.74
MI60 / MI50	granitemoe 3B IQ2_XS - 2.3125 bpw	8	pp512	350.63	245.81	0.70
MI60 / MI50	granitemoe 3B IQ2_XXS - 2.0625 bpw	2	pp512	156.26	187.34	1.20
MI60 / MI50	granitemoe 3B IQ2_XXS - 2.0625 bpw	3	pp512	178.76	219.40	1.23
MI60 / MI50	granitemoe 3B IQ2_XXS - 2.0625 bpw	4	pp512	196.07	246.18	1.26
MI60 / MI50	granitemoe 3B IQ2_XXS - 2.0625 bpw	5	pp512	309.54	254.34	0.82
MI60 / MI50	granitemoe 3B IQ2_XXS - 2.0625 bpw	6	pp512	351.17	259.24	0.74
MI60 / MI50	granitemoe 3B IQ2_XXS - 2.0625 bpw	7	pp512	318.59	236.91	0.74
MI60 / MI50	granitemoe 3B IQ2_XXS - 2.0625 bpw	8	pp512	360.41	253.70	0.70
MI60 / MI50	granitemoe 3B IQ3_S - 3.4375 bpw	2	pp512	122.75	170.11	1.39
MI60 / MI50	granitemoe 3B IQ3_S - 3.4375 bpw	3	pp512	137.76	197.75	1.44
MI60 / MI50	granitemoe 3B IQ3_S - 3.4375 bpw	4	pp512	148.03	217.97	1.47
MI60 / MI50	granitemoe 3B IQ3_S - 3.4375 bpw	5	pp512	306.02	207.67	0.68
MI60 / MI50	granitemoe 3B IQ3_S - 3.4375 bpw	6	pp512	262.74	180.26	0.69
MI60 / MI50	granitemoe 3B IQ3_S - 3.4375 bpw	7	pp512	282.10	191.71	0.68
MI60 / MI50	granitemoe 3B IQ3_S - 3.4375 bpw	8	pp512	303.86	206.58	0.68
MI60 / MI50	granitemoe 3B IQ3_S mix - 3.66 bpw	2	pp512	128.71	175.82	1.37
MI60 / MI50	granitemoe 3B IQ3_S mix - 3.66 bpw	3	pp512	143.13	206.51	1.44
MI60 / MI50	granitemoe 3B IQ3_S mix - 3.66 bpw	4	pp512	154.34	227.00	1.47
MI60 / MI50	granitemoe 3B IQ3_S mix - 3.66 bpw	5	pp512	299.51	211.32	0.71
MI60 / MI50	granitemoe 3B IQ3_S mix - 3.66 bpw	6	pp512	281.32	193.54	0.69
MI60 / MI50	granitemoe 3B IQ3_S mix - 3.66 bpw	7	pp512	310.19	206.12	0.66
MI60 / MI50	granitemoe 3B IQ3_S mix - 3.66 bpw	8	pp512	342.63	227.02	0.66
MI60 / MI50	granitemoe 3B IQ3_XS - 3.3 bpw	2	pp512	126.66	169.43	1.34
MI60 / MI50	granitemoe 3B IQ3_XS - 3.3 bpw	3	pp512	142.38	196.41	1.38
MI60 / MI50	granitemoe 3B IQ3_XS - 3.3 bpw	4	pp512	154.65	220.27	1.42
MI60 / MI50	granitemoe 3B IQ3_XS - 3.3 bpw	5	pp512	295.47	215.07	0.73
MI60 / MI50	granitemoe 3B IQ3_XS - 3.3 bpw	6	pp512	229.60	173.19	0.75
MI60 / MI50	granitemoe 3B IQ3_XS - 3.3 bpw	7	pp512	251.98	183.85	0.73
MI60 / MI50	granitemoe 3B IQ3_XS - 3.3 bpw	8	pp512	279.07	199.26	0.71
MI60 / MI50	granitemoe 3B IQ3_XXS - 3.0625 bpw	2	pp512	137.62	173.00	1.26
MI60 / MI50	granitemoe 3B IQ3_XXS - 3.0625 bpw	3	pp512	155.70	200.24	1.29
MI60 / MI50	granitemoe 3B IQ3_XXS - 3.0625 bpw	4	pp512	171.47	225.85	1.32
MI60 / MI50	granitemoe 3B IQ3_XXS - 3.0625 bpw	5	pp512	294.20	234.91	0.80
MI60 / MI50	granitemoe 3B IQ3_XXS - 3.0625 bpw	6	pp512	238.80	191.62	0.80
MI60 / MI50	granitemoe 3B IQ3_XXS - 3.0625 bpw	7	pp512	259.79	197.28	0.76
MI60 / MI50	granitemoe 3B IQ3_XXS - 3.0625 bpw	8	pp512	293.33	214.73	0.73
MI60 / MI50	granitemoe 3B IQ4_NL - 4.5 bpw	2	pp512	248.09	302.52	1.22
MI60 / MI50	granitemoe 3B IQ4_NL - 4.5 bpw	3	pp512	287.29	359.91	1.25
MI60 / MI50	granitemoe 3B IQ4_NL - 4.5 bpw	4	pp512	329.98	432.20	1.31
MI60 / MI50	granitemoe 3B IQ4_NL - 4.5 bpw	5	pp512	435.00	465.26	1.07
MI60 / MI50	granitemoe 3B IQ4_NL - 4.5 bpw	6	pp512	470.45	478.12	1.02
MI60 / MI50	granitemoe 3B IQ4_NL - 4.5 bpw	7	pp512	530.90	517.56	0.97
MI60 / MI50	granitemoe 3B IQ4_NL - 4.5 bpw	8	pp512	610.05	580.08	0.95
MI60 / MI50	granitemoe 3B IQ4_XS - 4.25 bpw	2	pp512	243.19	291.05	1.20
MI60 / MI50	granitemoe 3B IQ4_XS - 4.25 bpw	3	pp512	283.38	342.82	1.21
MI60 / MI50	granitemoe 3B IQ4_XS - 4.25 bpw	4	pp512	324.59	406.14	1.25
MI60 / MI50	granitemoe 3B IQ4_XS - 4.25 bpw	5	pp512	447.40	427.21	0.95
MI60 / MI50	granitemoe 3B IQ4_XS - 4.25 bpw	6	pp512	484.95	437.13	0.90
MI60 / MI50	granitemoe 3B IQ4_XS - 4.25 bpw	7	pp512	540.85	476.13	0.88
MI60 / MI50	granitemoe 3B IQ4_XS - 4.25 bpw	8	pp512	625.39	534.33	0.85
MI60 / MI50	granitemoe 3B Q2_K_M	2	pp512	195.52	262.25	1.34
MI60 / MI50	granitemoe 3B Q2_K_M	3	pp512	226.37	304.73	1.35
MI60 / MI50	granitemoe 3B Q2_K_M	4	pp512	253.86	357.72	1.41
MI60 / MI50	granitemoe 3B Q2_K_M	5	pp512	340.84	344.45	1.01
MI60 / MI50	granitemoe 3B Q2_K_M	6	pp512	385.28	359.77	0.93
MI60 / MI50	granitemoe 3B Q2_K_M	7	pp512	364.86	337.18	0.92
MI60 / MI50	granitemoe 3B Q2_K_M	8	pp512	407.48	366.52	0.90
MI60 / MI50	granitemoe 3B Q3_K_S	2	pp512	171.72	245.37	1.43
MI60 / MI50	granitemoe 3B Q3_K_S	3	pp512	196.09	288.87	1.47
MI60 / MI50	granitemoe 3B Q3_K_S	4	pp512	215.20	329.94	1.53
MI60 / MI50	granitemoe 3B Q3_K_S	5	pp512	325.62	304.68	0.94
MI60 / MI50	granitemoe 3B Q3_K_S	6	pp512	357.64	314.10	0.88
MI60 / MI50	granitemoe 3B Q3_K_S	7	pp512	307.89	275.23	0.89
MI60 / MI50	granitemoe 3B Q3_K_S	8	pp512	338.56	299.30	0.88
MI60 / MI50	granitemoe 3B Q4_0	2	pp512	250.87	308.46	1.23
MI60 / MI50	granitemoe 3B Q4_0	3	pp512	284.43	362.61	1.27
MI60 / MI50	granitemoe 3B Q4_0	4	pp512	333.68	453.71	1.36
MI60 / MI50	granitemoe 3B Q4_0	5	pp512	479.74	504.97	1.05
MI60 / MI50	granitemoe 3B Q4_0	6	pp512	512.96	509.01	0.99
MI60 / MI50	granitemoe 3B Q4_0	7	pp512	580.44	551.40	0.95
MI60 / MI50	granitemoe 3B Q4_0	8	pp512	683.64	618.41	0.90
MI60 / MI50	granitemoe 3B Q4_1	2	pp512	249.20	312.80	1.26
MI60 / MI50	granitemoe 3B Q4_1	3	pp512	285.38	375.77	1.32
MI60 / MI50	granitemoe 3B Q4_1	4	pp512	333.56	460.80	1.38
MI60 / MI50	granitemoe 3B Q4_1	5	pp512	488.41	496.53	1.02
MI60 / MI50	granitemoe 3B Q4_1	6	pp512	523.07	509.42	0.97
MI60 / MI50	granitemoe 3B Q4_1	7	pp512	591.46	546.09	0.92
MI60 / MI50	granitemoe 3B Q4_1	8	pp512	691.82	623.40	0.90
MI60 / MI50	granitemoe 3B Q4_K_S	2	pp512	227.46	266.59	1.17
MI60 / MI50	granitemoe 3B Q4_K_S	3	pp512	263.53	319.40	1.21
MI60 / MI50	granitemoe 3B Q4_K_S	4	pp512	299.20	373.01	1.25
MI60 / MI50	granitemoe 3B Q4_K_S	5	pp512	421.38	365.22	0.87
MI60 / MI50	granitemoe 3B Q4_K_S	6	pp512	473.56	381.23	0.81
MI60 / MI50	granitemoe 3B Q4_K_S	7	pp512	524.10	408.68	0.78
MI60 / MI50	granitemoe 3B Q4_K_S	8	pp512	577.38	438.47	0.76
MI60 / MI50	granitemoe 3B Q5_0	2	pp512	239.66	283.10	1.18
MI60 / MI50	granitemoe 3B Q5_0	3	pp512	270.39	326.03	1.21
MI60 / MI50	granitemoe 3B Q5_0	4	pp512	315.87	394.84	1.25
MI60 / MI50	granitemoe 3B Q5_0	5	pp512	361.60	420.99	1.16
MI60 / MI50	granitemoe 3B Q5_0	6	pp512	390.58	424.05	1.09
MI60 / MI50	granitemoe 3B Q5_0	7	pp512	440.03	454.42	1.03
MI60 / MI50	granitemoe 3B Q5_0	8	pp512	509.29	513.04	1.01
MI60 / MI50	granitemoe 3B Q5_1	2	pp512	239.55	283.05	1.18
MI60 / MI50	granitemoe 3B Q5_1	3	pp512	275.85	332.26	1.20
MI60 / MI50	granitemoe 3B Q5_1	4	pp512	321.24	403.83	1.26
MI60 / MI50	granitemoe 3B Q5_1	5	pp512	369.43	424.48	1.15
MI60 / MI50	granitemoe 3B Q5_1	6	pp512	405.84	436.96	1.08
MI60 / MI50	granitemoe 3B Q5_1	7	pp512	456.84	469.25	1.03
MI60 / MI50	granitemoe 3B Q5_1	8	pp512	518.43	526.42	1.02
MI60 / MI50	granitemoe 3B Q5_K_S	2	pp512	223.00	249.99	1.12
MI60 / MI50	granitemoe 3B Q5_K_S	3	pp512	259.80	292.63	1.13
MI60 / MI50	granitemoe 3B Q5_K_S	4	pp512	286.42	329.60	1.15
MI60 / MI50	granitemoe 3B Q5_K_S	5	pp512	338.16	315.01	0.93
MI60 / MI50	granitemoe 3B Q5_K_S	6	pp512	371.92	323.87	0.87
MI60 / MI50	granitemoe 3B Q5_K_S	7	pp512	413.25	351.28	0.85
MI60 / MI50	granitemoe 3B Q5_K_S	8	pp512	408.26	342.04	0.84
MI60 / MI50	granitemoe 3B Q6_K	2	pp512	226.04	265.16	1.17
MI60 / MI50	granitemoe 3B Q6_K	3	pp512	264.30	316.19	1.20
MI60 / MI50	granitemoe 3B Q6_K	4	pp512	296.52	367.32	1.24
MI60 / MI50	granitemoe 3B Q6_K	5	pp512	373.90	364.32	0.97
MI60 / MI50	granitemoe 3B Q6_K	6	pp512	412.16	374.31	0.91
MI60 / MI50	granitemoe 3B Q6_K	7	pp512	460.97	405.68	0.88
MI60 / MI50	granitemoe 3B Q6_K	8	pp512	531.46	458.72	0.86
MI60 / MI50	granitemoe 3B Q8_0	2	pp512	237.78	283.28	1.19
MI60 / MI50	granitemoe 3B Q8_0	3	pp512	266.17	298.58	1.12
MI60 / MI50	granitemoe 3B Q8_0	4	pp512	314.22	390.86	1.24
MI60 / MI50	granitemoe 3B Q8_0	5	pp512	396.98	429.33	1.08
MI60 / MI50	granitemoe 3B Q8_0	6	pp512	423.30	440.03	1.04
MI60 / MI50	granitemoe 3B Q8_0	7	pp512	478.42	469.17	0.98
MI60 / MI50	granitemoe 3B Q8_0	8	pp512	549.69	513.90	0.93
MI100	gpt-oss 20B MXFP4 MoE	2	pp512	197.82	220.46	1.11
MI100	gpt-oss 20B MXFP4 MoE	3	pp512	227.61	252.54	1.11
MI100	gpt-oss 20B MXFP4 MoE	4	pp512	209.84	232.01	1.11
MI100	gpt-oss 20B MXFP4 MoE	5	pp512	196.06	250.18	1.28
MI100	gpt-oss 20B MXFP4 MoE	6	pp512	227.51	270.50	1.19
MI100	gpt-oss 20B MXFP4 MoE	7	pp512	254.02	291.51	1.15
MI100	gpt-oss 20B MXFP4 MoE	8	pp512	287.62	314.98	1.10
MI100	granitemoe 3B IQ1_S - 1.5625 bpw	2	pp512	255.65	287.41	1.12
MI100	granitemoe 3B IQ1_S - 1.5625 bpw	3	pp512	327.41	378.21	1.16
MI100	granitemoe 3B IQ1_S - 1.5625 bpw	4	pp512	243.69	272.17	1.12
MI100	granitemoe 3B IQ1_S - 1.5625 bpw	5	pp512	264.60	314.52	1.19
MI100	granitemoe 3B IQ1_S - 1.5625 bpw	6	pp512	309.73	352.17	1.14
MI100	granitemoe 3B IQ1_S - 1.5625 bpw	7	pp512	315.61	347.50	1.10
MI100	granitemoe 3B IQ1_S - 1.5625 bpw	8	pp512	352.49	373.37	1.06
MI100	granitemoe 3B IQ2_S - 2.5 bpw	2	pp512	183.68	212.26	1.16
MI100	granitemoe 3B IQ2_S - 2.5 bpw	3	pp512	222.40	260.01	1.17
MI100	granitemoe 3B IQ2_S - 2.5 bpw	4	pp512	184.28	209.51	1.14
MI100	granitemoe 3B IQ2_S - 2.5 bpw	5	pp512	225.32	230.85	1.02
MI100	granitemoe 3B IQ2_S - 2.5 bpw	6	pp512	238.70	229.31	0.96
MI100	granitemoe 3B IQ2_S - 2.5 bpw	7	pp512	242.21	222.80	0.92
MI100	granitemoe 3B IQ2_S - 2.5 bpw	8	pp512	264.73	239.61	0.91
MI100	granitemoe 3B IQ2_XS - 2.3125 bpw	2	pp512	192.60	218.97	1.14
MI100	granitemoe 3B IQ2_XS - 2.3125 bpw	3	pp512	235.54	269.86	1.15
MI100	granitemoe 3B IQ2_XS - 2.3125 bpw	4	pp512	191.39	217.67	1.14
MI100	granitemoe 3B IQ2_XS - 2.3125 bpw	5	pp512	229.17	241.22	1.05
MI100	granitemoe 3B IQ2_XS - 2.3125 bpw	6	pp512	270.03	261.47	0.97
MI100	granitemoe 3B IQ2_XS - 2.3125 bpw	7	pp512	259.46	249.49	0.96
MI100	granitemoe 3B IQ2_XS - 2.3125 bpw	8	pp512	284.08	262.80	0.93
MI100	granitemoe 3B IQ2_XXS - 2.0625 bpw	2	pp512	195.55	221.55	1.13
MI100	granitemoe 3B IQ2_XXS - 2.0625 bpw	3	pp512	240.33	276.59	1.15
MI100	granitemoe 3B IQ2_XXS - 2.0625 bpw	4	pp512	194.68	219.89	1.13
MI100	granitemoe 3B IQ2_XXS - 2.0625 bpw	5	pp512	238.02	243.19	1.02
MI100	granitemoe 3B IQ2_XXS - 2.0625 bpw	6	pp512	280.63	265.65	0.95
MI100	granitemoe 3B IQ2_XXS - 2.0625 bpw	7	pp512	272.58	253.60	0.93
MI100	granitemoe 3B IQ2_XXS - 2.0625 bpw	8	pp512	298.40	272.31	0.91
MI100	granitemoe 3B IQ3_S - 3.4375 bpw	2	pp512	164.89	205.15	1.24
MI100	granitemoe 3B IQ3_S - 3.4375 bpw	3	pp512	199.15	255.82	1.28
MI100	granitemoe 3B IQ3_S - 3.4375 bpw	4	pp512	167.07	206.57	1.24
MI100	granitemoe 3B IQ3_S - 3.4375 bpw	5	pp512	239.81	220.94	0.92
MI100	granitemoe 3B IQ3_S - 3.4375 bpw	6	pp512	233.89	209.83	0.90
MI100	granitemoe 3B IQ3_S - 3.4375 bpw	7	pp512	261.94	228.24	0.87
MI100	granitemoe 3B IQ3_S - 3.4375 bpw	8	pp512	283.72	243.87	0.86
MI100	granitemoe 3B IQ3_S mix - 3.66 bpw	2	pp512	169.55	208.95	1.23
MI100	granitemoe 3B IQ3_S mix - 3.66 bpw	3	pp512	204.22	263.60	1.29
MI100	granitemoe 3B IQ3_S mix - 3.66 bpw	4	pp512	170.17	208.44	1.22
MI100	granitemoe 3B IQ3_S mix - 3.66 bpw	5	pp512	232.63	221.25	0.95
MI100	granitemoe 3B IQ3_S mix - 3.66 bpw	6	pp512	239.17	216.12	0.90
MI100	granitemoe 3B IQ3_S mix - 3.66 bpw	7	pp512	267.43	237.18	0.89
MI100	granitemoe 3B IQ3_S mix - 3.66 bpw	8	pp512	296.72	253.72	0.86
MI100	granitemoe 3B IQ3_XS - 3.3 bpw	2	pp512	161.61	203.46	1.26
MI100	granitemoe 3B IQ3_XS - 3.3 bpw	3	pp512	197.06	253.52	1.29
MI100	granitemoe 3B IQ3_XS - 3.3 bpw	4	pp512	166.35	205.72	1.24
MI100	granitemoe 3B IQ3_XS - 3.3 bpw	5	pp512	230.43	220.69	0.96
MI100	granitemoe 3B IQ3_XS - 3.3 bpw	6	pp512	210.41	189.74	0.90
MI100	granitemoe 3B IQ3_XS - 3.3 bpw	7	pp512	234.63	206.39	0.88
MI100	granitemoe 3B IQ3_XS - 3.3 bpw	8	pp512	255.52	221.20	0.87
MI100	granitemoe 3B IQ3_XXS - 3.0625 bpw	2	pp512	162.44	205.72	1.27
MI100	granitemoe 3B IQ3_XXS - 3.0625 bpw	3	pp512	196.14	256.14	1.31
MI100	granitemoe 3B IQ3_XXS - 3.0625 bpw	4	pp512	165.75	205.33	1.24
MI100	granitemoe 3B IQ3_XXS - 3.0625 bpw	5	pp512	233.16	232.04	1.00
MI100	granitemoe 3B IQ3_XXS - 3.0625 bpw	6	pp512	205.64	192.21	0.93
MI100	granitemoe 3B IQ3_XXS - 3.0625 bpw	7	pp512	226.89	205.06	0.90
MI100	granitemoe 3B IQ3_XXS - 3.0625 bpw	8	pp512	245.21	218.09	0.89
MI100	granitemoe 3B IQ4_NL - 4.5 bpw	2	pp512	266.95	291.15	1.09
MI100	granitemoe 3B IQ4_NL - 4.5 bpw	3	pp512	345.61	386.57	1.12
MI100	granitemoe 3B IQ4_NL - 4.5 bpw	4	pp512	256.08	281.92	1.10
MI100	granitemoe 3B IQ4_NL - 4.5 bpw	5	pp512	285.06	327.30	1.15
MI100	granitemoe 3B IQ4_NL - 4.5 bpw	6	pp512	331.10	373.13	1.13
MI100	granitemoe 3B IQ4_NL - 4.5 bpw	7	pp512	379.85	413.32	1.09
MI100	granitemoe 3B IQ4_NL - 4.5 bpw	8	pp512	429.12	454.52	1.06
MI100	granitemoe 3B Q2_K_M	2	pp512	226.71	265.42	1.17
MI100	granitemoe 3B Q2_K_M	3	pp512	284.59	342.26	1.20
MI100	granitemoe 3B Q2_K_M	4	pp512	219.58	254.17	1.16
MI100	granitemoe 3B Q2_K_M	5	pp512	238.98	279.67	1.17
MI100	granitemoe 3B Q2_K_M	6	pp512	279.36	314.24	1.12
MI100	granitemoe 3B Q2_K_M	7	pp512	291.16	317.88	1.09
MI100	granitemoe 3B Q2_K_M	8	pp512	324.91	346.36	1.07
MI100	granitemoe 3B Q3_K_S	2	pp512	213.79	263.33	1.23
MI100	granitemoe 3B Q3_K_S	3	pp512	259.53	332.82	1.28
MI100	granitemoe 3B Q3_K_S	4	pp512	204.48	248.94	1.22
MI100	granitemoe 3B Q3_K_S	5	pp512	250.60	273.07	1.09
MI100	granitemoe 3B Q3_K_S	6	pp512	296.34	309.34	1.04
MI100	granitemoe 3B Q3_K_S	7	pp512	288.34	290.18	1.01
MI100	granitemoe 3B Q3_K_S	8	pp512	318.06	315.38	0.99
MI100	granitemoe 3B Q4_0	2	pp512	270.06	304.79	1.13
MI100	granitemoe 3B Q4_0	3	pp512	347.89	411.42	1.18
MI100	granitemoe 3B Q4_0	4	pp512	258.47	291.56	1.13
MI100	granitemoe 3B Q4_0	5	pp512	279.70	343.90	1.23
MI100	granitemoe 3B Q4_0	6	pp512	327.29	386.39	1.18
MI100	granitemoe 3B Q4_0	7	pp512	373.12	433.58	1.16
MI100	granitemoe 3B Q4_0	8	pp512	425.15	479.32	1.13
MI100	granitemoe 3B Q4_1	2	pp512	271.75	305.84	1.13
MI100	granitemoe 3B Q4_1	3	pp512	347.28	404.89	1.17
MI100	granitemoe 3B Q4_1	4	pp512	258.84	289.44	1.12
MI100	granitemoe 3B Q4_1	5	pp512	283.45	339.48	1.20
MI100	granitemoe 3B Q4_1	6	pp512	330.98	382.96	1.16
MI100	granitemoe 3B Q4_1	7	pp512	381.55	427.49	1.12
MI100	granitemoe 3B Q4_1	8	pp512	431.81	472.54	1.09
MI100	granitemoe 3B Q4_K_S	2	pp512	244.33	269.83	1.10
MI100	granitemoe 3B Q4_K_S	3	pp512	309.63	351.70	1.14
MI100	granitemoe 3B Q4_K_S	4	pp512	235.51	262.06	1.11
MI100	granitemoe 3B Q4_K_S	5	pp512	250.78	298.20	1.19
MI100	granitemoe 3B Q4_K_S	6	pp512	294.18	331.72	1.13
MI100	granitemoe 3B Q4_K_S	7	pp512	331.93	368.71	1.11
MI100	granitemoe 3B Q4_K_S	8	pp512	377.72	404.85	1.07
MI100	granitemoe 3B Q5_0	2	pp512	259.52	285.79	1.10
MI100	granitemoe 3B Q5_0	3	pp512	328.29	368.68	1.12
MI100	granitemoe 3B Q5_0	4	pp512	250.17	271.70	1.09
MI100	granitemoe 3B Q5_0	5	pp512	253.04	315.75	1.25
MI100	granitemoe 3B Q5_0	6	pp512	296.05	355.33	1.20
MI100	granitemoe 3B Q5_0	7	pp512	340.28	395.02	1.16
MI100	granitemoe 3B Q5_0	8	pp512	383.61	432.74	1.13
MI100	granitemoe 3B Q5_1	3	pp512	326.12	369.32	1.13
MI100	granitemoe 3B Q5_1	4	pp512	247.70	274.62	1.11
MI100	granitemoe 3B Q5_1	5	pp512	268.54	320.41	1.19
MI100	granitemoe 3B Q5_1	6	pp512	313.85	358.97	1.14
MI100	granitemoe 3B Q5_1	7	pp512	361.34	397.88	1.10
MI100	granitemoe 3B Q5_1	8	pp512	407.32	440.09	1.08
MI100	granitemoe 3B Q5_K_S	2	pp512	242.78	264.37	1.09
MI100	granitemoe 3B Q5_K_S	3	pp512	309.30	344.34	1.11
MI100	granitemoe 3B Q5_K_S	4	pp512	234.58	255.42	1.09
MI100	granitemoe 3B Q5_K_S	5	pp512	247.89	288.44	1.16
MI100	granitemoe 3B Q5_K_S	6	pp512	287.39	320.43	1.11
MI100	granitemoe 3B Q5_K_S	7	pp512	328.59	356.17	1.08
MI100	granitemoe 3B Q5_K_S	8	pp512	355.99	376.13	1.06
MI100	granitemoe 3B Q6_K	2	pp512	243.80	272.50	1.12
MI100	granitemoe 3B Q6_K	3	pp512	306.64	353.03	1.15
MI100	granitemoe 3B Q6_K	4	pp512	232.67	261.85	1.13
MI100	granitemoe 3B Q6_K	5	pp512	237.02	297.72	1.26
MI100	granitemoe 3B Q6_K	6	pp512	275.61	332.46	1.21
MI100	granitemoe 3B Q6_K	7	pp512	317.88	369.01	1.16
MI100	granitemoe 3B Q6_K	8	pp512	359.59	404.78	1.13
MI100	granitemoe 3B Q8_0	2	pp512	254.87	284.39	1.12
MI100	granitemoe 3B Q8_0	3	pp512	316.01	325.93	1.03
MI100	granitemoe 3B Q8_0	4	pp512	242.29	256.30	1.06
MI100	granitemoe 3B Q8_0	5	pp512	264.94	316.71	1.20
MI100	granitemoe 3B Q8_0	6	pp512	309.35	356.08	1.15
MI100	granitemoe 3B Q8_0	7	pp512	355.16	393.58	1.11
MI100	granitemoe 3B Q8_0	8	pp512	399.90	430.32	1.08
P40	gpt-oss 20B MXFP4 MoE	2	pp512	120.48	136.56	1.13
P40	gpt-oss 20B MXFP4 MoE	3	pp512	136.58	163.70	1.20
P40	gpt-oss 20B MXFP4 MoE	4	pp512	140.57	173.44	1.23
P40	gpt-oss 20B MXFP4 MoE	5	pp512	192.79	184.45	0.96
P40	gpt-oss 20B MXFP4 MoE	6	pp512	218.09	190.74	0.87
P40	gpt-oss 20B MXFP4 MoE	7	pp512	245.13	200.97	0.82
P40	gpt-oss 20B MXFP4 MoE	8	pp512	266.14	209.51	0.79
P40	granitemoe 3B IQ1_S - 1.5625 bpw	2	pp512	187.63	263.60	1.40
P40	granitemoe 3B IQ1_S - 1.5625 bpw	3	pp512	225.69	342.02	1.52
P40	granitemoe 3B IQ1_S - 1.5625 bpw	4	pp512	242.99	382.17	1.57
P40	granitemoe 3B IQ1_S - 1.5625 bpw	5	pp512	362.77	401.38	1.11
P40	granitemoe 3B IQ1_S - 1.5625 bpw	6	pp512	410.65	426.54	1.04
P40	granitemoe 3B IQ1_S - 1.5625 bpw	7	pp512	453.87	447.65	0.99
P40	granitemoe 3B IQ1_S - 1.5625 bpw	8	pp512	492.56	479.41	0.97
P40	granitemoe 3B IQ2_S - 2.5 bpw	2	pp512	162.52	227.51	1.40
P40	granitemoe 3B IQ2_S - 2.5 bpw	3	pp512	191.71	289.87	1.51
P40	granitemoe 3B IQ2_S - 2.5 bpw	4	pp512	205.28	325.49	1.59
P40	granitemoe 3B IQ2_S - 2.5 bpw	5	pp512	344.96	342.38	0.99
P40	granitemoe 3B IQ2_S - 2.5 bpw	6	pp512	389.91	363.50	0.93
P40	granitemoe 3B IQ2_S - 2.5 bpw	7	pp512	435.06	389.31	0.89
P40	granitemoe 3B IQ2_S - 2.5 bpw	8	pp512	478.34	395.43	0.83
P40	granitemoe 3B IQ2_XS - 2.3125 bpw	2	pp512	169.52	239.10	1.41
P40	granitemoe 3B IQ2_XS - 2.3125 bpw	3	pp512	198.86	299.98	1.51
P40	granitemoe 3B IQ2_XS - 2.3125 bpw	4	pp512	213.67	337.05	1.58
P40	granitemoe 3B IQ2_XS - 2.3125 bpw	5	pp512	352.66	354.74	1.01
P40	granitemoe 3B IQ2_XS - 2.3125 bpw	6	pp512	392.95	371.35	0.95
P40	granitemoe 3B IQ2_XS - 2.3125 bpw	7	pp512	437.72	397.77	0.91
P40	granitemoe 3B IQ2_XS - 2.3125 bpw	8	pp512	483.64	407.14	0.84
P40	granitemoe 3B IQ2_XXS - 2.0625 bpw	2	pp512	175.36	246.00	1.40
P40	granitemoe 3B IQ2_XXS - 2.0625 bpw	3	pp512	208.84	317.31	1.52
P40	granitemoe 3B IQ2_XXS - 2.0625 bpw	4	pp512	222.38	350.09	1.57
P40	granitemoe 3B IQ2_XXS - 2.0625 bpw	5	pp512	350.71	368.94	1.05
P40	granitemoe 3B IQ2_XXS - 2.0625 bpw	6	pp512	397.00	394.62	0.99
P40	granitemoe 3B IQ2_XXS - 2.0625 bpw	7	pp512	441.45	411.01	0.93
P40	granitemoe 3B IQ2_XXS - 2.0625 bpw	8	pp512	483.46	438.02	0.91
P40	granitemoe 3B IQ3_S - 3.4375 bpw	2	pp512	153.77	213.13	1.39
P40	granitemoe 3B IQ3_S - 3.4375 bpw	3	pp512	179.39	265.91	1.48
P40	granitemoe 3B IQ3_S - 3.4375 bpw	4	pp512	192.64	295.44	1.53
P40	granitemoe 3B IQ3_S - 3.4375 bpw	5	pp512	342.46	302.95	0.88
P40	granitemoe 3B IQ3_S - 3.4375 bpw	6	pp512	390.04	327.46	0.84
P40	granitemoe 3B IQ3_S - 3.4375 bpw	7	pp512	441.18	341.93	0.78
P40	granitemoe 3B IQ3_S - 3.4375 bpw	8	pp512	479.89	356.16	0.74
P40	granitemoe 3B IQ3_S mix - 3.66 bpw	2	pp512	156.95	215.43	1.37
P40	granitemoe 3B IQ3_S mix - 3.66 bpw	3	pp512	182.85	265.76	1.45
P40	granitemoe 3B IQ3_S mix - 3.66 bpw	4	pp512	194.82	295.64	1.52
P40	granitemoe 3B IQ3_S mix - 3.66 bpw	5	pp512	340.21	301.61	0.89
P40	granitemoe 3B IQ3_S mix - 3.66 bpw	6	pp512	383.96	325.22	0.85
P40	granitemoe 3B IQ3_S mix - 3.66 bpw	7	pp512	428.36	336.77	0.79
P40	granitemoe 3B IQ3_S mix - 3.66 bpw	8	pp512	468.96	351.82	0.75
P40	granitemoe 3B IQ3_XS - 3.3 bpw	2	pp512	153.85	211.61	1.38
P40	granitemoe 3B IQ3_XS - 3.3 bpw	3	pp512	182.90	268.13	1.47
P40	granitemoe 3B IQ3_XS - 3.3 bpw	4	pp512	195.61	297.49	1.52
P40	granitemoe 3B IQ3_XS - 3.3 bpw	5	pp512	341.76	311.71	0.91
P40	granitemoe 3B IQ3_XS - 3.3 bpw	6	pp512	389.60	337.13	0.87
P40	granitemoe 3B IQ3_XS - 3.3 bpw	7	pp512	438.25	353.70	0.81
P40	granitemoe 3B IQ3_XS - 3.3 bpw	8	pp512	478.09	367.85	0.77
P40	granitemoe 3B IQ3_XXS - 3.0625 bpw	2	pp512	161.34	216.86	1.34
P40	granitemoe 3B IQ3_XXS - 3.0625 bpw	3	pp512	191.05	276.75	1.45
P40	granitemoe 3B IQ3_XXS - 3.0625 bpw	4	pp512	205.69	305.68	1.49
P40	granitemoe 3B IQ3_XXS - 3.0625 bpw	5	pp512	348.71	325.56	0.93
P40	granitemoe 3B IQ3_XXS - 3.0625 bpw	6	pp512	396.86	345.71	0.87
P40	granitemoe 3B IQ3_XXS - 3.0625 bpw	7	pp512	445.77	370.27	0.83
P40	granitemoe 3B IQ3_XXS - 3.0625 bpw	8	pp512	489.32	379.51	0.78
P40	granitemoe 3B IQ4_NL - 4.5 bpw	2	pp512	221.77	283.44	1.28
P40	granitemoe 3B IQ4_NL - 4.5 bpw	3	pp512	273.05	380.66	1.39
P40	granitemoe 3B IQ4_NL - 4.5 bpw	4	pp512	290.15	420.28	1.45
P40	granitemoe 3B IQ4_NL - 4.5 bpw	5	pp512	400.07	445.65	1.11
P40	granitemoe 3B IQ4_NL - 4.5 bpw	6	pp512	458.20	480.87	1.05
P40	granitemoe 3B IQ4_NL - 4.5 bpw	7	pp512	515.72	514.09	1.00
P40	granitemoe 3B IQ4_NL - 4.5 bpw	8	pp512	562.77	546.05	0.97
P40	granitemoe 3B IQ4_XS - 4.25 bpw	2	pp512	183.66	262.97	1.43
P40	granitemoe 3B IQ4_XS - 4.25 bpw	3	pp512	218.70	346.04	1.58
P40	granitemoe 3B IQ4_XS - 4.25 bpw	4	pp512	229.60	381.95	1.66
P40	granitemoe 3B IQ4_XS - 4.25 bpw	5	pp512	388.15	402.69	1.04
P40	granitemoe 3B IQ4_XS - 4.25 bpw	6	pp512	436.87	428.63	0.98
P40	granitemoe 3B IQ4_XS - 4.25 bpw	7	pp512	487.12	453.63	0.93
P40	granitemoe 3B IQ4_XS - 4.25 bpw	8	pp512	544.44	488.43	0.90
P40	granitemoe 3B Q2_K_M	2	pp512	152.67	230.98	1.51
P40	granitemoe 3B Q2_K_M	3	pp512	178.46	293.96	1.65
P40	granitemoe 3B Q2_K_M	4	pp512	188.85	325.61	1.72
P40	granitemoe 3B Q2_K_M	5	pp512	336.05	338.29	1.01
P40	granitemoe 3B Q2_K_M	6	pp512	379.66	344.53	0.91
P40	granitemoe 3B Q2_K_M	7	pp512	419.31	368.83	0.88
P40	granitemoe 3B Q2_K_M	8	pp512	451.30	386.70	0.86
P40	granitemoe 3B Q3_K_S	2	pp512	134.89	210.10	1.56
P40	granitemoe 3B Q3_K_S	3	pp512	154.50	260.63	1.69
P40	granitemoe 3B Q3_K_S	4	pp512	164.64	290.89	1.77
P40	granitemoe 3B Q3_K_S	5	pp512	344.27	297.36	0.86
P40	granitemoe 3B Q3_K_S	6	pp512	392.86	285.66	0.73
P40	granitemoe 3B Q3_K_S	7	pp512	433.30	312.19	0.72
P40	granitemoe 3B Q3_K_S	8	pp512	465.56	330.71	0.71
P40	granitemoe 3B Q4_0	2	pp512	199.25	286.99	1.44
P40	granitemoe 3B Q4_0	3	pp512	239.52	390.44	1.63
P40	granitemoe 3B Q4_0	4	pp512	252.65	432.86	1.71
P40	granitemoe 3B Q4_0	5	pp512	427.27	454.83	1.06
P40	granitemoe 3B Q4_0	6	pp512	487.81	501.16	1.03
P40	granitemoe 3B Q4_0	7	pp512	553.75	536.24	0.97
P40	granitemoe 3B Q4_0	8	pp512	602.77	563.12	0.93
P40	granitemoe 3B Q4_1	2	pp512	210.57	286.56	1.36
P40	granitemoe 3B Q4_1	3	pp512	255.27	387.39	1.52
P40	granitemoe 3B Q4_1	4	pp512	265.55	420.66	1.58
P40	granitemoe 3B Q4_1	5	pp512	434.18	451.37	1.04
P40	granitemoe 3B Q4_1	6	pp512	494.53	494.34	1.00
P40	granitemoe 3B Q4_1	7	pp512	564.34	531.46	0.94
P40	granitemoe 3B Q4_1	8	pp512	622.82	558.72	0.90
P40	granitemoe 3B Q4_K_S	2	pp512	196.43	269.62	1.37
P40	granitemoe 3B Q4_K_S	3	pp512	233.21	347.86	1.49
P40	granitemoe 3B Q4_K_S	4	pp512	248.19	387.79	1.56
P40	granitemoe 3B Q4_K_S	5	pp512	393.09	400.32	1.02
P40	granitemoe 3B Q4_K_S	6	pp512	441.86	426.37	0.96
P40	granitemoe 3B Q4_K_S	7	pp512	489.51	453.34	0.93
P40	granitemoe 3B Q4_K_S	8	pp512	533.29	473.99	0.89
P40	granitemoe 3B Q5_0	2	pp512	199.57	264.21	1.32
P40	granitemoe 3B Q5_0	3	pp512	240.50	349.10	1.45
P40	granitemoe 3B Q5_0	4	pp512	251.76	385.53	1.53
P40	granitemoe 3B Q5_0	5	pp512	363.35	407.30	1.12
P40	granitemoe 3B Q5_0	6	pp512	415.98	437.05	1.05
P40	granitemoe 3B Q5_0	7	pp512	464.39	459.94	0.99
P40	granitemoe 3B Q5_0	8	pp512	513.21	487.36	0.95
P40	granitemoe 3B Q5_1	2	pp512	198.99	260.49	1.31
P40	granitemoe 3B Q5_1	3	pp512	239.46	343.48	1.43
P40	granitemoe 3B Q5_1	4	pp512	251.85	380.47	1.51
P40	granitemoe 3B Q5_1	5	pp512	364.54	405.49	1.11
P40	granitemoe 3B Q5_1	6	pp512	414.51	431.04	1.04
P40	granitemoe 3B Q5_1	7	pp512	472.60	459.10	0.97
P40	granitemoe 3B Q5_1	8	pp512	521.99	484.77	0.93
P40	granitemoe 3B Q5_K_S	2	pp512	190.58	252.22	1.32
P40	granitemoe 3B Q5_K_S	3	pp512	225.18	321.65	1.43
P40	granitemoe 3B Q5_K_S	4	pp512	235.04	348.99	1.48
P40	granitemoe 3B Q5_K_S	5	pp512	354.16	366.76	1.04
P40	granitemoe 3B Q5_K_S	6	pp512	395.89	390.21	0.99
P40	granitemoe 3B Q5_K_S	7	pp512	438.75	407.72	0.93
P40	granitemoe 3B Q5_K_S	8	pp512	482.45	422.85	0.88
P40	granitemoe 3B Q6_K	2	pp512	161.96	221.80	1.37
P40	granitemoe 3B Q6_K	3	pp512	187.36	280.30	1.50
P40	granitemoe 3B Q6_K	4	pp512	197.77	305.84	1.55
P40	granitemoe 3B Q6_K	5	pp512	352.15	316.94	0.90
P40	granitemoe 3B Q6_K	6	pp512	398.51	331.73	0.83
P40	granitemoe 3B Q6_K	7	pp512	449.50	345.26	0.77
P40	granitemoe 3B Q6_K	8	pp512	493.43	358.41	0.73
P40	granitemoe 3B Q8_0	2	pp512	162.97	224.96	1.38
P40	granitemoe 3B Q8_0	3	pp512	190.77	291.23	1.53
P40	granitemoe 3B Q8_0	4	pp512	197.75	313.48	1.59
P40	granitemoe 3B Q8_0	5	pp512	354.23	331.16	0.93
P40	granitemoe 3B Q8_0	6	pp512	398.14	347.73	0.87
P40	granitemoe 3B Q8_0	7	pp512	451.71	371.36	0.82
P40	granitemoe 3B Q8_0	8	pp512	499.65	393.49	0.79
Radeon 8060S Graphics	gpt-oss 20B MXFP4 MoE	2	pp512	98.47	104.88	1.07
Radeon 8060S Graphics	gpt-oss 20B MXFP4 MoE	3	pp512	131.52	138.33	1.05
Radeon 8060S Graphics	gpt-oss 20B MXFP4 MoE	4	pp512	152.87	171.74	1.12
Radeon 8060S Graphics	gpt-oss 20B MXFP4 MoE	5	pp512	162.97	183.01	1.12
Radeon 8060S Graphics	gpt-oss 20B MXFP4 MoE	6	pp512	188.87	201.56	1.07
Radeon 8060S Graphics	gpt-oss 20B MXFP4 MoE	7	pp512	212.93	219.06	1.03
Radeon 8060S Graphics	gpt-oss 20B MXFP4 MoE	8	pp512	233.86	235.27	1.01
Radeon 8060S Graphics	granitemoe 3B IQ1_S - 1.5625 bpw	2	pp512	200.05	206.16	1.03
Radeon 8060S Graphics	granitemoe 3B IQ1_S - 1.5625 bpw	3	pp512	265.98	279.51	1.05
Radeon 8060S Graphics	granitemoe 3B IQ1_S - 1.5625 bpw	4	pp512	321.41	340.45	1.06
Radeon 8060S Graphics	granitemoe 3B IQ1_S - 1.5625 bpw	5	pp512	351.48	372.63	1.06
Radeon 8060S Graphics	granitemoe 3B IQ1_S - 1.5625 bpw	6	pp512	408.32	421.89	1.03
Radeon 8060S Graphics	granitemoe 3B IQ1_S - 1.5625 bpw	7	pp512	461.58	451.49	0.98
Radeon 8060S Graphics	granitemoe 3B IQ1_S - 1.5625 bpw	8	pp512	510.03	488.66	0.96
Radeon 8060S Graphics	granitemoe 3B IQ2_S - 2.5 bpw	2	pp512	154.02	155.16	1.01
Radeon 8060S Graphics	granitemoe 3B IQ2_S - 2.5 bpw	3	pp512	193.25	196.03	1.01
Radeon 8060S Graphics	granitemoe 3B IQ2_S - 2.5 bpw	4	pp512	217.80	223.48	1.03
Radeon 8060S Graphics	granitemoe 3B IQ2_S - 2.5 bpw	5	pp512	278.46	232.82	0.84
Radeon 8060S Graphics	granitemoe 3B IQ2_S - 2.5 bpw	6	pp512	321.45	247.60	0.77
Radeon 8060S Graphics	granitemoe 3B IQ2_S - 2.5 bpw	7	pp512	364.64	262.00	0.72
Radeon 8060S Graphics	granitemoe 3B IQ2_S - 2.5 bpw	8	pp512	404.97	274.56	0.68
Radeon 8060S Graphics	granitemoe 3B IQ2_XS - 2.3125 bpw	2	pp512	158.06	157.93	1.00
Radeon 8060S Graphics	granitemoe 3B IQ2_XS - 2.3125 bpw	3	pp512	198.04	201.60	1.02
Radeon 8060S Graphics	granitemoe 3B IQ2_XS - 2.3125 bpw	4	pp512	224.28	229.93	1.03
Radeon 8060S Graphics	granitemoe 3B IQ2_XS - 2.3125 bpw	5	pp512	276.20	239.74	0.87
Radeon 8060S Graphics	granitemoe 3B IQ2_XS - 2.3125 bpw	6	pp512	318.92	254.70	0.80
Radeon 8060S Graphics	granitemoe 3B IQ2_XS - 2.3125 bpw	7	pp512	359.68	268.12	0.75
Radeon 8060S Graphics	granitemoe 3B IQ2_XS - 2.3125 bpw	8	pp512	399.67	282.79	0.71
Radeon 8060S Graphics	granitemoe 3B IQ2_XXS - 2.0625 bpw	2	pp512	159.02	159.03	1.00
Radeon 8060S Graphics	granitemoe 3B IQ2_XXS - 2.0625 bpw	3	pp512	199.73	202.39	1.01
Radeon 8060S Graphics	granitemoe 3B IQ2_XXS - 2.0625 bpw	4	pp512	226.70	231.78	1.02
Radeon 8060S Graphics	granitemoe 3B IQ2_XXS - 2.0625 bpw	5	pp512	314.19	241.53	0.77
Radeon 8060S Graphics	granitemoe 3B IQ2_XXS - 2.0625 bpw	6	pp512	357.80	258.05	0.72
Radeon 8060S Graphics	granitemoe 3B IQ2_XXS - 2.0625 bpw	7	pp512	411.63	272.17	0.66
Radeon 8060S Graphics	granitemoe 3B IQ2_XXS - 2.0625 bpw	8	pp512	451.48	286.94	0.64
Radeon 8060S Graphics	granitemoe 3B IQ3_S - 3.4375 bpw	2	pp512	153.17	145.76	0.95
Radeon 8060S Graphics	granitemoe 3B IQ3_S - 3.4375 bpw	3	pp512	189.91	186.03	0.98
Radeon 8060S Graphics	granitemoe 3B IQ3_S - 3.4375 bpw	4	pp512	213.24	212.27	1.00
Radeon 8060S Graphics	granitemoe 3B IQ3_S - 3.4375 bpw	5	pp512	291.16	225.44	0.77
Radeon 8060S Graphics	granitemoe 3B IQ3_S - 3.4375 bpw	6	pp512	335.81	237.71	0.71
Radeon 8060S Graphics	granitemoe 3B IQ3_S - 3.4375 bpw	7	pp512	382.04	252.12	0.66
Radeon 8060S Graphics	granitemoe 3B IQ3_S - 3.4375 bpw	8	pp512	426.97	263.60	0.62
Radeon 8060S Graphics	granitemoe 3B IQ3_S mix - 3.66 bpw	2	pp512	153.50	148.28	0.97
Radeon 8060S Graphics	granitemoe 3B IQ3_S mix - 3.66 bpw	3	pp512	190.77	188.47	0.99
Radeon 8060S Graphics	granitemoe 3B IQ3_S mix - 3.66 bpw	4	pp512	215.28	214.84	1.00
Radeon 8060S Graphics	granitemoe 3B IQ3_S mix - 3.66 bpw	5	pp512	287.73	228.35	0.79
Radeon 8060S Graphics	granitemoe 3B IQ3_S mix - 3.66 bpw	6	pp512	329.69	240.81	0.73
Radeon 8060S Graphics	granitemoe 3B IQ3_S mix - 3.66 bpw	7	pp512	373.77	254.36	0.68
Radeon 8060S Graphics	granitemoe 3B IQ3_S mix - 3.66 bpw	8	pp512	417.76	265.23	0.63
Radeon 8060S Graphics	granitemoe 3B IQ3_XS - 3.3 bpw	2	pp512	151.40	148.58	0.98
Radeon 8060S Graphics	granitemoe 3B IQ3_XS - 3.3 bpw	3	pp512	190.09	188.22	0.99
Radeon 8060S Graphics	granitemoe 3B IQ3_XS - 3.3 bpw	4	pp512	214.65	215.70	1.00
Radeon 8060S Graphics	granitemoe 3B IQ3_XS - 3.3 bpw	5	pp512	297.22	228.57	0.77
Radeon 8060S Graphics	granitemoe 3B IQ3_XS - 3.3 bpw	6	pp512	341.86	242.26	0.71
Radeon 8060S Graphics	granitemoe 3B IQ3_XS - 3.3 bpw	7	pp512	387.69	255.39	0.66
Radeon 8060S Graphics	granitemoe 3B IQ3_XS - 3.3 bpw	8	pp512	436.75	268.60	0.61
Radeon 8060S Graphics	granitemoe 3B IQ3_XXS - 3.0625 bpw	2	pp512	152.08	151.79	1.00
Radeon 8060S Graphics	granitemoe 3B IQ3_XXS - 3.0625 bpw	3	pp512	190.62	191.55	1.00
Radeon 8060S Graphics	granitemoe 3B IQ3_XXS - 3.0625 bpw	4	pp512	216.33	218.67	1.01
Radeon 8060S Graphics	granitemoe 3B IQ3_XXS - 3.0625 bpw	5	pp512	307.43	232.65	0.76
Radeon 8060S Graphics	granitemoe 3B IQ3_XXS - 3.0625 bpw	6	pp512	351.61	245.75	0.70
Radeon 8060S Graphics	granitemoe 3B IQ3_XXS - 3.0625 bpw	7	pp512	397.26	259.27	0.65
Radeon 8060S Graphics	granitemoe 3B IQ3_XXS - 3.0625 bpw	8	pp512	448.37	273.64	0.61
Radeon 8060S Graphics	granitemoe 3B IQ4_NL - 4.5 bpw	2	pp512	184.73	192.16	1.04
Radeon 8060S Graphics	granitemoe 3B IQ4_NL - 4.5 bpw	3	pp512	248.78	266.83	1.07
Radeon 8060S Graphics	granitemoe 3B IQ4_NL - 4.5 bpw	4	pp512	302.15	334.39	1.11
Radeon 8060S Graphics	granitemoe 3B IQ4_NL - 4.5 bpw	5	pp512	349.96	373.35	1.07
Radeon 8060S Graphics	granitemoe 3B IQ4_NL - 4.5 bpw	6	pp512	409.52	414.80	1.01
Radeon 8060S Graphics	granitemoe 3B IQ4_NL - 4.5 bpw	7	pp512	459.85	453.95	0.99
Radeon 8060S Graphics	granitemoe 3B IQ4_NL - 4.5 bpw	8	pp512	512.09	493.77	0.96
Radeon 8060S Graphics	granitemoe 3B IQ4_XS - 4.25 bpw	2	pp512	184.69	193.31	1.05
Radeon 8060S Graphics	granitemoe 3B IQ4_XS - 4.25 bpw	3	pp512	248.51	266.09	1.07
Radeon 8060S Graphics	granitemoe 3B IQ4_XS - 4.25 bpw	4	pp512	300.65	332.24	1.11
Radeon 8060S Graphics	granitemoe 3B IQ4_XS - 4.25 bpw	5	pp512	348.94	365.35	1.05
Radeon 8060S Graphics	granitemoe 3B IQ4_XS - 4.25 bpw	6	pp512	404.12	405.01	1.00
Radeon 8060S Graphics	granitemoe 3B IQ4_XS - 4.25 bpw	7	pp512	453.54	439.28	0.97
Radeon 8060S Graphics	granitemoe 3B IQ4_XS - 4.25 bpw	8	pp512	504.91	473.28	0.94
Radeon 8060S Graphics	granitemoe 3B Q2_K_M	2	pp512	188.90	196.46	1.04
Radeon 8060S Graphics	granitemoe 3B Q2_K_M	3	pp512	251.66	263.28	1.05
Radeon 8060S Graphics	granitemoe 3B Q2_K_M	4	pp512	295.30	316.71	1.07
Radeon 8060S Graphics	granitemoe 3B Q2_K_M	5	pp512	238.47	332.74	1.40
Radeon 8060S Graphics	granitemoe 3B Q2_K_M	6	pp512	273.21	369.50	1.35
Radeon 8060S Graphics	granitemoe 3B Q2_K_M	7	pp512	298.63	387.90	1.30
Radeon 8060S Graphics	granitemoe 3B Q2_K_M	8	pp512	330.12	410.06	1.24
Radeon 8060S Graphics	granitemoe 3B Q3_K_S	2	pp512	180.77	188.01	1.04
Radeon 8060S Graphics	granitemoe 3B Q3_K_S	3	pp512	235.33	249.88	1.06
Radeon 8060S Graphics	granitemoe 3B Q3_K_S	4	pp512	273.12	295.45	1.08
Radeon 8060S Graphics	granitemoe 3B Q3_K_S	5	pp512	276.55	308.55	1.12
Radeon 8060S Graphics	granitemoe 3B Q3_K_S	6	pp512	318.14	338.86	1.07
Radeon 8060S Graphics	granitemoe 3B Q3_K_S	7	pp512	345.67	351.47	1.02
Radeon 8060S Graphics	granitemoe 3B Q3_K_S	8	pp512	386.11	372.63	0.97
Radeon 8060S Graphics	granitemoe 3B Q4_0	2	pp512	183.37	194.52	1.06
Radeon 8060S Graphics	granitemoe 3B Q4_0	3	pp512	247.87	271.57	1.10
Radeon 8060S Graphics	granitemoe 3B Q4_0	4	pp512	302.18	342.27	1.13
Radeon 8060S Graphics	granitemoe 3B Q4_0	5	pp512	334.80	377.47	1.13
Radeon 8060S Graphics	granitemoe 3B Q4_0	6	pp512	388.46	423.98	1.09
Radeon 8060S Graphics	granitemoe 3B Q4_0	7	pp512	438.36	468.36	1.07
Radeon 8060S Graphics	granitemoe 3B Q4_0	8	pp512	496.46	510.51	1.03
Radeon 8060S Graphics	granitemoe 3B Q4_1	2	pp512	180.26	188.73	1.05
Radeon 8060S Graphics	granitemoe 3B Q4_1	3	pp512	243.67	264.67	1.09
Radeon 8060S Graphics	granitemoe 3B Q4_1	4	pp512	292.52	328.63	1.12
Radeon 8060S Graphics	granitemoe 3B Q4_1	5	pp512	341.25	365.10	1.07
Radeon 8060S Graphics	granitemoe 3B Q4_1	6	pp512	394.91	414.31	1.05
Radeon 8060S Graphics	granitemoe 3B Q4_1	7	pp512	447.94	459.98	1.03
Radeon 8060S Graphics	granitemoe 3B Q4_1	8	pp512	501.95	497.08	0.99
Radeon 8060S Graphics	granitemoe 3B Q4_K_S	2	pp512	167.77	172.41	1.03
Radeon 8060S Graphics	granitemoe 3B Q4_K_S	3	pp512	220.64	227.12	1.03
Radeon 8060S Graphics	granitemoe 3B Q4_K_S	4	pp512	261.21	274.07	1.05
Radeon 8060S Graphics	granitemoe 3B Q4_K_S	5	pp512	312.48	295.62	0.95
Radeon 8060S Graphics	granitemoe 3B Q4_K_S	6	pp512	358.45	322.47	0.90
Radeon 8060S Graphics	granitemoe 3B Q4_K_S	7	pp512	403.13	347.85	0.86
Radeon 8060S Graphics	granitemoe 3B Q4_K_S	8	pp512	448.24	371.43	0.83
Radeon 8060S Graphics	granitemoe 3B Q5_0	2	pp512	175.68	179.23	1.02
Radeon 8060S Graphics	granitemoe 3B Q5_0	3	pp512	233.22	248.22	1.06
Radeon 8060S Graphics	granitemoe 3B Q5_0	4	pp512	278.52	307.37	1.10
Radeon 8060S Graphics	granitemoe 3B Q5_0	5	pp512	303.62	338.95	1.12
Radeon 8060S Graphics	granitemoe 3B Q5_0	6	pp512	352.04	379.33	1.08
Radeon 8060S Graphics	granitemoe 3B Q5_0	7	pp512	394.25	418.83	1.06
Radeon 8060S Graphics	granitemoe 3B Q5_0	8	pp512	441.93	452.67	1.02
Radeon 8060S Graphics	granitemoe 3B Q5_1	2	pp512	171.01	177.20	1.04
Radeon 8060S Graphics	granitemoe 3B Q5_1	3	pp512	224.94	244.70	1.09
Radeon 8060S Graphics	granitemoe 3B Q5_1	4	pp512	270.69	302.99	1.12
Radeon 8060S Graphics	granitemoe 3B Q5_1	5	pp512	311.65	333.82	1.07
Radeon 8060S Graphics	granitemoe 3B Q5_1	6	pp512	360.33	377.51	1.05
Radeon 8060S Graphics	granitemoe 3B Q5_1	7	pp512	409.72	417.90	1.02
Radeon 8060S Graphics	granitemoe 3B Q5_1	8	pp512	461.68	454.66	0.98
Radeon 8060S Graphics	granitemoe 3B Q5_K_S	2	pp512	160.22	165.22	1.03
Radeon 8060S Graphics	granitemoe 3B Q5_K_S	3	pp512	210.00	217.62	1.04
Radeon 8060S Graphics	granitemoe 3B Q5_K_S	4	pp512	242.97	259.00	1.07
Radeon 8060S Graphics	granitemoe 3B Q5_K_S	5	pp512	303.53	279.50	0.92
Radeon 8060S Graphics	granitemoe 3B Q5_K_S	6	pp512	347.10	304.65	0.88
Radeon 8060S Graphics	granitemoe 3B Q5_K_S	7	pp512	393.47	328.06	0.83
Radeon 8060S Graphics	granitemoe 3B Q5_K_S	8	pp512	436.40	350.31	0.80
Radeon 8060S Graphics	granitemoe 3B Q6_K	2	pp512	153.35	162.54	1.06
Radeon 8060S Graphics	granitemoe 3B Q6_K	3	pp512	198.20	218.56	1.10
Radeon 8060S Graphics	granitemoe 3B Q6_K	4	pp512	231.88	260.11	1.12
Radeon 8060S Graphics	granitemoe 3B Q6_K	5	pp512	278.02	280.09	1.01
Radeon 8060S Graphics	granitemoe 3B Q6_K	6	pp512	318.98	306.36	0.96
Radeon 8060S Graphics	granitemoe 3B Q6_K	7	pp512	361.25	329.03	0.91
Radeon 8060S Graphics	granitemoe 3B Q6_K	8	pp512	406.35	353.27	0.87
Radeon 8060S Graphics	granitemoe 3B Q8_0	2	pp512	143.36	150.17	1.05
Radeon 8060S Graphics	granitemoe 3B Q8_0	3	pp512	188.64	204.00	1.08
Radeon 8060S Graphics	granitemoe 3B Q8_0	4	pp512	227.33	250.43	1.10
Radeon 8060S Graphics	granitemoe 3B Q8_0	5	pp512	271.16	280.34	1.03
Radeon 8060S Graphics	granitemoe 3B Q8_0	6	pp512	312.95	332.41	1.06
Radeon 8060S Graphics	granitemoe 3B Q8_0	7	pp512	357.02	381.01	1.07
Radeon 8060S Graphics	granitemoe 3B Q8_0	8	pp512	399.02	418.22	1.05
RTX 3090	gpt-oss 20B MXFP4 MoE	2	pp512	317.23	351.48	1.11
RTX 3090	gpt-oss 20B MXFP4 MoE	3	pp512	361.19	423.92	1.17
RTX 3090	gpt-oss 20B MXFP4 MoE	4	pp512	378.63	457.35	1.21
RTX 3090	gpt-oss 20B MXFP4 MoE	5	pp512	388.98	482.20	1.24
RTX 3090	gpt-oss 20B MXFP4 MoE	6	pp512	443.97	496.88	1.12
RTX 3090	gpt-oss 20B MXFP4 MoE	7	pp512	505.16	517.25	1.02
RTX 3090	gpt-oss 20B MXFP4 MoE	8	pp512	549.63	525.76	0.96
RTX 3090	granitemoe 3B IQ1_S - 1.5625 bpw	2	pp512	507.78	611.71	1.20
RTX 3090	granitemoe 3B IQ1_S - 1.5625 bpw	3	pp512	620.48	811.52	1.31
RTX 3090	granitemoe 3B IQ1_S - 1.5625 bpw	4	pp512	681.61	927.32	1.36
RTX 3090	granitemoe 3B IQ1_S - 1.5625 bpw	5	pp512	744.42	1033.73	1.39
RTX 3090	granitemoe 3B IQ1_S - 1.5625 bpw	6	pp512	874.26	1145.64	1.31
RTX 3090	granitemoe 3B IQ1_S - 1.5625 bpw	7	pp512	989.49	1199.94	1.21
RTX 3090	granitemoe 3B IQ1_S - 1.5625 bpw	8	pp512	1122.32	1283.09	1.14
RTX 3090	granitemoe 3B IQ2_S - 2.5 bpw	2	pp512	467.74	565.58	1.21
RTX 3090	granitemoe 3B IQ2_S - 2.5 bpw	3	pp512	545.21	691.42	1.27
RTX 3090	granitemoe 3B IQ2_S - 2.5 bpw	4	pp512	601.59	786.46	1.31
RTX 3090	granitemoe 3B IQ2_S - 2.5 bpw	5	pp512	696.14	880.16	1.26
RTX 3090	granitemoe 3B IQ2_S - 2.5 bpw	6	pp512	811.44	934.94	1.15
RTX 3090	granitemoe 3B IQ2_S - 2.5 bpw	7	pp512	930.59	993.45	1.07
RTX 3090	granitemoe 3B IQ2_S - 2.5 bpw	8	pp512	1050.28	1022.07	0.97
RTX 3090	granitemoe 3B IQ2_XS - 2.3125 bpw	2	pp512	475.62	572.24	1.20
RTX 3090	granitemoe 3B IQ2_XS - 2.3125 bpw	3	pp512	556.30	708.82	1.27
RTX 3090	granitemoe 3B IQ2_XS - 2.3125 bpw	4	pp512	614.18	808.78	1.32
RTX 3090	granitemoe 3B IQ2_XS - 2.3125 bpw	5	pp512	705.18	896.81	1.27
RTX 3090	granitemoe 3B IQ2_XS - 2.3125 bpw	6	pp512	814.94	956.10	1.17
RTX 3090	granitemoe 3B IQ2_XS - 2.3125 bpw	7	pp512	938.33	1011.45	1.08
RTX 3090	granitemoe 3B IQ2_XS - 2.3125 bpw	8	pp512	1054.50	1046.65	0.99
RTX 3090	granitemoe 3B IQ2_XXS - 2.0625 bpw	2	pp512	483.05	590.11	1.22
RTX 3090	granitemoe 3B IQ2_XXS - 2.0625 bpw	3	pp512	559.94	750.13	1.34
RTX 3090	granitemoe 3B IQ2_XXS - 2.0625 bpw	4	pp512	614.99	827.83	1.35
RTX 3090	granitemoe 3B IQ2_XXS - 2.0625 bpw	5	pp512	732.97	926.90	1.26
RTX 3090	granitemoe 3B IQ2_XXS - 2.0625 bpw	6	pp512	855.39	987.92	1.15
RTX 3090	granitemoe 3B IQ2_XXS - 2.0625 bpw	7	pp512	981.13	1053.67	1.07
RTX 3090	granitemoe 3B IQ2_XXS - 2.0625 bpw	8	pp512	1102.26	1108.36	1.01
RTX 3090	granitemoe 3B IQ3_S - 3.4375 bpw	2	pp512	444.89	538.70	1.21
RTX 3090	granitemoe 3B IQ3_S - 3.4375 bpw	3	pp512	509.50	638.38	1.25
RTX 3090	granitemoe 3B IQ3_S - 3.4375 bpw	4	pp512	559.63	724.39	1.29
RTX 3090	granitemoe 3B IQ3_S - 3.4375 bpw	5	pp512	672.88	793.22	1.18
RTX 3090	granitemoe 3B IQ3_S - 3.4375 bpw	6	pp512	784.01	856.47	1.09
RTX 3090	granitemoe 3B IQ3_S - 3.4375 bpw	7	pp512	892.62	877.68	0.98
RTX 3090	granitemoe 3B IQ3_S - 3.4375 bpw	8	pp512	1010.93	933.70	0.92
RTX 3090	granitemoe 3B IQ3_S mix - 3.66 bpw	2	pp512	447.81	540.33	1.21
RTX 3090	granitemoe 3B IQ3_S mix - 3.66 bpw	3	pp512	523.22	658.24	1.26
RTX 3090	granitemoe 3B IQ3_S mix - 3.66 bpw	4	pp512	572.44	743.37	1.30
RTX 3090	granitemoe 3B IQ3_S mix - 3.66 bpw	5	pp512	671.20	799.28	1.19
RTX 3090	granitemoe 3B IQ3_S mix - 3.66 bpw	6	pp512	778.17	866.06	1.11
RTX 3090	granitemoe 3B IQ3_S mix - 3.66 bpw	7	pp512	882.53	885.47	1.00
RTX 3090	granitemoe 3B IQ3_S mix - 3.66 bpw	8	pp512	1003.50	941.14	0.94
RTX 3090	granitemoe 3B IQ3_XS - 3.3 bpw	2	pp512	449.55	547.58	1.22
RTX 3090	granitemoe 3B IQ3_XS - 3.3 bpw	3	pp512	517.14	664.99	1.29
RTX 3090	granitemoe 3B IQ3_XS - 3.3 bpw	4	pp512	567.87	726.78	1.28
RTX 3090	granitemoe 3B IQ3_XS - 3.3 bpw	5	pp512	692.56	823.91	1.19
RTX 3090	granitemoe 3B IQ3_XS - 3.3 bpw	6	pp512	807.33	890.51	1.10
RTX 3090	granitemoe 3B IQ3_XS - 3.3 bpw	7	pp512	921.84	916.23	0.99
RTX 3090	granitemoe 3B IQ3_XS - 3.3 bpw	8	pp512	1040.26	964.63	0.93
RTX 3090	granitemoe 3B IQ3_XXS - 3.0625 bpw	2	pp512	453.12	558.36	1.23
RTX 3090	granitemoe 3B IQ3_XXS - 3.0625 bpw	3	pp512	523.14	671.03	1.28
RTX 3090	granitemoe 3B IQ3_XXS - 3.0625 bpw	4	pp512	575.32	755.75	1.31
RTX 3090	granitemoe 3B IQ3_XXS - 3.0625 bpw	5	pp512	702.59	844.69	1.20
RTX 3090	granitemoe 3B IQ3_XXS - 3.0625 bpw	6	pp512	817.08	907.34	1.11
RTX 3090	granitemoe 3B IQ3_XXS - 3.0625 bpw	7	pp512	940.93	958.55	1.02
RTX 3090	granitemoe 3B IQ3_XXS - 3.0625 bpw	8	pp512	1055.38	990.84	0.94
RTX 3090	granitemoe 3B IQ4_NL - 4.5 bpw	2	pp512	552.76	643.16	1.16
RTX 3090	granitemoe 3B IQ4_NL - 4.5 bpw	3	pp512	664.31	862.83	1.30
RTX 3090	granitemoe 3B IQ4_NL - 4.5 bpw	4	pp512	728.81	997.45	1.37
RTX 3090	granitemoe 3B IQ4_NL - 4.5 bpw	5	pp512	745.62	1099.81	1.48
RTX 3090	granitemoe 3B IQ4_NL - 4.5 bpw	6	pp512	870.66	1205.99	1.39
RTX 3090	granitemoe 3B IQ4_NL - 4.5 bpw	7	pp512	984.23	1280.16	1.30
RTX 3090	granitemoe 3B IQ4_NL - 4.5 bpw	8	pp512	1109.14	1364.05	1.23
RTX 3090	granitemoe 3B IQ4_XS - 4.25 bpw	2	pp512	517.69	612.75	1.18
RTX 3090	granitemoe 3B IQ4_XS - 4.25 bpw	3	pp512	606.45	801.78	1.32
RTX 3090	granitemoe 3B IQ4_XS - 4.25 bpw	4	pp512	670.50	897.54	1.34
RTX 3090	granitemoe 3B IQ4_XS - 4.25 bpw	5	pp512	780.36	1008.96	1.29
RTX 3090	granitemoe 3B IQ4_XS - 4.25 bpw	6	pp512	902.17	1092.84	1.21
RTX 3090	granitemoe 3B IQ4_XS - 4.25 bpw	7	pp512	1023.07	1155.69	1.13
RTX 3090	granitemoe 3B IQ4_XS - 4.25 bpw	8	pp512	1166.26	1198.80	1.03
RTX 3090	granitemoe 3B Q2_K_M	2	pp512	485.04	591.07	1.22
RTX 3090	granitemoe 3B Q2_K_M	3	pp512	562.51	724.13	1.29
RTX 3090	granitemoe 3B Q2_K_M	4	pp512	614.84	805.94	1.31
RTX 3090	granitemoe 3B Q2_K_M	5	pp512	741.51	897.18	1.21
RTX 3090	granitemoe 3B Q2_K_M	6	pp512	864.72	919.96	1.06
RTX 3090	granitemoe 3B Q2_K_M	7	pp512	978.75	996.29	1.02
RTX 3090	granitemoe 3B Q2_K_M	8	pp512	1106.54	1034.09	0.93
RTX 3090	granitemoe 3B Q3_K_S	2	pp512	433.34	532.74	1.23
RTX 3090	granitemoe 3B Q3_K_S	3	pp512	492.60	613.33	1.25
RTX 3090	granitemoe 3B Q3_K_S	4	pp512	532.07	688.93	1.29
RTX 3090	granitemoe 3B Q3_K_S	5	pp512	710.74	746.36	1.05
RTX 3090	granitemoe 3B Q3_K_S	6	pp512	821.41	754.91	0.92
RTX 3090	granitemoe 3B Q3_K_S	7	pp512	942.33	809.62	0.86
RTX 3090	granitemoe 3B Q3_K_S	8	pp512	1057.30	849.22	0.80
RTX 3090	granitemoe 3B Q4_0	2	pp512	547.99	652.72	1.19
RTX 3090	granitemoe 3B Q4_0	3	pp512	677.97	885.43	1.31
RTX 3090	granitemoe 3B Q4_0	4	pp512	758.72	1071.50	1.41
RTX 3090	granitemoe 3B Q4_0	5	pp512	761.15	1200.30	1.58
RTX 3090	granitemoe 3B Q4_0	6	pp512	890.78	1329.37	1.49
RTX 3090	granitemoe 3B Q4_0	7	pp512	1011.63	1415.43	1.40
RTX 3090	granitemoe 3B Q4_0	8	pp512	1143.66	1517.47	1.33
RTX 3090	granitemoe 3B Q4_1	2	pp512	559.62	642.63	1.15
RTX 3090	granitemoe 3B Q4_1	3	pp512	701.98	881.89	1.26
RTX 3090	granitemoe 3B Q4_1	4	pp512	780.75	1060.04	1.36
RTX 3090	granitemoe 3B Q4_1	5	pp512	768.02	1182.02	1.54
RTX 3090	granitemoe 3B Q4_1	6	pp512	905.14	1317.78	1.46
RTX 3090	granitemoe 3B Q4_1	7	pp512	1024.10	1428.46	1.39
RTX 3090	granitemoe 3B Q4_1	8	pp512	1165.46	1531.43	1.31
RTX 3090	granitemoe 3B Q4_K_S	2	pp512	530.88	618.67	1.17
RTX 3090	granitemoe 3B Q4_K_S	3	pp512	637.55	829.51	1.30
RTX 3090	granitemoe 3B Q4_K_S	4	pp512	694.67	953.02	1.37
RTX 3090	granitemoe 3B Q4_K_S	5	pp512	754.90	1032.97	1.37
RTX 3090	granitemoe 3B Q4_K_S	6	pp512	875.81	1123.42	1.28
RTX 3090	granitemoe 3B Q4_K_S	7	pp512	991.77	1188.78	1.20
RTX 3090	granitemoe 3B Q4_K_S	8	pp512	1119.41	1271.26	1.14
RTX 3090	granitemoe 3B Q5_0	2	pp512	536.20	612.66	1.14
RTX 3090	granitemoe 3B Q5_0	3	pp512	639.67	811.50	1.27
RTX 3090	granitemoe 3B Q5_0	4	pp512	715.58	939.48	1.31
RTX 3090	granitemoe 3B Q5_0	5	pp512	677.03	1048.25	1.55
RTX 3090	granitemoe 3B Q5_0	6	pp512	795.21	1137.00	1.43
RTX 3090	granitemoe 3B Q5_0	7	pp512	897.60	1199.99	1.34
RTX 3090	granitemoe 3B Q5_0	8	pp512	1015.54	1257.65	1.24
RTX 3090	granitemoe 3B Q5_1	2	pp512	538.21	611.26	1.14
RTX 3090	granitemoe 3B Q5_1	3	pp512	655.63	819.27	1.25
RTX 3090	granitemoe 3B Q5_1	4	pp512	725.12	955.24	1.32
RTX 3090	granitemoe 3B Q5_1	5	pp512	741.52	1063.68	1.43
RTX 3090	granitemoe 3B Q5_1	6	pp512	860.82	1145.82	1.33
RTX 3090	granitemoe 3B Q5_1	7	pp512	970.53	1235.26	1.27
RTX 3090	granitemoe 3B Q5_1	8	pp512	1095.09	1313.98	1.20
RTX 3090	granitemoe 3B Q5_K_S	2	pp512	517.01	595.19	1.15
RTX 3090	granitemoe 3B Q5_K_S	3	pp512	611.29	769.59	1.26
RTX 3090	granitemoe 3B Q5_K_S	4	pp512	665.42	892.43	1.34
RTX 3090	granitemoe 3B Q5_K_S	5	pp512	734.55	968.88	1.32
RTX 3090	granitemoe 3B Q5_K_S	6	pp512	845.40	1033.16	1.22
RTX 3090	granitemoe 3B Q5_K_S	7	pp512	954.92	1107.04	1.16
RTX 3090	granitemoe 3B Q5_K_S	8	pp512	1081.79	1168.08	1.08
RTX 3090	granitemoe 3B Q6_K	2	pp512	463.32	548.23	1.18
RTX 3090	granitemoe 3B Q6_K	3	pp512	535.41	682.39	1.27
RTX 3090	granitemoe 3B Q6_K	4	pp512	581.46	766.00	1.32
RTX 3090	granitemoe 3B Q6_K	5	pp512	666.37	842.95	1.26
RTX 3090	granitemoe 3B Q6_K	6	pp512	779.02	895.15	1.15
RTX 3090	granitemoe 3B Q6_K	7	pp512	883.02	941.90	1.07
RTX 3090	granitemoe 3B Q6_K	8	pp512	986.72	980.46	0.99
RTX 3090	granitemoe 3B Q8_0	2	pp512	437.39	532.37	1.22
RTX 3090	granitemoe 3B Q8_0	3	pp512	508.82	696.33	1.37
RTX 3090	granitemoe 3B Q8_0	4	pp512	556.09	811.93	1.46
RTX 3090	granitemoe 3B Q8_0	5	pp512	693.31	910.97	1.31
RTX 3090	granitemoe 3B Q8_0	6	pp512	790.97	983.18	1.24
RTX 3090	granitemoe 3B Q8_0	7	pp512	922.01	1068.46	1.16
RTX 3090	granitemoe 3B Q8_0	8	pp512	1014.45	1087.98	1.07
RTX 4090	gpt-oss 20B MXFP4 MoE	2	pp512	432.28	461.54	1.07
RTX 4090	gpt-oss 20B MXFP4 MoE	3	pp512	547.71	620.11	1.13
RTX 4090	gpt-oss 20B MXFP4 MoE	4	pp512	621.22	730.56	1.18
RTX 4090	gpt-oss 20B MXFP4 MoE	5	pp512	580.37	824.61	1.42
RTX 4090	gpt-oss 20B MXFP4 MoE	6	pp512	671.73	897.91	1.34
RTX 4090	gpt-oss 20B MXFP4 MoE	7	pp512	772.04	989.48	1.28
RTX 4090	gpt-oss 20B MXFP4 MoE	8	pp512	846.25	1039.03	1.23
RTX 4090	granitemoe 3B IQ1_S - 1.5625 bpw	2	pp512	679.64	785.83	1.16
RTX 4090	granitemoe 3B IQ1_S - 1.5625 bpw	3	pp512	886.28	1075.03	1.21
RTX 4090	granitemoe 3B IQ1_S - 1.5625 bpw	4	pp512	1038.59	1299.60	1.25
RTX 4090	granitemoe 3B IQ1_S - 1.5625 bpw	5	pp512	1004.65	1566.41	1.56
RTX 4090	granitemoe 3B IQ1_S - 1.5625 bpw	6	pp512	1206.42	1767.31	1.46
RTX 4090	granitemoe 3B IQ1_S - 1.5625 bpw	7	pp512	1394.28	1935.38	1.39
RTX 4090	granitemoe 3B IQ1_S - 1.5625 bpw	8	pp512	1604.25	2114.07	1.32
RTX 4090	granitemoe 3B IQ2_S - 2.5 bpw	2	pp512	656.20	746.98	1.14
RTX 4090	granitemoe 3B IQ2_S - 2.5 bpw	3	pp512	836.09	1001.71	1.20
RTX 4090	granitemoe 3B IQ2_S - 2.5 bpw	4	pp512	970.05	1202.10	1.24
RTX 4090	granitemoe 3B IQ2_S - 2.5 bpw	5	pp512	1002.27	1441.83	1.44
RTX 4090	granitemoe 3B IQ2_S - 2.5 bpw	6	pp512	1179.42	1604.33	1.36
RTX 4090	granitemoe 3B IQ2_S - 2.5 bpw	7	pp512	1382.20	1760.99	1.27
RTX 4090	granitemoe 3B IQ2_S - 2.5 bpw	8	pp512	1586.69	1869.59	1.18
RTX 4090	granitemoe 3B IQ2_XS - 2.3125 bpw	2	pp512	666.65	761.98	1.14
RTX 4090	granitemoe 3B IQ2_XS - 2.3125 bpw	3	pp512	851.94	1018.99	1.20
RTX 4090	granitemoe 3B IQ2_XS - 2.3125 bpw	4	pp512	986.82	1220.02	1.24
RTX 4090	granitemoe 3B IQ2_XS - 2.3125 bpw	5	pp512	1006.19	1464.06	1.46
RTX 4090	granitemoe 3B IQ2_XS - 2.3125 bpw	6	pp512	1188.40	1611.27	1.36
RTX 4090	granitemoe 3B IQ2_XS - 2.3125 bpw	7	pp512	1383.09	1786.90	1.29
RTX 4090	granitemoe 3B IQ2_XS - 2.3125 bpw	8	pp512	1588.46	1911.63	1.20
RTX 4090	granitemoe 3B IQ2_XXS - 2.0625 bpw	2	pp512	674.89	786.42	1.17
RTX 4090	granitemoe 3B IQ2_XXS - 2.0625 bpw	3	pp512	862.69	1048.92	1.22
RTX 4090	granitemoe 3B IQ2_XXS - 2.0625 bpw	4	pp512	992.32	1238.60	1.25
RTX 4090	granitemoe 3B IQ2_XXS - 2.0625 bpw	5	pp512	1006.99	1499.44	1.49
RTX 4090	granitemoe 3B IQ2_XXS - 2.0625 bpw	6	pp512	1197.17	1680.01	1.40
RTX 4090	granitemoe 3B IQ2_XXS - 2.0625 bpw	7	pp512	1396.30	1829.97	1.31
RTX 4090	granitemoe 3B IQ2_XXS - 2.0625 bpw	8	pp512	1620.79	2003.40	1.24
RTX 4090	granitemoe 3B IQ3_S - 3.4375 bpw	2	pp512	641.79	718.24	1.12
RTX 4090	granitemoe 3B IQ3_S - 3.4375 bpw	3	pp512	808.24	957.56	1.18
RTX 4090	granitemoe 3B IQ3_S - 3.4375 bpw	4	pp512	941.59	1150.40	1.22
RTX 4090	granitemoe 3B IQ3_S - 3.4375 bpw	5	pp512	983.06	1354.26	1.38
RTX 4090	granitemoe 3B IQ3_S - 3.4375 bpw	6	pp512	1171.44	1521.57	1.30
RTX 4090	granitemoe 3B IQ3_S - 3.4375 bpw	7	pp512	1339.10	1627.03	1.22
RTX 4090	granitemoe 3B IQ3_S - 3.4375 bpw	8	pp512	1538.66	1767.96	1.15
RTX 4090	granitemoe 3B IQ3_S mix - 3.66 bpw	2	pp512	651.73	726.12	1.11
RTX 4090	granitemoe 3B IQ3_S mix - 3.66 bpw	3	pp512	830.31	977.81	1.18
RTX 4090	granitemoe 3B IQ3_S mix - 3.66 bpw	4	pp512	957.22	1171.88	1.22
RTX 4090	granitemoe 3B IQ3_S mix - 3.66 bpw	5	pp512	986.54	1365.90	1.38
RTX 4090	granitemoe 3B IQ3_S mix - 3.66 bpw	6	pp512	1163.45	1531.19	1.32
RTX 4090	granitemoe 3B IQ3_S mix - 3.66 bpw	7	pp512	1336.93	1637.21	1.22
RTX 4090	granitemoe 3B IQ3_S mix - 3.66 bpw	8	pp512	1534.25	1780.54	1.16
RTX 4090	granitemoe 3B IQ3_XS - 3.3 bpw	2	pp512	651.33	732.05	1.12
RTX 4090	granitemoe 3B IQ3_XS - 3.3 bpw	3	pp512	821.78	976.92	1.19
RTX 4090	granitemoe 3B IQ3_XS - 3.3 bpw	4	pp512	955.80	1176.69	1.23
RTX 4090	granitemoe 3B IQ3_XS - 3.3 bpw	5	pp512	989.70	1389.08	1.40
RTX 4090	granitemoe 3B IQ3_XS - 3.3 bpw	6	pp512	1186.63	1556.43	1.31
RTX 4090	granitemoe 3B IQ3_XS - 3.3 bpw	7	pp512	1360.08	1676.84	1.23
RTX 4090	granitemoe 3B IQ3_XS - 3.3 bpw	8	pp512	1558.41	1787.37	1.15
RTX 4090	granitemoe 3B IQ3_XXS - 3.0625 bpw	2	pp512	648.89	731.96	1.13
RTX 4090	granitemoe 3B IQ3_XXS - 3.0625 bpw	3	pp512	826.32	992.39	1.20
RTX 4090	granitemoe 3B IQ3_XXS - 3.0625 bpw	4	pp512	954.34	1192.23	1.25
RTX 4090	granitemoe 3B IQ3_XXS - 3.0625 bpw	5	pp512	992.83	1412.80	1.42
RTX 4090	granitemoe 3B IQ3_XXS - 3.0625 bpw	6	pp512	1187.73	1566.98	1.32
RTX 4090	granitemoe 3B IQ3_XXS - 3.0625 bpw	7	pp512	1366.35	1713.51	1.25
RTX 4090	granitemoe 3B IQ3_XXS - 3.0625 bpw	8	pp512	1570.08	1811.69	1.15
RTX 4090	granitemoe 3B IQ4_NL - 4.5 bpw	2	pp512	706.05	769.84	1.09
RTX 4090	granitemoe 3B IQ4_NL - 4.5 bpw	3	pp512	924.23	1072.52	1.16
RTX 4090	granitemoe 3B IQ4_NL - 4.5 bpw	4	pp512	1091.62	1326.12	1.21
RTX 4090	granitemoe 3B IQ4_NL - 4.5 bpw	5	pp512	1013.21	1578.93	1.56
RTX 4090	granitemoe 3B IQ4_NL - 4.5 bpw	6	pp512	1213.35	1785.85	1.47
RTX 4090	granitemoe 3B IQ4_NL - 4.5 bpw	7	pp512	1390.50	1990.54	1.43
RTX 4090	granitemoe 3B IQ4_NL - 4.5 bpw	8	pp512	1595.32	2207.58	1.38
RTX 4090	granitemoe 3B IQ4_XS - 4.25 bpw	2	pp512	694.34	768.40	1.11
RTX 4090	granitemoe 3B IQ4_XS - 4.25 bpw	3	pp512	902.30	1060.27	1.18
RTX 4090	granitemoe 3B IQ4_XS - 4.25 bpw	4	pp512	1055.29	1290.42	1.22
RTX 4090	granitemoe 3B IQ4_XS - 4.25 bpw	5	pp512	1014.57	1534.81	1.51
RTX 4090	granitemoe 3B IQ4_XS - 4.25 bpw	6	pp512	1210.37	1720.57	1.42
RTX 4090	granitemoe 3B IQ4_XS - 4.25 bpw	7	pp512	1409.75	1890.58	1.34
RTX 4090	granitemoe 3B IQ4_XS - 4.25 bpw	8	pp512	1634.56	2093.75	1.28
RTX 4090	granitemoe 3B Q2_K_M	2	pp512	677.45	774.24	1.14
RTX 4090	granitemoe 3B Q2_K_M	3	pp512	864.92	1041.35	1.20
RTX 4090	granitemoe 3B Q2_K_M	4	pp512	1000.56	1254.09	1.25
RTX 4090	granitemoe 3B Q2_K_M	5	pp512	1002.76	1454.31	1.45
RTX 4090	granitemoe 3B Q2_K_M	6	pp512	1193.74	1570.37	1.32
RTX 4090	granitemoe 3B Q2_K_M	7	pp512	1397.37	1719.30	1.23
RTX 4090	granitemoe 3B Q2_K_M	8	pp512	1612.39	1885.66	1.17
RTX 4090	granitemoe 3B Q3_K_S	2	pp512	639.64	739.30	1.16
RTX 4090	granitemoe 3B Q3_K_S	3	pp512	808.45	963.94	1.19
RTX 4090	granitemoe 3B Q3_K_S	4	pp512	929.46	1151.89	1.24
RTX 4090	granitemoe 3B Q3_K_S	5	pp512	1000.00	1306.90	1.31
RTX 4090	granitemoe 3B Q3_K_S	6	pp512	1188.10	1355.24	1.14
RTX 4090	granitemoe 3B Q3_K_S	7	pp512	1359.65	1478.23	1.09
RTX 4090	granitemoe 3B Q3_K_S	8	pp512	1556.75	1624.15	1.04
RTX 4090	granitemoe 3B Q4_0	2	pp512	702.84	774.87	1.10
RTX 4090	granitemoe 3B Q4_0	3	pp512	912.79	1078.28	1.18
RTX 4090	granitemoe 3B Q4_0	4	pp512	1079.81	1333.80	1.24
RTX 4090	granitemoe 3B Q4_0	5	pp512	1011.81	1595.80	1.58
RTX 4090	granitemoe 3B Q4_0	6	pp512	1207.32	1811.72	1.50
RTX 4090	granitemoe 3B Q4_0	7	pp512	1394.58	2018.96	1.45
RTX 4090	granitemoe 3B Q4_0	8	pp512	1622.68	2259.75	1.39
RTX 4090	granitemoe 3B Q4_1	2	pp512	700.99	753.76	1.08
RTX 4090	granitemoe 3B Q4_1	3	pp512	924.63	1058.24	1.14
RTX 4090	granitemoe 3B Q4_1	4	pp512	1081.90	1301.61	1.20
RTX 4090	granitemoe 3B Q4_1	5	pp512	1015.76	1563.44	1.54
RTX 4090	granitemoe 3B Q4_1	6	pp512	1204.47	1779.89	1.48
RTX 4090	granitemoe 3B Q4_1	7	pp512	1397.03	1998.09	1.43
RTX 4090	granitemoe 3B Q4_1	8	pp512	1609.00	2232.16	1.39
RTX 4090	granitemoe 3B Q4_K_S	2	pp512	695.82	757.97	1.09
RTX 4090	granitemoe 3B Q4_K_S	3	pp512	912.43	1053.19	1.15
RTX 4090	granitemoe 3B Q4_K_S	4	pp512	1062.50	1277.27	1.20
RTX 4090	granitemoe 3B Q4_K_S	5	pp512	1000.83	1521.17	1.52
RTX 4090	granitemoe 3B Q4_K_S	6	pp512	1196.44	1719.48	1.44
RTX 4090	granitemoe 3B Q4_K_S	7	pp512	1397.70	1906.44	1.36
RTX 4090	granitemoe 3B Q4_K_S	8	pp512	1607.23	2089.46	1.30
RTX 4090	granitemoe 3B Q5_0	2	pp512	686.11	729.92	1.06
RTX 4090	granitemoe 3B Q5_0	3	pp512	903.99	1020.32	1.13
RTX 4090	granitemoe 3B Q5_0	4	pp512	1063.34	1265.12	1.19
RTX 4090	granitemoe 3B Q5_0	5	pp512	959.06	1494.10	1.56
RTX 4090	granitemoe 3B Q5_0	6	pp512	1137.35	1696.70	1.49
RTX 4090	granitemoe 3B Q5_0	7	pp512	1304.26	1896.74	1.45
RTX 4090	granitemoe 3B Q5_0	8	pp512	1488.53	2060.54	1.38
RTX 4090	granitemoe 3B Q5_1	2	pp512	679.41	721.06	1.06
RTX 4090	granitemoe 3B Q5_1	3	pp512	892.43	1000.72	1.12
RTX 4090	granitemoe 3B Q5_1	4	pp512	1047.44	1240.34	1.18
RTX 4090	granitemoe 3B Q5_1	5	pp512	1003.62	1473.59	1.47
RTX 4090	granitemoe 3B Q5_1	6	pp512	1177.41	1676.62	1.42
RTX 4090	granitemoe 3B Q5_1	7	pp512	1350.04	1886.97	1.40
RTX 4090	granitemoe 3B Q5_1	8	pp512	1549.04	2080.02	1.34
RTX 4090	granitemoe 3B Q5_K_S	2	pp512	675.69	721.29	1.07
RTX 4090	granitemoe 3B Q5_K_S	3	pp512	886.28	1002.42	1.13
RTX 4090	granitemoe 3B Q5_K_S	4	pp512	1032.34	1228.85	1.19
RTX 4090	granitemoe 3B Q5_K_S	5	pp512	998.96	1453.05	1.45
RTX 4090	granitemoe 3B Q5_K_S	6	pp512	1192.28	1644.74	1.38
RTX 4090	granitemoe 3B Q5_K_S	7	pp512	1359.91	1822.88	1.34
RTX 4090	granitemoe 3B Q5_K_S	8	pp512	1560.07	1978.04	1.27
RTX 4090	granitemoe 3B Q6_K	2	pp512	642.02	683.86	1.07
RTX 4090	granitemoe 3B Q6_K	3	pp512	839.20	943.04	1.12
RTX 4090	granitemoe 3B Q6_K	4	pp512	977.70	1148.95	1.18
RTX 4090	granitemoe 3B Q6_K	5	pp512	941.56	1348.78	1.43
RTX 4090	granitemoe 3B Q6_K	6	pp512	1112.70	1517.61	1.36
RTX 4090	granitemoe 3B Q6_K	7	pp512	1273.80	1668.09	1.31
RTX 4090	granitemoe 3B Q6_K	8	pp512	1450.89	1810.66	1.25
RTX 4090	granitemoe 3B Q8_0	2	pp512	589.25	637.79	1.08
RTX 4090	granitemoe 3B Q8_0	3	pp512	765.17	884.24	1.16
RTX 4090	granitemoe 3B Q8_0	4	pp512	897.61	1089.43	1.21
RTX 4090	granitemoe 3B Q8_0	5	pp512	928.75	1277.95	1.38
RTX 4090	granitemoe 3B Q8_0	6	pp512	1080.07	1442.67	1.34
RTX 4090	granitemoe 3B Q8_0	7	pp512	1240.19	1604.38	1.29
RTX 4090	granitemoe 3B Q8_0	8	pp512	1400.94	1774.46	1.27
RTX 5090	gpt-oss 20B MXFP4 MoE	2	pp512	573.50	610.17	1.06
RTX 5090	gpt-oss 20B MXFP4 MoE	3	pp512	676.54	750.69	1.11
RTX 5090	gpt-oss 20B MXFP4 MoE	4	pp512	768.86	875.17	1.14
RTX 5090	gpt-oss 20B MXFP4 MoE	6	pp512	805.11	1095.61	1.36
RTX 5090	gpt-oss 20B MXFP4 MoE	7	pp512	929.23	1197.39	1.29
RTX 5090	gpt-oss 20B MXFP4 MoE	8	pp512	1033.55	1274.56	1.23
RTX 5090	granitemoe 3B IQ1_S - 1.5625 bpw	2	pp512	728.23	853.36	1.17
RTX 5090	granitemoe 3B IQ1_S - 1.5625 bpw	3	pp512	858.57	1046.75	1.22
RTX 5090	granitemoe 3B IQ1_S - 1.5625 bpw	4	pp512	1009.24	1272.00	1.26
RTX 5090	granitemoe 3B IQ1_S - 1.5625 bpw	5	pp512	965.25	1542.16	1.60
RTX 5090	granitemoe 3B IQ1_S - 1.5625 bpw	6	pp512	1154.59	1778.52	1.54
RTX 5090	granitemoe 3B IQ1_S - 1.5625 bpw	7	pp512	1328.87	1981.51	1.49
RTX 5090	granitemoe 3B IQ1_S - 1.5625 bpw	8	pp512	1543.79	2196.85	1.42
RTX 5090	granitemoe 3B IQ2_S - 2.5 bpw	2	pp512	729.52	829.28	1.14
RTX 5090	granitemoe 3B IQ2_S - 2.5 bpw	3	pp512	856.70	1016.08	1.19
RTX 5090	granitemoe 3B IQ2_S - 2.5 bpw	4	pp512	1006.11	1234.79	1.23
RTX 5090	granitemoe 3B IQ2_S - 2.5 bpw	5	pp512	964.78	1491.52	1.55
RTX 5090	granitemoe 3B IQ2_S - 2.5 bpw	6	pp512	1150.95	1703.73	1.48
RTX 5090	granitemoe 3B IQ2_S - 2.5 bpw	7	pp512	1321.97	1874.44	1.42
RTX 5090	granitemoe 3B IQ2_S - 2.5 bpw	8	pp512	1536.20	2071.77	1.35
RTX 5090	granitemoe 3B IQ2_XS - 2.3125 bpw	2	pp512	741.86	845.74	1.14
RTX 5090	granitemoe 3B IQ2_XS - 2.3125 bpw	3	pp512	866.75	1024.74	1.18
RTX 5090	granitemoe 3B IQ2_XS - 2.3125 bpw	4	pp512	1013.47	1246.37	1.23
RTX 5090	granitemoe 3B IQ2_XS - 2.3125 bpw	5	pp512	961.72	1494.64	1.55
RTX 5090	granitemoe 3B IQ2_XS - 2.3125 bpw	6	pp512	1152.46	1711.08	1.48
RTX 5090	granitemoe 3B IQ2_XS - 2.3125 bpw	7	pp512	1322.04	1880.56	1.42
RTX 5090	granitemoe 3B IQ2_XS - 2.3125 bpw	8	pp512	1540.57	2091.38	1.36
RTX 5090	granitemoe 3B IQ2_XXS - 2.0625 bpw	2	pp512	750.10	857.53	1.14
RTX 5090	granitemoe 3B IQ2_XXS - 2.0625 bpw	3	pp512	874.16	1036.83	1.19
RTX 5090	granitemoe 3B IQ2_XXS - 2.0625 bpw	4	pp512	1018.37	1254.04	1.23
RTX 5090	granitemoe 3B IQ2_XXS - 2.0625 bpw	5	pp512	966.05	1517.78	1.57
RTX 5090	granitemoe 3B IQ2_XXS - 2.0625 bpw	6	pp512	1155.37	1736.33	1.50
RTX 5090	granitemoe 3B IQ2_XXS - 2.0625 bpw	7	pp512	1330.26	1919.80	1.44
RTX 5090	granitemoe 3B IQ2_XXS - 2.0625 bpw	8	pp512	1546.98	2120.92	1.37
RTX 5090	granitemoe 3B IQ3_S - 3.4375 bpw	2	pp512	707.44	805.84	1.14
RTX 5090	granitemoe 3B IQ3_S - 3.4375 bpw	3	pp512	812.83	960.01	1.18
RTX 5090	granitemoe 3B IQ3_S - 3.4375 bpw	4	pp512	954.15	1172.91	1.23
RTX 5090	granitemoe 3B IQ3_S - 3.4375 bpw	5	pp512	949.46	1413.41	1.49
RTX 5090	granitemoe 3B IQ3_S - 3.4375 bpw	6	pp512	1112.64	1601.10	1.44
RTX 5090	granitemoe 3B IQ3_S - 3.4375 bpw	7	pp512	1297.83	1767.89	1.36
RTX 5090	granitemoe 3B IQ3_S - 3.4375 bpw	8	pp512	1502.46	1891.87	1.26
RTX 5090	granitemoe 3B IQ3_S mix - 3.66 bpw	2	pp512	710.89	808.90	1.14
RTX 5090	granitemoe 3B IQ3_S mix - 3.66 bpw	3	pp512	817.76	960.16	1.17
RTX 5090	granitemoe 3B IQ3_S mix - 3.66 bpw	4	pp512	959.78	1180.80	1.23
RTX 5090	granitemoe 3B IQ3_S mix - 3.66 bpw	5	pp512	930.52	1405.03	1.51
RTX 5090	granitemoe 3B IQ3_S mix - 3.66 bpw	6	pp512	1111.52	1587.31	1.43
RTX 5090	granitemoe 3B IQ3_S mix - 3.66 bpw	7	pp512	1297.42	1753.94	1.35
RTX 5090	granitemoe 3B IQ3_S mix - 3.66 bpw	8	pp512	1498.22	1850.16	1.23
RTX 5090	granitemoe 3B IQ3_XS - 3.3 bpw	2	pp512	722.55	821.17	1.14
RTX 5090	granitemoe 3B IQ3_XS - 3.3 bpw	3	pp512	835.14	986.40	1.18
RTX 5090	granitemoe 3B IQ3_XS - 3.3 bpw	4	pp512	973.12	1190.00	1.22
RTX 5090	granitemoe 3B IQ3_XS - 3.3 bpw	5	pp512	960.76	1446.53	1.51
RTX 5090	granitemoe 3B IQ3_XS - 3.3 bpw	6	pp512	1131.83	1629.34	1.44
RTX 5090	granitemoe 3B IQ3_XS - 3.3 bpw	7	pp512	1319.68	1800.65	1.36
RTX 5090	granitemoe 3B IQ3_XS - 3.3 bpw	8	pp512	1529.80	1934.40	1.26
RTX 5090	granitemoe 3B IQ3_XXS - 3.0625 bpw	2	pp512	726.63	818.71	1.13
RTX 5090	granitemoe 3B IQ3_XXS - 3.0625 bpw	3	pp512	845.70	986.60	1.17
RTX 5090	granitemoe 3B IQ3_XXS - 3.0625 bpw	4	pp512	996.34	1203.12	1.21
RTX 5090	granitemoe 3B IQ3_XXS - 3.0625 bpw	5	pp512	958.78	1453.84	1.52
RTX 5090	granitemoe 3B IQ3_XXS - 3.0625 bpw	6	pp512	1141.55	1655.91	1.45
RTX 5090	granitemoe 3B IQ3_XXS - 3.0625 bpw	7	pp512	1330.23	1823.22	1.37
RTX 5090	granitemoe 3B IQ3_XXS - 3.0625 bpw	8	pp512	1542.22	1984.23	1.29
RTX 5090	granitemoe 3B IQ4_NL - 4.5 bpw	2	pp512	789.29	891.22	1.13
RTX 5090	granitemoe 3B IQ4_NL - 4.5 bpw	3	pp512	919.69	1085.71	1.18
RTX 5090	granitemoe 3B IQ4_NL - 4.5 bpw	4	pp512	1084.56	1348.47	1.24
RTX 5090	granitemoe 3B IQ4_NL - 4.5 bpw	5	pp512	974.43	1611.89	1.65
RTX 5090	granitemoe 3B IQ4_NL - 4.5 bpw	6	pp512	1169.79	1842.93	1.58
RTX 5090	granitemoe 3B IQ4_NL - 4.5 bpw	7	pp512	1348.15	2090.23	1.55
RTX 5090	granitemoe 3B IQ4_NL - 4.5 bpw	8	pp512	1559.24	2332.15	1.50
RTX 5090	granitemoe 3B IQ4_XS - 4.25 bpw	2	pp512	778.93	864.39	1.11
RTX 5090	granitemoe 3B IQ4_XS - 4.25 bpw	3	pp512	914.77	1068.15	1.17
RTX 5090	granitemoe 3B IQ4_XS - 4.25 bpw	4	pp512	1075.98	1291.36	1.20
RTX 5090	granitemoe 3B IQ4_XS - 4.25 bpw	5	pp512	971.61	1580.56	1.63
RTX 5090	granitemoe 3B IQ4_XS - 4.25 bpw	6	pp512	1171.20	1811.36	1.55
RTX 5090	granitemoe 3B IQ4_XS - 4.25 bpw	7	pp512	1353.81	2011.24	1.49
RTX 5090	granitemoe 3B IQ4_XS - 4.25 bpw	8	pp512	1568.86	2202.84	1.40
RTX 5090	granitemoe 3B Q2_K_M	2	pp512	739.23	855.87	1.16
RTX 5090	granitemoe 3B Q2_K_M	3	pp512	867.82	1034.41	1.19
RTX 5090	granitemoe 3B Q2_K_M	4	pp512	1020.59	1267.21	1.24
RTX 5090	granitemoe 3B Q2_K_M	5	pp512	964.20	1502.65	1.56
RTX 5090	granitemoe 3B Q2_K_M	6	pp512	1143.46	1706.85	1.49
RTX 5090	granitemoe 3B Q2_K_M	7	pp512	1318.95	1910.20	1.45
RTX 5090	granitemoe 3B Q2_K_M	8	pp512	1523.00	2080.48	1.37
RTX 5090	granitemoe 3B Q3_K_S	2	pp512	723.35	839.53	1.16
RTX 5090	granitemoe 3B Q3_K_S	3	pp512	847.52	1010.36	1.19
RTX 5090	granitemoe 3B Q3_K_S	4	pp512	995.85	1238.48	1.24
RTX 5090	granitemoe 3B Q3_K_S	5	pp512	963.82	1459.79	1.51
RTX 5090	granitemoe 3B Q3_K_S	6	pp512	1115.77	1636.26	1.47
RTX 5090	granitemoe 3B Q3_K_S	7	pp512	1333.84	1835.93	1.38
RTX 5090	granitemoe 3B Q3_K_S	8	pp512	1514.31	1979.20	1.31
RTX 5090	granitemoe 3B Q4_0	2	pp512	792.83	895.32	1.13
RTX 5090	granitemoe 3B Q4_0	3	pp512	924.07	1080.61	1.17
RTX 5090	granitemoe 3B Q4_0	4	pp512	1100.65	1342.15	1.22
RTX 5090	granitemoe 3B Q4_0	5	pp512	971.68	1623.13	1.67
RTX 5090	granitemoe 3B Q4_0	6	pp512	1162.82	1879.37	1.62
RTX 5090	granitemoe 3B Q4_0	7	pp512	1337.41	2121.44	1.59
RTX 5090	granitemoe 3B Q4_0	8	pp512	1561.64	2353.62	1.51
RTX 5090	granitemoe 3B Q4_1	2	pp512	773.45	868.07	1.12
RTX 5090	granitemoe 3B Q4_1	3	pp512	909.81	1080.62	1.19
RTX 5090	granitemoe 3B Q4_1	4	pp512	1076.97	1327.05	1.23
RTX 5090	granitemoe 3B Q4_1	5	pp512	970.46	1615.28	1.66
RTX 5090	granitemoe 3B Q4_1	6	pp512	1164.42	1870.24	1.61
RTX 5090	granitemoe 3B Q4_1	7	pp512	1340.26	2115.73	1.58
RTX 5090	granitemoe 3B Q4_1	8	pp512	1561.61	2366.24	1.52
RTX 5090	granitemoe 3B Q4_K_S	2	pp512	760.07	862.08	1.13
RTX 5090	granitemoe 3B Q4_K_S	3	pp512	889.46	1054.60	1.19
RTX 5090	granitemoe 3B Q4_K_S	4	pp512	1045.83	1298.83	1.24
RTX 5090	granitemoe 3B Q4_K_S	5	pp512	972.49	1562.12	1.61
RTX 5090	granitemoe 3B Q4_K_S	6	pp512	1156.37	1792.76	1.55
RTX 5090	granitemoe 3B Q4_K_S	7	pp512	1347.30	1986.67	1.47
RTX 5090	granitemoe 3B Q4_K_S	8	pp512	1566.64	2211.19	1.41
RTX 5090	granitemoe 3B Q5_0	2	pp512	780.49	859.17	1.10
RTX 5090	granitemoe 3B Q5_0	3	pp512	914.54	1050.51	1.15
RTX 5090	granitemoe 3B Q5_0	4	pp512	1080.65	1298.84	1.20
RTX 5090	granitemoe 3B Q5_0	5	pp512	970.14	1564.11	1.61
RTX 5090	granitemoe 3B Q5_0	6	pp512	1152.08	1799.09	1.56
RTX 5090	granitemoe 3B Q5_0	7	pp512	1307.15	2018.54	1.54
RTX 5090	granitemoe 3B Q5_0	8	pp512	1518.57	2253.84	1.48
RTX 5090	granitemoe 3B Q5_1	2	pp512	778.25	855.92	1.10
RTX 5090	granitemoe 3B Q5_1	3	pp512	910.43	1044.00	1.15
RTX 5090	granitemoe 3B Q5_1	4	pp512	1076.72	1287.93	1.20
RTX 5090	granitemoe 3B Q5_1	5	pp512	971.79	1553.78	1.60
RTX 5090	granitemoe 3B Q5_1	6	pp512	1153.32	1799.48	1.56
RTX 5090	granitemoe 3B Q5_1	7	pp512	1342.71	2027.99	1.51
RTX 5090	granitemoe 3B Q5_1	8	pp512	1555.54	2268.99	1.46
RTX 5090	granitemoe 3B Q5_K_S	2	pp512	765.78	840.36	1.10
RTX 5090	granitemoe 3B Q5_K_S	3	pp512	904.28	1032.89	1.14
RTX 5090	granitemoe 3B Q5_K_S	4	pp512	1065.86	1268.08	1.19
RTX 5090	granitemoe 3B Q5_K_S	5	pp512	966.78	1520.80	1.57
RTX 5090	granitemoe 3B Q5_K_S	6	pp512	1155.32	1740.92	1.51
RTX 5090	granitemoe 3B Q5_K_S	7	pp512	1332.54	1941.48	1.46
RTX 5090	granitemoe 3B Q5_K_S	8	pp512	1551.82	2152.22	1.39
RTX 5090	granitemoe 3B Q6_K	2	pp512	736.19	808.08	1.10
RTX 5090	granitemoe 3B Q6_K	3	pp512	869.91	984.07	1.13
RTX 5090	granitemoe 3B Q6_K	4	pp512	1018.25	1202.43	1.18
RTX 5090	granitemoe 3B Q6_K	5	pp512	938.84	1442.11	1.54
RTX 5090	granitemoe 3B Q6_K	6	pp512	1115.33	1643.87	1.47
RTX 5090	granitemoe 3B Q6_K	7	pp512	1299.21	1819.21	1.40
RTX 5090	granitemoe 3B Q6_K	8	pp512	1504.36	1978.66	1.32
RTX 5090	granitemoe 3B Q8_0	2	pp512	715.04	780.94	1.09
RTX 5090	granitemoe 3B Q8_0	3	pp512	839.84	968.00	1.15
RTX 5090	granitemoe 3B Q8_0	4	pp512	994.34	1190.53	1.20
RTX 5090	granitemoe 3B Q8_0	5	pp512	950.38	1435.68	1.51
RTX 5090	granitemoe 3B Q8_0	6	pp512	1093.81	1649.90	1.51
RTX 5090	granitemoe 3B Q8_0	7	pp512	1280.55	1860.84	1.45
RTX 5090	granitemoe 3B Q8_0	8	pp512	1477.07	2008.97	1.36
RX 6800	gpt-oss 20B MXFP4 MoE	2	pp512	145.36	152.22	1.05
RX 6800	gpt-oss 20B MXFP4 MoE	3	pp512	182.04	191.84	1.05
RX 6800	gpt-oss 20B MXFP4 MoE	4	pp512	210.44	227.57	1.08
RX 6800	gpt-oss 20B MXFP4 MoE	5	pp512	162.51	231.68	1.43
RX 6800	gpt-oss 20B MXFP4 MoE	6	pp512	188.38	247.68	1.31
RX 6800	gpt-oss 20B MXFP4 MoE	7	pp512	210.55	264.44	1.26
RX 6800	gpt-oss 20B MXFP4 MoE	8	pp512	228.67	277.58	1.21
RX 6800	granitemoe 3B IQ1_S - 1.5625 bpw	2	pp512	192.59	217.04	1.13
RX 6800	granitemoe 3B IQ1_S - 1.5625 bpw	3	pp512	257.19	283.29	1.10
RX 6800	granitemoe 3B IQ1_S - 1.5625 bpw	4	pp512	305.41	352.69	1.15
RX 6800	granitemoe 3B IQ1_S - 1.5625 bpw	5	pp512	314.44	377.79	1.20
RX 6800	granitemoe 3B IQ1_S - 1.5625 bpw	6	pp512	362.11	417.58	1.15
RX 6800	granitemoe 3B IQ1_S - 1.5625 bpw	7	pp512	410.27	461.20	1.12
RX 6800	granitemoe 3B IQ1_S - 1.5625 bpw	8	pp512	446.30	495.66	1.11
RX 6800	granitemoe 3B IQ2_S - 2.5 bpw	2	pp512	152.13	153.70	1.01
RX 6800	granitemoe 3B IQ2_S - 2.5 bpw	3	pp512	188.64	185.92	0.99
RX 6800	granitemoe 3B IQ2_S - 2.5 bpw	4	pp512	215.50	218.76	1.02
RX 6800	granitemoe 3B IQ2_S - 2.5 bpw	5	pp512	261.27	227.53	0.87
RX 6800	granitemoe 3B IQ2_S - 2.5 bpw	6	pp512	299.87	241.18	0.80
RX 6800	granitemoe 3B IQ2_S - 2.5 bpw	7	pp512	333.76	254.95	0.76
RX 6800	granitemoe 3B IQ2_S - 2.5 bpw	8	pp512	373.57	270.62	0.72
RX 6800	granitemoe 3B IQ2_XS - 2.3125 bpw	2	pp512	156.24	157.80	1.01
RX 6800	granitemoe 3B IQ2_XS - 2.3125 bpw	3	pp512	193.57	190.89	0.99
RX 6800	granitemoe 3B IQ2_XS - 2.3125 bpw	4	pp512	220.46	223.40	1.01
RX 6800	granitemoe 3B IQ2_XS - 2.3125 bpw	5	pp512	261.97	233.35	0.89
RX 6800	granitemoe 3B IQ2_XS - 2.3125 bpw	6	pp512	299.29	246.34	0.82
RX 6800	granitemoe 3B IQ2_XS - 2.3125 bpw	7	pp512	332.68	260.84	0.78
RX 6800	granitemoe 3B IQ2_XS - 2.3125 bpw	8	pp512	371.93	277.43	0.75
RX 6800	granitemoe 3B IQ2_XXS - 2.0625 bpw	2	pp512	157.52	159.72	1.01
RX 6800	granitemoe 3B IQ2_XXS - 2.0625 bpw	3	pp512	197.05	194.83	0.99
RX 6800	granitemoe 3B IQ2_XXS - 2.0625 bpw	4	pp512	225.26	228.17	1.01
RX 6800	granitemoe 3B IQ2_XXS - 2.0625 bpw	5	pp512	276.57	238.33	0.86
RX 6800	granitemoe 3B IQ2_XXS - 2.0625 bpw	6	pp512	319.36	253.31	0.79
RX 6800	granitemoe 3B IQ2_XXS - 2.0625 bpw	7	pp512	365.01	272.38	0.75
RX 6800	granitemoe 3B IQ2_XXS - 2.0625 bpw	8	pp512	394.12	283.86	0.72
RX 6800	granitemoe 3B IQ3_S - 3.4375 bpw	2	pp512	148.79	150.45	1.01
RX 6800	granitemoe 3B IQ3_S - 3.4375 bpw	3	pp512	186.18	183.19	0.98
RX 6800	granitemoe 3B IQ3_S - 3.4375 bpw	4	pp512	213.26	217.17	1.02
RX 6800	granitemoe 3B IQ3_S - 3.4375 bpw	5	pp512	271.42	223.91	0.82
RX 6800	granitemoe 3B IQ3_S - 3.4375 bpw	6	pp512	315.03	237.18	0.75
RX 6800	granitemoe 3B IQ3_S - 3.4375 bpw	7	pp512	351.27	252.44	0.72
RX 6800	granitemoe 3B IQ3_S - 3.4375 bpw	8	pp512	395.11	267.92	0.68
RX 6800	granitemoe 3B IQ3_S mix - 3.66 bpw	2	pp512	151.79	153.64	1.01
RX 6800	granitemoe 3B IQ3_S mix - 3.66 bpw	3	pp512	188.96	186.59	0.99
RX 6800	granitemoe 3B IQ3_S mix - 3.66 bpw	4	pp512	215.94	220.15	1.02
RX 6800	granitemoe 3B IQ3_S mix - 3.66 bpw	5	pp512	266.43	224.69	0.84
RX 6800	granitemoe 3B IQ3_S mix - 3.66 bpw	6	pp512	309.25	238.58	0.77
RX 6800	granitemoe 3B IQ3_S mix - 3.66 bpw	7	pp512	347.59	255.13	0.73
RX 6800	granitemoe 3B IQ3_S mix - 3.66 bpw	8	pp512	388.49	270.94	0.70
RX 6800	granitemoe 3B IQ3_XS - 3.3 bpw	2	pp512	148.99	150.19	1.01
RX 6800	granitemoe 3B IQ3_XS - 3.3 bpw	3	pp512	185.59	182.58	0.98
RX 6800	granitemoe 3B IQ3_XS - 3.3 bpw	4	pp512	213.84	217.22	1.02
RX 6800	granitemoe 3B IQ3_XS - 3.3 bpw	5	pp512	265.72	223.98	0.84
RX 6800	granitemoe 3B IQ3_XS - 3.3 bpw	6	pp512	307.52	237.99	0.77
RX 6800	granitemoe 3B IQ3_XS - 3.3 bpw	7	pp512	342.18	252.27	0.74
RX 6800	granitemoe 3B IQ3_XS - 3.3 bpw	8	pp512	385.50	269.52	0.70
RX 6800	granitemoe 3B IQ3_XXS - 3.0625 bpw	2	pp512	150.22	151.77	1.01
RX 6800	granitemoe 3B IQ3_XXS - 3.0625 bpw	3	pp512	187.24	184.98	0.99
RX 6800	granitemoe 3B IQ3_XXS - 3.0625 bpw	4	pp512	214.30	218.32	1.02
RX 6800	granitemoe 3B IQ3_XXS - 3.0625 bpw	5	pp512	264.58	225.82	0.85
RX 6800	granitemoe 3B IQ3_XXS - 3.0625 bpw	6	pp512	303.18	238.83	0.79
RX 6800	granitemoe 3B IQ3_XXS - 3.0625 bpw	7	pp512	340.11	253.93	0.75
RX 6800	granitemoe 3B IQ3_XXS - 3.0625 bpw	8	pp512	381.81	271.57	0.71
RX 6800	granitemoe 3B IQ4_NL - 4.5 bpw	2	pp512	214.50	229.25	1.07
RX 6800	granitemoe 3B IQ4_NL - 4.5 bpw	3	pp512	295.00	307.02	1.04
RX 6800	granitemoe 3B IQ4_NL - 4.5 bpw	4	pp512	363.13	383.17	1.06
RX 6800	granitemoe 3B IQ4_NL - 4.5 bpw	5	pp512	330.69	415.37	1.26
RX 6800	granitemoe 3B IQ4_NL - 4.5 bpw	6	pp512	384.66	462.90	1.20
RX 6800	granitemoe 3B IQ4_NL - 4.5 bpw	7	pp512	438.43	514.96	1.17
RX 6800	granitemoe 3B IQ4_NL - 4.5 bpw	8	pp512	488.61	556.90	1.14
RX 6800	granitemoe 3B IQ4_XS - 4.25 bpw	2	pp512	210.05	216.44	1.03
RX 6800	granitemoe 3B IQ4_XS - 4.25 bpw	3	pp512	282.65	291.69	1.03
RX 6800	granitemoe 3B IQ4_XS - 4.25 bpw	4	pp512	342.26	354.56	1.04
RX 6800	granitemoe 3B IQ4_XS - 4.25 bpw	5	pp512	324.56	380.21	1.17
RX 6800	granitemoe 3B IQ4_XS - 4.25 bpw	6	pp512	374.16	417.66	1.12
RX 6800	granitemoe 3B IQ4_XS - 4.25 bpw	7	pp512	426.34	463.63	1.09
RX 6800	granitemoe 3B IQ4_XS - 4.25 bpw	8	pp512	480.39	502.83	1.05
RX 6800	granitemoe 3B Q2_K_M	2	pp512	181.32	190.77	1.05
RX 6800	granitemoe 3B Q2_K_M	3	pp512	228.15	242.56	1.06
RX 6800	granitemoe 3B Q2_K_M	4	pp512	264.64	289.08	1.09
RX 6800	granitemoe 3B Q2_K_M	5	pp512	269.34	297.61	1.10
RX 6800	granitemoe 3B Q2_K_M	6	pp512	310.94	328.02	1.05
RX 6800	granitemoe 3B Q2_K_M	7	pp512	350.88	357.12	1.02
RX 6800	granitemoe 3B Q2_K_M	8	pp512	391.01	384.28	0.98
RX 6800	granitemoe 3B Q3_K_S	2	pp512	166.42	181.15	1.09
RX 6800	granitemoe 3B Q3_K_S	3	pp512	202.93	221.08	1.09
RX 6800	granitemoe 3B Q3_K_S	4	pp512	234.18	265.05	1.13
RX 6800	granitemoe 3B Q3_K_S	5	pp512	278.04	271.68	0.98
RX 6800	granitemoe 3B Q3_K_S	6	pp512	323.25	296.26	0.92
RX 6800	granitemoe 3B Q3_K_S	7	pp512	366.51	321.59	0.88
RX 6800	granitemoe 3B Q3_K_S	8	pp512	410.36	344.56	0.84
RX 6800	granitemoe 3B Q4_0	2	pp512	218.94	235.33	1.07
RX 6800	granitemoe 3B Q4_0	3	pp512	299.71	316.16	1.05
RX 6800	granitemoe 3B Q4_0	4	pp512	370.63	399.47	1.08
RX 6800	granitemoe 3B Q4_0	5	pp512	342.53	434.09	1.27
RX 6800	granitemoe 3B Q4_0	6	pp512	399.90	487.29	1.22
RX 6800	granitemoe 3B Q4_0	7	pp512	458.62	545.92	1.19
RX 6800	granitemoe 3B Q4_0	8	pp512	518.58	601.15	1.16
RX 6800	granitemoe 3B Q4_1	2	pp512	216.28	230.85	1.07
RX 6800	granitemoe 3B Q4_1	3	pp512	300.04	316.29	1.05
RX 6800	granitemoe 3B Q4_1	4	pp512	370.69	398.86	1.08
RX 6800	granitemoe 3B Q4_1	5	pp512	346.04	436.21	1.26
RX 6800	granitemoe 3B Q4_1	6	pp512	404.74	490.24	1.21
RX 6800	granitemoe 3B Q4_1	7	pp512	463.60	551.84	1.19
RX 6800	granitemoe 3B Q4_1	8	pp512	523.29	606.11	1.16
RX 6800	granitemoe 3B Q4_K_S	2	pp512	183.75	190.58	1.04
RX 6800	granitemoe 3B Q4_K_S	3	pp512	240.80	251.01	1.04
RX 6800	granitemoe 3B Q4_K_S	4	pp512	286.46	303.84	1.06
RX 6800	granitemoe 3B Q4_K_S	5	pp512	299.65	311.63	1.04
RX 6800	granitemoe 3B Q4_K_S	6	pp512	345.07	341.86	0.99
RX 6800	granitemoe 3B Q4_K_S	7	pp512	391.58	374.55	0.96
RX 6800	granitemoe 3B Q4_K_S	8	pp512	433.41	405.73	0.94
RX 6800	granitemoe 3B Q5_0	2	pp512	208.51	213.38	1.02
RX 6800	granitemoe 3B Q5_0	3	pp512	281.75	289.38	1.03
RX 6800	granitemoe 3B Q5_0	4	pp512	342.07	357.23	1.04
RX 6800	granitemoe 3B Q5_0	5	pp512	306.99	381.48	1.24
RX 6800	granitemoe 3B Q5_0	6	pp512	355.88	422.79	1.19
RX 6800	granitemoe 3B Q5_0	7	pp512	404.46	467.27	1.16
RX 6800	granitemoe 3B Q5_0	8	pp512	450.72	503.02	1.12
RX 6800	granitemoe 3B Q5_1	2	pp512	208.92	213.82	1.02
RX 6800	granitemoe 3B Q5_1	3	pp512	281.01	290.09	1.03
RX 6800	granitemoe 3B Q5_1	4	pp512	342.14	357.47	1.04
RX 6800	granitemoe 3B Q5_1	5	pp512	320.77	380.76	1.19
RX 6800	granitemoe 3B Q5_1	6	pp512	371.50	422.31	1.14
RX 6800	granitemoe 3B Q5_1	7	pp512	423.12	466.96	1.10
RX 6800	granitemoe 3B Q5_1	8	pp512	472.78	503.37	1.06
RX 6800	granitemoe 3B Q5_K_S	2	pp512	180.40	187.60	1.04
RX 6800	granitemoe 3B Q5_K_S	3	pp512	235.30	244.85	1.04
RX 6800	granitemoe 3B Q5_K_S	4	pp512	276.38	292.23	1.06
RX 6800	granitemoe 3B Q5_K_S	5	pp512	284.03	299.06	1.05
RX 6800	granitemoe 3B Q5_K_S	6	pp512	326.05	328.75	1.01
RX 6800	granitemoe 3B Q5_K_S	7	pp512	368.36	360.28	0.98
RX 6800	granitemoe 3B Q5_K_S	8	pp512	410.78	394.62	0.96
RX 6800	granitemoe 3B Q6_K	2	pp512	180.13	185.80	1.03
RX 6800	granitemoe 3B Q6_K	3	pp512	232.53	236.41	1.02
RX 6800	granitemoe 3B Q6_K	4	pp512	273.77	283.10	1.03
RX 6800	granitemoe 3B Q6_K	5	pp512	279.25	291.53	1.04
RX 6800	granitemoe 3B Q6_K	6	pp512	322.81	317.83	0.98
RX 6800	granitemoe 3B Q6_K	7	pp512	367.81	345.75	0.94
RX 6800	granitemoe 3B Q6_K	8	pp512	411.49	370.64	0.90
RX 6800	granitemoe 3B Q8_0	2	pp512	195.79	203.69	1.04
RX 6800	granitemoe 3B Q8_0	3	pp512	264.13	281.89	1.07
RX 6800	granitemoe 3B Q8_0	4	pp512	323.20	350.98	1.09
RX 6800	granitemoe 3B Q8_0	5	pp512	312.59	380.28	1.22
RX 6800	granitemoe 3B Q8_0	6	pp512	362.26	424.33	1.17
RX 6800	granitemoe 3B Q8_0	7	pp512	412.54	473.54	1.15
RX 6800	granitemoe 3B Q8_0	8	pp512	463.75	517.51	1.12
RX 9060 XT	gpt-oss 20B MXFP4 MoE	2	pp512	121.09	130.06	1.07
RX 9060 XT	gpt-oss 20B MXFP4 MoE	3	pp512	165.69	187.34	1.13
RX 9060 XT	gpt-oss 20B MXFP4 MoE	4	pp512	192.24	225.32	1.17
RX 9060 XT	gpt-oss 20B MXFP4 MoE	5	pp512	246.87	250.99	1.02
RX 9060 XT	gpt-oss 20B MXFP4 MoE	6	pp512	288.28	276.69	0.96
RX 9060 XT	gpt-oss 20B MXFP4 MoE	7	pp512	326.37	299.22	0.92
RX 9060 XT	gpt-oss 20B MXFP4 MoE	8	pp512	348.06	310.25	0.89
RX 9060 XT	granitemoe 3B IQ1_S - 1.5625 bpw	2	pp512	243.37	263.85	1.08
RX 9060 XT	granitemoe 3B IQ1_S - 1.5625 bpw	3	pp512	311.17	349.10	1.12
RX 9060 XT	granitemoe 3B IQ1_S - 1.5625 bpw	4	pp512	360.17	430.38	1.19
RX 9060 XT	granitemoe 3B IQ1_S - 1.5625 bpw	5	pp512	457.51	542.47	1.19
RX 9060 XT	granitemoe 3B IQ1_S - 1.5625 bpw	6	pp512	493.70	551.20	1.12
RX 9060 XT	granitemoe 3B IQ1_S - 1.5625 bpw	7	pp512	575.20	611.51	1.06
RX 9060 XT	granitemoe 3B IQ1_S - 1.5625 bpw	8	pp512	580.58	566.04	0.97
RX 9060 XT	granitemoe 3B IQ2_S - 2.5 bpw	2	pp512	180.52	167.77	0.93
RX 9060 XT	granitemoe 3B IQ2_S - 2.5 bpw	3	pp512	225.36	209.35	0.93
RX 9060 XT	granitemoe 3B IQ2_S - 2.5 bpw	4	pp512	252.19	251.08	1.00
RX 9060 XT	granitemoe 3B IQ2_S - 2.5 bpw	5	pp512	302.23	279.13	0.92
RX 9060 XT	granitemoe 3B IQ2_S - 2.5 bpw	6	pp512	348.04	298.63	0.86
RX 9060 XT	granitemoe 3B IQ2_S - 2.5 bpw	7	pp512	374.57	305.67	0.82
RX 9060 XT	granitemoe 3B IQ2_S - 2.5 bpw	8	pp512	396.28	298.37	0.75
RX 9060 XT	granitemoe 3B IQ2_XS - 2.3125 bpw	2	pp512	176.66	184.16	1.04
RX 9060 XT	granitemoe 3B IQ2_XS - 2.3125 bpw	3	pp512	231.83	236.58	1.02
RX 9060 XT	granitemoe 3B IQ2_XS - 2.3125 bpw	4	pp512	250.22	278.97	1.11
RX 9060 XT	granitemoe 3B IQ2_XS - 2.3125 bpw	5	pp512	283.38	271.38	0.96
RX 9060 XT	granitemoe 3B IQ2_XS - 2.3125 bpw	6	pp512	326.28	291.92	0.89
RX 9060 XT	granitemoe 3B IQ2_XS - 2.3125 bpw	7	pp512	370.45	314.11	0.85
RX 9060 XT	granitemoe 3B IQ2_XS - 2.3125 bpw	8	pp512	392.72	307.40	0.78
RX 9060 XT	granitemoe 3B IQ2_XXS - 2.0625 bpw	2	pp512	174.01	183.61	1.06
RX 9060 XT	granitemoe 3B IQ2_XXS - 2.0625 bpw	3	pp512	234.80	243.18	1.04
RX 9060 XT	granitemoe 3B IQ2_XXS - 2.0625 bpw	4	pp512	252.32	260.16	1.03
RX 9060 XT	granitemoe 3B IQ2_XXS - 2.0625 bpw	5	pp512	422.07	309.31	0.73
RX 9060 XT	granitemoe 3B IQ2_XXS - 2.0625 bpw	6	pp512	413.04	297.64	0.72
RX 9060 XT	granitemoe 3B IQ2_XXS - 2.0625 bpw	7	pp512	478.40	319.49	0.67
RX 9060 XT	granitemoe 3B IQ2_XXS - 2.0625 bpw	8	pp512	496.30	312.65	0.63
RX 9060 XT	granitemoe 3B IQ3_S - 3.4375 bpw	2	pp512	191.14	194.27	1.02
RX 9060 XT	granitemoe 3B IQ3_S - 3.4375 bpw	3	pp512	228.59	237.02	1.04
RX 9060 XT	granitemoe 3B IQ3_S - 3.4375 bpw	4	pp512	273.21	275.95	1.01
RX 9060 XT	granitemoe 3B IQ3_S - 3.4375 bpw	5	pp512	412.22	302.62	0.73
RX 9060 XT	granitemoe 3B IQ3_S - 3.4375 bpw	6	pp512	480.14	320.86	0.67
RX 9060 XT	granitemoe 3B IQ3_S - 3.4375 bpw	7	pp512	470.05	311.68	0.66
RX 9060 XT	granitemoe 3B IQ3_S - 3.4375 bpw	8	pp512	494.69	301.43	0.61
RX 9060 XT	granitemoe 3B IQ3_S mix - 3.66 bpw	2	pp512	183.85	197.53	1.07
RX 9060 XT	granitemoe 3B IQ3_S mix - 3.66 bpw	3	pp512	212.78	224.31	1.05
RX 9060 XT	granitemoe 3B IQ3_S mix - 3.66 bpw	4	pp512	244.91	258.77	1.06
RX 9060 XT	granitemoe 3B IQ3_S mix - 3.66 bpw	5	pp512	379.81	291.82	0.77
RX 9060 XT	granitemoe 3B IQ3_S mix - 3.66 bpw	6	pp512	446.21	311.05	0.70
RX 9060 XT	granitemoe 3B IQ3_S mix - 3.66 bpw	7	pp512	466.92	317.00	0.68
RX 9060 XT	granitemoe 3B IQ3_S mix - 3.66 bpw	8	pp512	488.19	308.73	0.63
RX 9060 XT	granitemoe 3B IQ3_XS - 3.3 bpw	2	pp512	183.19	168.56	0.92
RX 9060 XT	granitemoe 3B IQ3_XS - 3.3 bpw	3	pp512	223.51	219.15	0.98
RX 9060 XT	granitemoe 3B IQ3_XS - 3.3 bpw	4	pp512	275.02	280.03	1.02
RX 9060 XT	granitemoe 3B IQ3_XS - 3.3 bpw	5	pp512	382.14	284.90	0.75
RX 9060 XT	granitemoe 3B IQ3_XS - 3.3 bpw	6	pp512	439.01	303.46	0.69
RX 9060 XT	granitemoe 3B IQ3_XS - 3.3 bpw	7	pp512	467.83	305.62	0.65
RX 9060 XT	granitemoe 3B IQ3_XS - 3.3 bpw	8	pp512	491.23	296.56	0.60
RX 9060 XT	granitemoe 3B IQ3_XXS - 3.0625 bpw	2	pp512	179.39	169.78	0.95
RX 9060 XT	granitemoe 3B IQ3_XXS - 3.0625 bpw	3	pp512	214.34	211.67	0.99
RX 9060 XT	granitemoe 3B IQ3_XXS - 3.0625 bpw	4	pp512	255.16	254.67	1.00
RX 9060 XT	granitemoe 3B IQ3_XXS - 3.0625 bpw	5	pp512	397.04	289.71	0.73
RX 9060 XT	granitemoe 3B IQ3_XXS - 3.0625 bpw	6	pp512	448.04	301.37	0.67
RX 9060 XT	granitemoe 3B IQ3_XXS - 3.0625 bpw	7	pp512	475.25	302.96	0.64
RX 9060 XT	granitemoe 3B IQ3_XXS - 3.0625 bpw	8	pp512	498.97	296.90	0.60
RX 9060 XT	granitemoe 3B IQ4_NL - 4.5 bpw	2	pp512	187.49	264.05	1.41
RX 9060 XT	granitemoe 3B IQ4_NL - 4.5 bpw	3	pp512	233.10	367.20	1.58
RX 9060 XT	granitemoe 3B IQ4_NL - 4.5 bpw	4	pp512	263.12	458.04	1.74
RX 9060 XT	granitemoe 3B IQ4_NL - 4.5 bpw	5	pp512	490.11	524.24	1.07
RX 9060 XT	granitemoe 3B IQ4_NL - 4.5 bpw	6	pp512	566.64	589.19	1.04
RX 9060 XT	granitemoe 3B IQ4_NL - 4.5 bpw	7	pp512	646.53	652.25	1.01
RX 9060 XT	granitemoe 3B IQ4_NL - 4.5 bpw	8	pp512	666.23	605.74	0.91
RX 9060 XT	granitemoe 3B IQ4_XS - 4.25 bpw	2	pp512	170.14	262.25	1.54
RX 9060 XT	granitemoe 3B IQ4_XS - 4.25 bpw	3	pp512	205.58	360.60	1.75
RX 9060 XT	granitemoe 3B IQ4_XS - 4.25 bpw	4	pp512	229.96	446.90	1.94
RX 9060 XT	granitemoe 3B IQ4_XS - 4.25 bpw	5	pp512	493.72	513.45	1.04
RX 9060 XT	granitemoe 3B IQ4_XS - 4.25 bpw	6	pp512	571.48	568.69	1.00
RX 9060 XT	granitemoe 3B IQ4_XS - 4.25 bpw	7	pp512	648.58	628.33	0.97
RX 9060 XT	granitemoe 3B IQ4_XS - 4.25 bpw	8	pp512	667.74	584.77	0.88
RX 9060 XT	granitemoe 3B Q2_K_M	2	pp512	212.09	257.84	1.22
RX 9060 XT	granitemoe 3B Q2_K_M	3	pp512	264.35	342.59	1.30
RX 9060 XT	granitemoe 3B Q2_K_M	4	pp512	303.49	420.66	1.39
RX 9060 XT	granitemoe 3B Q2_K_M	5	pp512	356.96	444.51	1.25
RX 9060 XT	granitemoe 3B Q2_K_M	6	pp512	391.57	464.52	1.19
RX 9060 XT	granitemoe 3B Q2_K_M	7	pp512	415.15	472.17	1.14
RX 9060 XT	granitemoe 3B Q2_K_M	8	pp512	438.30	452.63	1.03
RX 9060 XT	granitemoe 3B Q3_K_S	2	pp512	221.98	243.17	1.10
RX 9060 XT	granitemoe 3B Q3_K_S	3	pp512	280.67	313.19	1.12
RX 9060 XT	granitemoe 3B Q3_K_S	4	pp512	324.04	360.80	1.11
RX 9060 XT	granitemoe 3B Q3_K_S	5	pp512	407.79	399.26	0.98
RX 9060 XT	granitemoe 3B Q3_K_S	6	pp512	408.48	381.87	0.93
RX 9060 XT	granitemoe 3B Q3_K_S	7	pp512	466.31	415.55	0.89
RX 9060 XT	granitemoe 3B Q3_K_S	8	pp512	489.27	403.68	0.83
RX 9060 XT	granitemoe 3B Q4_0	2	pp512	189.07	265.71	1.41
RX 9060 XT	granitemoe 3B Q4_0	3	pp512	236.49	371.47	1.57
RX 9060 XT	granitemoe 3B Q4_0	4	pp512	267.57	464.67	1.74
RX 9060 XT	granitemoe 3B Q4_0	5	pp512	478.20	530.02	1.11
RX 9060 XT	granitemoe 3B Q4_0	6	pp512	550.24	598.10	1.09
RX 9060 XT	granitemoe 3B Q4_0	7	pp512	631.42	681.84	1.08
RX 9060 XT	granitemoe 3B Q4_0	8	pp512	652.91	631.30	0.97
RX 9060 XT	granitemoe 3B Q4_1	2	pp512	191.09	264.04	1.38
RX 9060 XT	granitemoe 3B Q4_1	3	pp512	236.62	369.37	1.56
RX 9060 XT	granitemoe 3B Q4_1	4	pp512	269.49	461.82	1.71
RX 9060 XT	granitemoe 3B Q4_1	5	pp512	488.08	537.93	1.10
RX 9060 XT	granitemoe 3B Q4_1	6	pp512	563.51	611.12	1.08
RX 9060 XT	granitemoe 3B Q4_1	7	pp512	642.30	680.75	1.06
RX 9060 XT	granitemoe 3B Q4_1	8	pp512	661.14	631.76	0.96
RX 9060 XT	granitemoe 3B Q4_K_S	2	pp512	146.27	251.98	1.72
RX 9060 XT	granitemoe 3B Q4_K_S	3	pp512	163.20	309.98	1.90
RX 9060 XT	granitemoe 3B Q4_K_S	4	pp512	175.20	352.04	2.01
RX 9060 XT	granitemoe 3B Q4_K_S	5	pp512	403.14	402.39	1.00
RX 9060 XT	granitemoe 3B Q4_K_S	6	pp512	446.84	449.07	1.00
RX 9060 XT	granitemoe 3B Q4_K_S	7	pp512	509.42	495.79	0.97
RX 9060 XT	granitemoe 3B Q4_K_S	8	pp512	534.44	475.92	0.89
RX 9060 XT	granitemoe 3B Q5_0	2	pp512	180.50	249.87	1.38
RX 9060 XT	granitemoe 3B Q5_0	3	pp512	220.06	337.25	1.53
RX 9060 XT	granitemoe 3B Q5_0	4	pp512	248.02	423.36	1.71
RX 9060 XT	granitemoe 3B Q5_0	5	pp512	433.25	478.83	1.11
RX 9060 XT	granitemoe 3B Q5_0	6	pp512	505.76	538.34	1.06
RX 9060 XT	granitemoe 3B Q5_0	7	pp512	577.74	598.05	1.04
RX 9060 XT	granitemoe 3B Q5_0	8	pp512	603.57	559.85	0.93
RX 9060 XT	granitemoe 3B Q5_1	2	pp512	183.40	248.73	1.36
RX 9060 XT	granitemoe 3B Q5_1	3	pp512	224.80	345.20	1.54
RX 9060 XT	granitemoe 3B Q5_1	4	pp512	253.11	429.75	1.70
RX 9060 XT	granitemoe 3B Q5_1	5	pp512	459.75	494.03	1.07
RX 9060 XT	granitemoe 3B Q5_1	6	pp512	529.72	549.46	1.04
RX 9060 XT	granitemoe 3B Q5_1	7	pp512	603.54	608.85	1.01
RX 9060 XT	granitemoe 3B Q5_1	8	pp512	624.63	571.45	0.91
RX 9060 XT	granitemoe 3B Q5_K_S	2	pp512	143.20	238.99	1.67
RX 9060 XT	granitemoe 3B Q5_K_S	3	pp512	166.55	320.01	1.92
RX 9060 XT	granitemoe 3B Q5_K_S	4	pp512	179.11	340.44	1.90
RX 9060 XT	granitemoe 3B Q5_K_S	5	pp512	380.65	386.85	1.02
RX 9060 XT	granitemoe 3B Q5_K_S	6	pp512	446.56	429.78	0.96
RX 9060 XT	granitemoe 3B Q5_K_S	7	pp512	499.39	472.26	0.95
RX 9060 XT	granitemoe 3B Q5_K_S	8	pp512	524.07	456.61	0.87
RX 9060 XT	granitemoe 3B Q6_K	2	pp512	165.62	226.96	1.37
RX 9060 XT	granitemoe 3B Q6_K	3	pp512	198.65	303.48	1.53
RX 9060 XT	granitemoe 3B Q6_K	4	pp512	220.59	366.39	1.66
RX 9060 XT	granitemoe 3B Q6_K	5	pp512	393.00	402.12	1.02
RX 9060 XT	granitemoe 3B Q6_K	6	pp512	440.39	431.86	0.98
RX 9060 XT	granitemoe 3B Q6_K	7	pp512	494.92	465.48	0.94
RX 9060 XT	granitemoe 3B Q6_K	8	pp512	510.00	438.87	0.86
RX 9060 XT	granitemoe 3B Q8_0	2	pp512	171.41	191.39	1.12
RX 9060 XT	granitemoe 3B Q8_0	3	pp512	209.32	297.49	1.42
RX 9060 XT	granitemoe 3B Q8_0	4	pp512	237.98	366.33	1.54
RX 9060 XT	granitemoe 3B Q8_0	5	pp512	400.29	421.73	1.05
RX 9060 XT	granitemoe 3B Q8_0	6	pp512	458.33	475.33	1.04
RX 9060 XT	granitemoe 3B Q8_0	7	pp512	520.15	529.85	1.02
RX 9060 XT	granitemoe 3B Q8_0	8	pp512	545.56	509.55	0.93
V100-PCIE-32GB	gpt-oss 20B MXFP4 MoE	2	pp512	243.61	266.20	1.09
V100-PCIE-32GB	gpt-oss 20B MXFP4 MoE	3	pp512	282.09	318.84	1.13
V100-PCIE-32GB	gpt-oss 20B MXFP4 MoE	4	pp512	296.40	342.72	1.16
V100-PCIE-32GB	gpt-oss 20B MXFP4 MoE	5	pp512	202.69	383.23	1.89
V100-PCIE-32GB	gpt-oss 20B MXFP4 MoE	6	pp512	231.56	396.84	1.71
V100-PCIE-32GB	gpt-oss 20B MXFP4 MoE	7	pp512	260.63	422.79	1.62
V100-PCIE-32GB	gpt-oss 20B MXFP4 MoE	8	pp512	288.14	439.79	1.53
V100-PCIE-32GB	granitemoe 3B IQ1_S - 1.5625 bpw	2	pp512	328.56	397.52	1.21
V100-PCIE-32GB	granitemoe 3B IQ1_S - 1.5625 bpw	3	pp512	416.15	537.01	1.29
V100-PCIE-32GB	granitemoe 3B IQ1_S - 1.5625 bpw	4	pp512	462.68	617.16	1.33
V100-PCIE-32GB	granitemoe 3B IQ1_S - 1.5625 bpw	5	pp512	461.33	715.67	1.55
V100-PCIE-32GB	granitemoe 3B IQ1_S - 1.5625 bpw	6	pp512	534.41	783.83	1.47
V100-PCIE-32GB	granitemoe 3B IQ1_S - 1.5625 bpw	7	pp512	607.17	848.09	1.40
V100-PCIE-32GB	granitemoe 3B IQ1_S - 1.5625 bpw	8	pp512	676.81	894.58	1.32
V100-PCIE-32GB	granitemoe 3B IQ2_S - 2.5 bpw	2	pp512	308.03	368.71	1.20
V100-PCIE-32GB	granitemoe 3B IQ2_S - 2.5 bpw	3	pp512	385.17	488.31	1.27
V100-PCIE-32GB	granitemoe 3B IQ2_S - 2.5 bpw	4	pp512	427.82	562.70	1.32
V100-PCIE-32GB	granitemoe 3B IQ2_S - 2.5 bpw	5	pp512	423.79	639.54	1.51
V100-PCIE-32GB	granitemoe 3B IQ2_S - 2.5 bpw	6	pp512	489.45	688.44	1.41
V100-PCIE-32GB	granitemoe 3B IQ2_S - 2.5 bpw	7	pp512	554.10	744.62	1.34
V100-PCIE-32GB	granitemoe 3B IQ2_S - 2.5 bpw	8	pp512	622.42	768.93	1.24
V100-PCIE-32GB	granitemoe 3B IQ2_XS - 2.3125 bpw	2	pp512	312.99	375.90	1.20
V100-PCIE-32GB	granitemoe 3B IQ2_XS - 2.3125 bpw	3	pp512	386.41	492.96	1.28
V100-PCIE-32GB	granitemoe 3B IQ2_XS - 2.3125 bpw	4	pp512	433.87	574.46	1.32
V100-PCIE-32GB	granitemoe 3B IQ2_XS - 2.3125 bpw	5	pp512	433.00	655.21	1.51
V100-PCIE-32GB	granitemoe 3B IQ2_XS - 2.3125 bpw	6	pp512	505.01	712.22	1.41
V100-PCIE-32GB	granitemoe 3B IQ2_XS - 2.3125 bpw	7	pp512	576.74	776.64	1.35
V100-PCIE-32GB	granitemoe 3B IQ2_XS - 2.3125 bpw	8	pp512	644.35	802.45	1.25
V100-PCIE-32GB	granitemoe 3B IQ2_XXS - 2.0625 bpw	2	pp512	313.71	390.83	1.25
V100-PCIE-32GB	granitemoe 3B IQ2_XXS - 2.0625 bpw	3	pp512	394.97	520.24	1.32
V100-PCIE-32GB	granitemoe 3B IQ2_XXS - 2.0625 bpw	4	pp512	439.98	596.23	1.36
V100-PCIE-32GB	granitemoe 3B IQ2_XXS - 2.0625 bpw	5	pp512	457.01	692.09	1.51
V100-PCIE-32GB	granitemoe 3B IQ2_XXS - 2.0625 bpw	6	pp512	532.74	747.93	1.40
V100-PCIE-32GB	granitemoe 3B IQ2_XXS - 2.0625 bpw	7	pp512	615.61	809.29	1.31
V100-PCIE-32GB	granitemoe 3B IQ2_XXS - 2.0625 bpw	8	pp512	688.32	867.37	1.26
V100-PCIE-32GB	granitemoe 3B IQ3_S - 3.4375 bpw	2	pp512	298.51	354.23	1.19
V100-PCIE-32GB	granitemoe 3B IQ3_S - 3.4375 bpw	3	pp512	369.93	463.09	1.25
V100-PCIE-32GB	granitemoe 3B IQ3_S - 3.4375 bpw	4	pp512	413.61	539.03	1.30
V100-PCIE-32GB	granitemoe 3B IQ3_S - 3.4375 bpw	5	pp512	433.44	612.42	1.41
V100-PCIE-32GB	granitemoe 3B IQ3_S - 3.4375 bpw	6	pp512	504.87	675.28	1.34
V100-PCIE-32GB	granitemoe 3B IQ3_S - 3.4375 bpw	7	pp512	579.51	708.75	1.22
V100-PCIE-32GB	granitemoe 3B IQ3_S - 3.4375 bpw	8	pp512	654.12	754.80	1.15
V100-PCIE-32GB	granitemoe 3B IQ3_S mix - 3.66 bpw	2	pp512	300.40	360.75	1.20
V100-PCIE-32GB	granitemoe 3B IQ3_S mix - 3.66 bpw	3	pp512	370.77	469.56	1.27
V100-PCIE-32GB	granitemoe 3B IQ3_S mix - 3.66 bpw	4	pp512	413.88	541.58	1.31
V100-PCIE-32GB	granitemoe 3B IQ3_S mix - 3.66 bpw	5	pp512	422.99	601.81	1.42
V100-PCIE-32GB	granitemoe 3B IQ3_S mix - 3.66 bpw	6	pp512	487.83	658.11	1.35
V100-PCIE-32GB	granitemoe 3B IQ3_S mix - 3.66 bpw	7	pp512	559.05	697.06	1.25
V100-PCIE-32GB	granitemoe 3B IQ3_S mix - 3.66 bpw	8	pp512	624.51	741.03	1.19
V100-PCIE-32GB	granitemoe 3B IQ3_XS - 3.3 bpw	2	pp512	300.74	360.73	1.20
V100-PCIE-32GB	granitemoe 3B IQ3_XS - 3.3 bpw	3	pp512	376.03	473.19	1.26
V100-PCIE-32GB	granitemoe 3B IQ3_XS - 3.3 bpw	4	pp512	418.22	546.83	1.31
V100-PCIE-32GB	granitemoe 3B IQ3_XS - 3.3 bpw	5	pp512	424.45	617.08	1.45
V100-PCIE-32GB	granitemoe 3B IQ3_XS - 3.3 bpw	6	pp512	492.59	681.95	1.38
V100-PCIE-32GB	granitemoe 3B IQ3_XS - 3.3 bpw	7	pp512	562.77	724.62	1.29
V100-PCIE-32GB	granitemoe 3B IQ3_XS - 3.3 bpw	8	pp512	634.42	764.45	1.20
V100-PCIE-32GB	granitemoe 3B IQ3_XXS - 3.0625 bpw	2	pp512	307.25	368.07	1.20
V100-PCIE-32GB	granitemoe 3B IQ3_XXS - 3.0625 bpw	3	pp512	383.09	487.78	1.27
V100-PCIE-32GB	granitemoe 3B IQ3_XXS - 3.0625 bpw	4	pp512	426.99	550.38	1.29
V100-PCIE-32GB	granitemoe 3B IQ3_XXS - 3.0625 bpw	5	pp512	433.61	644.08	1.49
V100-PCIE-32GB	granitemoe 3B IQ3_XXS - 3.0625 bpw	6	pp512	500.05	693.61	1.39
V100-PCIE-32GB	granitemoe 3B IQ3_XXS - 3.0625 bpw	7	pp512	568.82	749.16	1.32
V100-PCIE-32GB	granitemoe 3B IQ3_XXS - 3.0625 bpw	8	pp512	635.95	766.83	1.21
V100-PCIE-32GB	granitemoe 3B IQ4_NL - 4.5 bpw	2	pp512	341.98	423.03	1.24
V100-PCIE-32GB	granitemoe 3B IQ4_NL - 4.5 bpw	3	pp512	424.63	577.76	1.36
V100-PCIE-32GB	granitemoe 3B IQ4_NL - 4.5 bpw	4	pp512	476.63	692.77	1.45
V100-PCIE-32GB	granitemoe 3B IQ4_NL - 4.5 bpw	5	pp512	514.13	824.52	1.60
V100-PCIE-32GB	granitemoe 3B IQ4_NL - 4.5 bpw	6	pp512	596.25	911.29	1.53
V100-PCIE-32GB	granitemoe 3B IQ4_NL - 4.5 bpw	7	pp512	683.58	990.94	1.45
V100-PCIE-32GB	granitemoe 3B IQ4_NL - 4.5 bpw	8	pp512	761.16	1077.06	1.42
V100-PCIE-32GB	granitemoe 3B IQ4_XS - 4.25 bpw	2	pp512	331.56	413.64	1.25
V100-PCIE-32GB	granitemoe 3B IQ4_XS - 4.25 bpw	3	pp512	413.47	561.24	1.36
V100-PCIE-32GB	granitemoe 3B IQ4_XS - 4.25 bpw	4	pp512	462.31	664.33	1.44
V100-PCIE-32GB	granitemoe 3B IQ4_XS - 4.25 bpw	5	pp512	511.27	781.46	1.53
V100-PCIE-32GB	granitemoe 3B IQ4_XS - 4.25 bpw	6	pp512	596.67	872.84	1.46
V100-PCIE-32GB	granitemoe 3B IQ4_XS - 4.25 bpw	7	pp512	683.48	948.58	1.39
V100-PCIE-32GB	granitemoe 3B IQ4_XS - 4.25 bpw	8	pp512	774.74	1035.27	1.34
V100-PCIE-32GB	granitemoe 3B Q2_K_M	2	pp512	308.09	380.03	1.23
V100-PCIE-32GB	granitemoe 3B Q2_K_M	3	pp512	385.67	501.29	1.30
V100-PCIE-32GB	granitemoe 3B Q2_K_M	4	pp512	426.56	586.18	1.37
V100-PCIE-32GB	granitemoe 3B Q2_K_M	5	pp512	454.00	656.92	1.45
V100-PCIE-32GB	granitemoe 3B Q2_K_M	6	pp512	514.60	677.75	1.32
V100-PCIE-32GB	granitemoe 3B Q2_K_M	7	pp512	583.47	735.41	1.26
V100-PCIE-32GB	granitemoe 3B Q2_K_M	8	pp512	651.50	786.15	1.21
V100-PCIE-32GB	granitemoe 3B Q3_K_S	2	pp512	284.62	342.55	1.20
V100-PCIE-32GB	granitemoe 3B Q3_K_S	3	pp512	354.08	449.37	1.27
V100-PCIE-32GB	granitemoe 3B Q3_K_S	4	pp512	392.03	516.44	1.32
V100-PCIE-32GB	granitemoe 3B Q3_K_S	5	pp512	454.56	572.67	1.26
V100-PCIE-32GB	granitemoe 3B Q3_K_S	6	pp512	522.25	570.51	1.09
V100-PCIE-32GB	granitemoe 3B Q3_K_S	7	pp512	596.80	620.93	1.04
V100-PCIE-32GB	granitemoe 3B Q3_K_S	8	pp512	671.47	672.03	1.00
V100-PCIE-32GB	granitemoe 3B Q4_0	2	pp512	338.96	423.86	1.25
V100-PCIE-32GB	granitemoe 3B Q4_0	3	pp512	422.14	583.94	1.38
V100-PCIE-32GB	granitemoe 3B Q4_0	4	pp512	474.24	706.43	1.49
V100-PCIE-32GB	granitemoe 3B Q4_0	5	pp512	536.53	846.46	1.58
V100-PCIE-32GB	granitemoe 3B Q4_0	6	pp512	620.45	945.58	1.52
V100-PCIE-32GB	granitemoe 3B Q4_0	7	pp512	708.48	1039.32	1.47
V100-PCIE-32GB	granitemoe 3B Q4_0	8	pp512	793.77	1131.37	1.43
V100-PCIE-32GB	granitemoe 3B Q4_1	2	pp512	340.97	424.40	1.24
V100-PCIE-32GB	granitemoe 3B Q4_1	3	pp512	431.33	614.70	1.43
V100-PCIE-32GB	granitemoe 3B Q4_1	4	pp512	478.40	710.61	1.49
V100-PCIE-32GB	granitemoe 3B Q4_1	5	pp512	523.95	855.63	1.63
V100-PCIE-32GB	granitemoe 3B Q4_1	6	pp512	610.40	969.33	1.59
V100-PCIE-32GB	granitemoe 3B Q4_1	7	pp512	695.93	1067.51	1.53
V100-PCIE-32GB	granitemoe 3B Q4_1	8	pp512	781.96	1165.53	1.49
V100-PCIE-32GB	granitemoe 3B Q4_K_S	2	pp512	333.90	409.81	1.23
V100-PCIE-32GB	granitemoe 3B Q4_K_S	3	pp512	416.22	557.90	1.34
V100-PCIE-32GB	granitemoe 3B Q4_K_S	4	pp512	469.10	668.11	1.42
V100-PCIE-32GB	granitemoe 3B Q4_K_S	5	pp512	516.29	758.96	1.47
V100-PCIE-32GB	granitemoe 3B Q4_K_S	6	pp512	596.56	840.39	1.41
V100-PCIE-32GB	granitemoe 3B Q4_K_S	7	pp512	684.23	922.76	1.35
V100-PCIE-32GB	granitemoe 3B Q4_K_S	8	pp512	761.66	992.07	1.30
V100-PCIE-32GB	granitemoe 3B Q5_0	2	pp512	333.40	401.36	1.20
V100-PCIE-32GB	granitemoe 3B Q5_0	3	pp512	414.87	543.68	1.31
V100-PCIE-32GB	granitemoe 3B Q5_0	4	pp512	468.25	654.25	1.40
V100-PCIE-32GB	granitemoe 3B Q5_0	5	pp512	452.72	768.56	1.70
V100-PCIE-32GB	granitemoe 3B Q5_0	6	pp512	529.47	854.49	1.61
V100-PCIE-32GB	granitemoe 3B Q5_0	7	pp512	602.05	928.51	1.54
V100-PCIE-32GB	granitemoe 3B Q5_0	8	pp512	679.20	1012.42	1.49
V100-PCIE-32GB	granitemoe 3B Q5_1	2	pp512	335.84	408.73	1.22
V100-PCIE-32GB	granitemoe 3B Q5_1	3	pp512	417.00	553.71	1.33
V100-PCIE-32GB	granitemoe 3B Q5_1	4	pp512	472.01	663.47	1.41
V100-PCIE-32GB	granitemoe 3B Q5_1	6	pp512	571.15	869.60	1.52
V100-PCIE-32GB	granitemoe 3B Q5_1	7	pp512	654.33	953.10	1.46
V100-PCIE-32GB	granitemoe 3B Q5_1	8	pp512	737.23	1031.07	1.40
V100-PCIE-32GB	granitemoe 3B Q5_K_S	2	pp512	324.82	394.61	1.21
V100-PCIE-32GB	granitemoe 3B Q5_K_S	3	pp512	407.83	537.24	1.32
V100-PCIE-32GB	granitemoe 3B Q5_K_S	4	pp512	455.76	632.63	1.39
V100-PCIE-32GB	granitemoe 3B Q5_K_S	5	pp512	471.11	724.17	1.54
V100-PCIE-32GB	granitemoe 3B Q5_K_S	6	pp512	549.41	806.25	1.47
V100-PCIE-32GB	granitemoe 3B Q5_K_S	8	pp512	698.18	923.82	1.32
V100-PCIE-32GB	granitemoe 3B Q6_K	2	pp512	307.34	360.88	1.17
V100-PCIE-32GB	granitemoe 3B Q6_K	3	pp512	380.32	477.45	1.26
V100-PCIE-32GB	granitemoe 3B Q6_K	4	pp512	425.49	561.41	1.32
V100-PCIE-32GB	granitemoe 3B Q6_K	5	pp512	460.15	634.92	1.38
V100-PCIE-32GB	granitemoe 3B Q6_K	6	pp512	531.21	692.11	1.30
V100-PCIE-32GB	granitemoe 3B Q6_K	7	pp512	610.13	742.05	1.22
V100-PCIE-32GB	granitemoe 3B Q6_K	8	pp512	684.71	799.89	1.17
V100-PCIE-32GB	granitemoe 3B Q8_0	2	pp512	294.98	367.17	1.24
V100-PCIE-32GB	granitemoe 3B Q8_0	3	pp512	368.79	505.18	1.37
V100-PCIE-32GB	granitemoe 3B Q8_0	4	pp512	401.08	576.73	1.44
V100-PCIE-32GB	granitemoe 3B Q8_0	5	pp512	470.18	698.37	1.49
V100-PCIE-32GB	granitemoe 3B Q8_0	6	pp512	536.98	754.28	1.40
V100-PCIE-32GB	granitemoe 3B Q8_0	7	pp512	613.18	806.18	1.31
V100-PCIE-32GB	granitemoe 3B Q8_0	8	pp512	686.31	872.44	1.27

The maximum value at which MMVQ should be used over MMQ for MUL_MAT_ID needs to be adjusted downwards from some cases. Also, rather than a static value it will need to be a function of GPU architecture and data type. Based on my benchmarks these should be the maximum values at which to use MMVQ:

ggml_type	Pascal and older	Turing, Ampere	GCN	CDNA	RDNA1, RDNA2	RDNA3	RDNA4
iq1_s	6	-	5	-	-	6	7
iq2_s	4	7	4	5	4	4	4
iq2_xs	5	-	4	5	4	4	4
iq2_xxs	5	-	4	5	4	4	4
iq3_s	4	6	4	4	4	4	4
iq3_xs	4	6	4	4	4	4	4
iq3_xxs	4	7	4	5	4	4	4
iq4_nl	6	-	6	-	-	6	7
iq4_xs	5	-	4	-	-	6	5
mxfp4	4	7	-	-	-	-	5
q2_k	4	7	4	-	7	-	-
q3_k	4	5	4	-	4	-	4
q4_0	6	-	5	-	-	-	7
q4_1	6	-	5	-	-	-	7
q4_k	5	-	4	-	5	4	4
q5_0	6	-	-	-	-	-	7
q5_1	6	-	-	-	-	-	7
q5_k	5	-	4	-	6	4	5
q6_k	4	-	4	-	5	4	5
q8_0	4	-	4	-	-	-	7

Please make one __host__ __device__ constexpr function per GPU type listed above that maps ggml_type to the maximum number of tokens. Then write a __host__ function that switches between those functions for orchestration. Also add a __device__ constexpr function that can be used at the beginning of the kernel to check whether it would ever be used. If not, call NO_DEVICE_CODE and return early to reduce compilation time.

JohannesGaessler · 2026-03-27T23:10:14Z

I forgot: a "_" in the table means to just use the default value of 8. For Ada Lovelace and Blackwell the new code seems to always be faster. Also for Volta since it lacks int8 tensor cores so MMQ is comparatively slower.

… arch and datatype

gaugarg-nv · 2026-03-29T13:19:06Z

@JohannesGaessler Made the max batch size dependent on GPU arch and datatype. Please take a look and see if this is what you were expecting.

JohannesGaessler · 2026-03-29T16:32:56Z

 // No shared memory reduction needed since each warp works alone.
 template <ggml_type type, int c_rows_per_block>
-__launch_bounds__(MMVQ_MMID_MAX_BATCH_SIZE*ggml_cuda_get_physical_warp_size(), 1)
+__launch_bounds__(get_mmvq_mmid_max_batch_for_device<type>()*ggml_cuda_get_physical_warp_size(), 1)


Ah sorry, I forgot that this kernel only operates on a single column at a time so there are no template specializations where the skipping would have been needed. Still, it's good to have a tighter bound on the launch bounds.

Adds ggml-org/llama.cpp as upstream alongside TheTom's fork. Key pickup: PR ggml-org#20905 — optimized MoE GEMV kernel for BS>1 (+25% on MoE models). Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>

@am17an

* Optimize MOE GEMV kernel for BS > 1. The previous MOE kernel for BS > 1 had too many thread blocks (nrows_x, nchannels_dst, ncols_dst), with very little work per block. block of (32, 4) was doing inner dot product for a single row. New mul_mat_vec_q_moe kernel is dedicated for MoE multi-token kernel with grid (ceil(nrows_x/rpb), nchannels_dst), block (warp_size, ncols_dst). Each warp handles two rows independently with warp-level reduction only (no shared memory sync). This change doesn't increase any compilation time as a single template instance is needed per type. This also simplifies the original GEMV kernel and gets rid of `is_multi_token_id` specialization. * Remove em-dashes * Cherry-pick changes from @am17an PR ggml-org#20885 to enable small_k optimization only for cases where it benefits Increase max batch size for MMVQ kernels for MUL_MAT_ID to 8 * Make the max batch size for MOE GEMV kernel configurable based on GPU arch and datatype --------- Co-authored-by: Aman Gupta <amangupta052@gmail.com>

@am17an

* Optimize MOE GEMV kernel for BS > 1. The previous MOE kernel for BS > 1 had too many thread blocks (nrows_x, nchannels_dst, ncols_dst), with very little work per block. block of (32, 4) was doing inner dot product for a single row. New mul_mat_vec_q_moe kernel is dedicated for MoE multi-token kernel with grid (ceil(nrows_x/rpb), nchannels_dst), block (warp_size, ncols_dst). Each warp handles two rows independently with warp-level reduction only (no shared memory sync). This change doesn't increase any compilation time as a single template instance is needed per type. This also simplifies the original GEMV kernel and gets rid of `is_multi_token_id` specialization. * Remove em-dashes * Cherry-pick changes from @am17an PR ggml-org#20885 to enable small_k optimization only for cases where it benefits Increase max batch size for MMVQ kernels for MUL_MAT_ID to 8 * Make the max batch size for MOE GEMV kernel configurable based on GPU arch and datatype --------- Co-authored-by: Aman Gupta <amangupta052@gmail.com>

@am17an

* Optimize MOE GEMV kernel for BS > 1. The previous MOE kernel for BS > 1 had too many thread blocks (nrows_x, nchannels_dst, ncols_dst), with very little work per block. block of (32, 4) was doing inner dot product for a single row. New mul_mat_vec_q_moe kernel is dedicated for MoE multi-token kernel with grid (ceil(nrows_x/rpb), nchannels_dst), block (warp_size, ncols_dst). Each warp handles two rows independently with warp-level reduction only (no shared memory sync). This change doesn't increase any compilation time as a single template instance is needed per type. This also simplifies the original GEMV kernel and gets rid of `is_multi_token_id` specialization. * Remove em-dashes * Cherry-pick changes from @am17an PR ggml-org#20885 to enable small_k optimization only for cases where it benefits Increase max batch size for MMVQ kernels for MUL_MAT_ID to 8 * Make the max batch size for MOE GEMV kernel configurable based on GPU arch and datatype --------- Co-authored-by: Aman Gupta <amangupta052@gmail.com>

gaugarg-nv requested a review from a team as a code owner March 23, 2026 14:36

gaugarg-nv mentioned this pull request Mar 23, 2026

CUDA: add small-k optimization for mul-mat-id bs 2-4 #20885

Closed

github-actions Bot added Nvidia GPU Issues specific to Nvidia GPUs ggml changes relating to the ggml tensor library for machine learning labels Mar 23, 2026

gaugarg-nv and others added 3 commits March 26, 2026 01:38

Remove em-dashes

e3c02be

Cherry-pick changes from @am17an PR ggml-org#20885 to enable small_k …

5d282ad

…optimization only for cases where it benefits Increase max batch size for MMVQ kernels for MUL_MAT_ID to 8

gaugarg-nv force-pushed the moe_opt branch from e50879e to 5d282ad Compare March 25, 2026 21:16

am17an approved these changes Mar 26, 2026

View reviewed changes

loci-dev mentioned this pull request Mar 26, 2026

UPSTREAM PR #20905: Optimize MOE GEMV kernel for BS > 1. auroralabs-loci/llama.cpp#1299

Open

IMbackK approved these changes Mar 27, 2026

View reviewed changes

Make the max batch size for MOE GEMV kernel configurable based on GPU…

db58c0a

… arch and datatype

JohannesGaessler approved these changes Mar 29, 2026

View reviewed changes

JohannesGaessler reviewed Mar 29, 2026

View reviewed changes

JohannesGaessler merged commit ec16a07 into ggml-org:master Mar 29, 2026
46 checks passed

junkman690 mentioned this pull request Mar 31, 2026

Eval bug: Qwen3.5-A35B-A3B crash with ROCm 6 and 7 on Linux / Radeon Pro VII. #21191

Closed

gaugarg-nv mentioned this pull request Apr 7, 2026

[M3 Ultra] Metal: 13% throughput regression in token generation (tg128) vs March 2026 builds #21494

Closed

gaugarg-nv deleted the moe_opt branch April 21, 2026 04:40

Conversation

gaugarg-nv commented Mar 23, 2026 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Requirements

Uh oh!

gaugarg-nv commented Mar 23, 2026

Uh oh!

am17an commented Mar 23, 2026

Uh oh!

gaugarg-nv commented Mar 23, 2026

Uh oh!

am17an commented Mar 23, 2026

Uh oh!

gaugarg-nv commented Mar 23, 2026

Uh oh!

am17an commented Mar 24, 2026

Uh oh!

IMbackK commented Mar 25, 2026 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Uh oh!

IMbackK commented Mar 25, 2026

Uh oh!

JohannesGaessler commented Mar 25, 2026

Uh oh!

gaugarg-nv commented Mar 25, 2026

Uh oh!

gaugarg-nv commented Mar 27, 2026

Uh oh!

JohannesGaessler commented Mar 27, 2026 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Uh oh!

JohannesGaessler commented Mar 27, 2026

Uh oh!

gaugarg-nv commented Mar 29, 2026

Uh oh!

JohannesGaessler Mar 29, 2026

Choose a reason for hiding this comment

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

4 participants

gaugarg-nv commented Mar 23, 2026 •

edited

Loading

IMbackK commented Mar 25, 2026 •

edited

Loading

JohannesGaessler commented Mar 27, 2026 •

edited

Loading