Fix gemma gguf tokenizer by CodersAcademy006 · Pull Request #41609 · huggingface/transformers

CodersAcademy006 · 2025-10-15T10:25:44Z

This PR fixes an issue where AutoTokenizer.from_pretrained would instantiate an incorrect Unigram tokenizer when loading from a Gemma GGUF file, instead of the correct BPE-based GemmaTokenizer.

The root cause was that the GGUF loading logic did not have an explicit check to handle the Gemma architecture specifically. This fix introduces a check that:

Detects if a gguf_file is being loaded.
Reads the GGUF metadata to confirm the architecture is gemma and the tokenizer model is bpe.
Overrides the tokenizer_class in the loaded configuration to GemmaTokenizer, forcing the rest of the function to instantiate the correct class.

This ensures that loading a tokenizer from a Gemma GGUF file produces the same tokenization as loading from the original Hugging Face repository.

Fixes #41494

…Error

Isotr0py · 2025-10-15T11:25:45Z

+        # --- START OF PROPOSED FIX ---
+        if gguf_file:
+            # If a GGUF file is provided, we inspect its metadata to ensure the correct tokenizer is used,
+            # especially for cases like Gemma where the model type alone is not enough.
+            try:
+                from ...utils.gguf import GGUFReader
+
+                # We need to resolve the path to the GGUF file
+                gguf_path = cached_file(pretrained_model_name_or_path, gguf_file, **kwargs)
+                if gguf_path is not None:
+                    reader = GGUFReader(gguf_path)
+                    architecture = reader.get_architecture()
+                    tokenizer_model = reader.get_tokenizer_model()
+
+                    # This is the key condition
+                    if architecture == "gemma" and tokenizer_model == "bpe":
+                        logger.info("Gemma GGUF with BPE tokenizer detected. Forcing tokenizer class to 'GemmaTokenizer'.")
+                        tokenizer_config["tokenizer_class"] = "GemmaTokenizer"
+            except Exception as e:
+                logger.warning(f"Could not read GGUF metadata to determine tokenizer class: {e}")
+        # --- END OF PROPOSED FIX ---


I think here is not a good place to add such a fix for gemma special case. Can we propose a fix at ggml integration?

transformers/src/transformers/integrations/ggml.py

Lines 675 to 737 in e2122c4

class GGUFGemmaConverter(GemmaConverter):

def __init__(self, tokenizer_dict):

# set dummy data to avoid unnecessary merges calculation

tokenizer_dict["merges"] = ["dummy text"]

self.proto = GGUFTokenizerSkeleton(tokenizer_dict)

self.original_tokenizer = self.proto

self.additional_kwargs = {}

def vocab(self, proto):

original_vocab = list(zip(proto.tokens, proto.scores))

updated_vocab = []

for token, score in original_vocab:

if token == "<0x09>":

updated_vocab.append(("\t", score))

elif " " in token and len(token.strip()) == 0:

underscores = "▁" * len(token)

updated_vocab.append((underscores, score))

else:

updated_vocab.append((token, score))

return updated_vocab

def normalizer(self, proto):

return normalizers.Replace(" ", "▁")

def decoder(self, replacement, add_prefix_space):

sequence = [

decoders.Replace("▁", " "),

decoders.ByteFallback(),

decoders.Fuse(),

]

if add_prefix_space:

sequence += [decoders.Strip(content=" ", left=1)]

return decoders.Sequence(sequence)

def converted(self) -> Tokenizer:

vocab_scores = self.vocab(self.proto)

tokenizer = Tokenizer(

Unigram(

vocab_scores,

unk_id=self.proto.unk_token_id,

byte_fallback=self.handle_byte_fallback,

)

)

normalizer = self.normalizer(self.proto)

if normalizer is not None:

tokenizer.normalizer = normalizer

replacement = "▁"

add_prefix_space = True

if hasattr(self.original_tokenizer, "add_prefix_space"):

add_prefix_space = self.original_tokenizer.add_prefix_space

tokenizer.decoder = self.decoder(replacement, add_prefix_space)

pre_tokenizer = self.pre_tokenizer(replacement, add_prefix_space)

if pre_tokenizer is not None:

tokenizer.pre_tokenizer = pre_tokenizer

return tokenizer

Rocketknight1 · 2025-10-15T12:25:47Z

cc @SunMarc @MekkCyber for GGUF

github-actions · 2025-12-24T07:55:37Z

[For maintainers] Suggested jobs to run (before merge)

run-slow: auto

github-actions · 2025-12-24T08:17:58Z

View the CircleCI Test Summary for this PR:

https://huggingface.co/spaces/transformers-community/circle-ci-viz?pr=41609&sha=3b7770

Srijan Upadhyay added 2 commits October 15, 2025 09:42

fix(processing): Filter kwargs in ProcessorMixin call to prevent Type…

10b8a70

…Error

fix(tokenization): Correctly infer tokenizer class for Gemma GGUF files

1d37b37

Isotr0py reviewed Oct 15, 2025

View reviewed changes

Srijan Upadhyay added 2 commits October 18, 2025 09:29

docs(trainer): Add example for using a custom loss function

3f3e771

Merge branch 'main' into fix-gemma-gguf-tokenizer

3b77705

This was referenced Apr 29, 2026

Cumulative feature and defect updates from recent Transformers PRs evalstate/transformers#42

Open

Cumulative defect fixes from recent Transformers PRs evalstate/transformers#43

Open

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Fix gemma gguf tokenizer#41609

Fix gemma gguf tokenizer#41609
CodersAcademy006 wants to merge 4 commits intohuggingface:mainfrom
CodersAcademy006:fix-gemma-gguf-tokenizer

CodersAcademy006 commented Oct 15, 2025

Uh oh!

Isotr0py Oct 15, 2025

Uh oh!

Rocketknight1 commented Oct 15, 2025

Uh oh!

github-actions Bot commented Dec 24, 2025

Uh oh!

github-actions Bot commented Dec 24, 2025

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

3 participants

	class GGUFGemmaConverter(GemmaConverter):
	def __init__(self, tokenizer_dict):
	# set dummy data to avoid unnecessary merges calculation
	tokenizer_dict["merges"] = ["dummy text"]

	self.proto = GGUFTokenizerSkeleton(tokenizer_dict)
	self.original_tokenizer = self.proto
	self.additional_kwargs = {}

	def vocab(self, proto):
	original_vocab = list(zip(proto.tokens, proto.scores))
	updated_vocab = []

	for token, score in original_vocab:
	if token == "<0x09>":
	updated_vocab.append(("\t", score))
	elif " " in token and len(token.strip()) == 0:
	underscores = "▁" * len(token)
	updated_vocab.append((underscores, score))
	else:
	updated_vocab.append((token, score))

	return updated_vocab

	def normalizer(self, proto):
	return normalizers.Replace(" ", "▁")

	def decoder(self, replacement, add_prefix_space):
	sequence = [
	decoders.Replace("▁", " "),
	decoders.ByteFallback(),
	decoders.Fuse(),
	]

	if add_prefix_space:
	sequence += [decoders.Strip(content=" ", left=1)]
	return decoders.Sequence(sequence)

	def converted(self) -> Tokenizer:
	vocab_scores = self.vocab(self.proto)
	tokenizer = Tokenizer(
	Unigram(
	vocab_scores,
	unk_id=self.proto.unk_token_id,
	byte_fallback=self.handle_byte_fallback,
	)
	)

	normalizer = self.normalizer(self.proto)
	if normalizer is not None:
	tokenizer.normalizer = normalizer

	replacement = "▁"
	add_prefix_space = True
	if hasattr(self.original_tokenizer, "add_prefix_space"):
	add_prefix_space = self.original_tokenizer.add_prefix_space

	tokenizer.decoder = self.decoder(replacement, add_prefix_space)
	pre_tokenizer = self.pre_tokenizer(replacement, add_prefix_space)
	if pre_tokenizer is not None:
	tokenizer.pre_tokenizer = pre_tokenizer

	return tokenizer

Conversation

CodersAcademy006 commented Oct 15, 2025

Uh oh!

Isotr0py Oct 15, 2025

Choose a reason for hiding this comment

Uh oh!

Rocketknight1 commented Oct 15, 2025

Uh oh!

github-actions Bot commented Dec 24, 2025

Uh oh!

github-actions Bot commented Dec 24, 2025

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

3 participants