The timestamps should be correct, also if the audio is longer than 30s (as if the chunked-algorithm is used):
(0.0, 4.44) Er hatte schon mal eine Schnauze voll von allem und jedem.
(4.44, 6.28) Und er hat den Schluss getroffen.
(6.28, 7.8) Es hilft nichts mehr.
(7.8, 9.28) Ich wandere aus.
(9.28, 11.4) Das kann ein Grund sein,
(11.4, 14.48) wieso er eine Heimat für immer der Rückenträger will.
(14.48, 16.72) Oder es ist etwas ganz anderes.
(16.72, 19.24) Der wohl bekannt ist Grund...
(19.24, 20.36) ... die Liebe.
(20.36, 22.44) So ist es bei Hans Muster.
(22.44, 24.72) Die Liebe hat ihn nach Deutschland gezogen.
(24.72, 26.0) Und dort ist er seit vier Jahren.
(26.0, 29.0) Aber welter der für immer dort bleibt, gute Frage.
(29.0, 32.0) Wir stellen es dir an, am Viertel vor, im PO bei den Leuten.
(32.0, 35.0) Und bis dort her, mein Name ist Peter Müller.
(35.0, 39.0) Und jetzt ein Wassermelon Heines vom Harry Styles.
System Info
transformersversion: 4.45.2Who can help?
@Rocketknight1 @gante @ylacombe
Information
Tasks
examplesfolder (such as GLUE/SQuAD, ...)Reproduction
pip install transformers==4.45.2Setup a Whisper pipeline using
chunk_length_s=0(which is sequential long-form decoding according to the model card (at least for large-v3)) andreturn_timestamps=TrueTranscribe an audio longer than 30s
See that the timestamps start at 0.0s after 30s
Expected behavior
The timestamps should be correct, also if the audio is longer than 30s (as if the chunked-algorithm is used):
The output is from above script using
chunked=True