MacWhisper: Untertitel und Transkripte mit KI

Heute geht’s um MacWhisper – ein Tool, das uns in der Austauschrunde der Stiftung barrierefrei kommunizieren! rund um Untertitel, Transkripte und Sprache-zu-Text-Apps für Menschen mit Hörbehinderung empfohlen wurde. Wie der Name schon andeutet, gibt es das Tool nur für Macs, es basiert auf der Transkriptions-KI Whisper von OpenAI – dem Unternehmen hinter Chat GPT. Automatische Spracherkennungstools, um damit z. B. Untertitel für Videos oder Transkripte für Audios zu erzeugen und sie damit u. a. zugänglich für gehörlose und schwerhörige Menschen zu machen, gibt es schon länger – z. B. lassen sich automatische Untertitel und Transkripte in YouTube, Book Creator, Facebook und Word 365 erstellen. Woran es – insbesondere bei YouTube – teilweise noch hakte, waren die Groß- und Kleinschreibung sowie die Interpunktion. Auch wenn ansonsten die Erkennung bei guter Sprachqualität schon recht gut war – einzelne, falsch erkannte Begriffe mussten eigentlich immer noch nachkorrigiert werden.

Wie sieht es dazu im Vergleich bei MacWhisper aus? Wir haben die kostenfreie Basisversion getestet. Nach der Installation muss man zunächst die gewünschten Sprachpakete installieren. Bei der kostenfreien Version hat man die Wahl zwischen „Tiny“, „Base“ und „Small“. Um die bestmögliche Qualität zu erzielen, sollte man „Small“ wählen. Dann hat man in der kostenfreien Version die Möglichkeit, entweder Dateien hochzuladen (MP3, WAV, M4A, MP4, MOV) oder auch direkt eine neue Sprachaufnahme zu machen, die im Anschluss transkribiert wird. Wir haben zum Testen einen Ausschnitt des iOS-Bedienungshilfen-Videos von barrierefrei kommunizieren! hochgeladen, das über eine gute Sprecher- und Sprachqualität verfügt. Da wir eine Untertitel-Datei erzeugen wollen, haben wir in den Einstellungen von MacWhisper noch eingestellt, dass der Timecode angezeigt werden soll – also die Zeitangaben, wann gesprochen wird.

Nach dem Hochladen geht’s auch direkt los mit der Transkription. Für das 2:39 Minuten lange Video hat die Transkription in unserem Test 2:22 Minuten benötigt.

Das Ergebnis ist hervorragend: Groß- und Kleinschreibung sowie Interpunktion fehlerlos und insgesamt gibt es nur einen kleinen Fehler, der manuell nachkorrigiert werden muss. Im Anschluss lässt sich unter „Export“ das vollständige Transkript als Text-Datei oder eine Untertitel-Datei in einem gängigen Format wie z. B. .srt herunterladen.

KategorienAllgemein