Alt-Texte: Kann KI helfen?

In Workshops rund ums Thema digitale Barrierefreiheit bei Webseiten, digitalen Dokumenten und Social-Media-Beiträgen kommt häufig die Frage auf: Kann KI bereits automatisch Alternativtexte erstellen und Redakteuren somit eine Menge Arbeit abnehmen? Alternativtexte, auch Alt-Texte genannt, sind kurze, aber aussagekräftige Beschreibungen der Information, die durch ein Bild in einem bestimmten Zusammenhang vermittelt werden soll. Sie werden beim Hochladen einer Bilddatei eingetragen, liegen quasi „unsichtbar“ hinter dem Bild und werden von Screenreadern (Bildschirmleseprogramme) für blinde Menschen vorgelesen. Aber nicht nur die Screenreader erfassen Alt-Texte, sondern auch Suchmaschinen: Und je mehr Informationen eine Suchmaschine findet, desto besser stuft sie eine Seite im Suchmaschinenranking ein.

Zurück zur Ausgangsfrage: Kann KI bereits (gute?) Bildbeschreibungen erstellen?

  • Programme wie Microsoft Word und Social-Media-Plattformen wie Facebook erstellen KI-generierte Bildbeschreibungen, die aber zum aktuellen Zeitpunkt (Mai 2025) (immer noch) sehr rudimentär und wenig aussagekräftig sind.

Beispiel für einen automatischen Alt-Text mit Word: „Alternativtext: Ein Bild, das Rollstuhl, Sportausrüstung, Person, Basketball enthält“

Screenshot: Ein in Word in hochgeladenes Bild einer Gruppe gemischtgeschlechtlicher Rollstuhlbasketballspieler mit eingeblendeten Alt-Text."

Beispiel für einen automatischen Alt-Text in Facebook: „Ist möglicherweise ein Bild von 9 Personen, Personen, die Basketball spielen und Basketballtrikot“

Screenshot: Ein in Facebook hochgeladenes Bild einer Gruppe gemischtgeschlechtlicher Rollstuhlbasketballspieler mit eingeblendeten Alt-Text."
  • Sprachmodelle wie z. B. ChatGPT (OpenAI) und Gemini (Google) können ebenfalls Bilder beschreiben, ChatGPT-Bildbeschreibungen gibt es z. B. in den Apps Seeing AI und Be My Eyes , diese wiederum sind teilweise sehr ausführlich und zu detailliert, sodass sie als Alt-Texte ebenfalls weniger geeignet sind.

Beispiel für Bildbeschreibung Be My Eyes: „Eine Gruppe von Menschen spielt Rollstuhlbasketball in einer Sporthalle. Sieben Personen in Rollstühlen sind auf dem Spielfeld zu sehen, alle tragen sportliche Kleidung.
Ein Basketball fliegt durch die Luft, und die Spieler schauen konzentriert darauf. Einige von ihnen tragen rote Schärpen über ihren Schultern, möglicherweise zur Unterscheidung der Teams. Die Halle hat einen blauen Boden mit verschiedenen farbigen Linien, die das Spielfeld markieren. Die Atmosphäre wirkt aktiv und fröhlich.“

Interessant ist, dass, obwohl die Beschreibung auf den ersten Blick sehr gut wirkt, die Personenzahl falsch ist (7 statt 9).

Im Netz findet man weitere Alt-Text-Generatoren, die z. T. kostenfrei nutzbar sind. (Alt-Texte generieren mit Künstlicher Intelligenz, Web Dev Blog, Daniel Erlinger). Zum Beispiel den kostenlosen AI Image Alt Text Generator von href.com

Dieser ist sehr intuitiv bedienbar: Bild hochladen, auswählen, wie viele Varianten getextet werden sollen (1, 3 oder 5) und sich für einen Schreibstil entscheiden (z. B. Freundlich, Förmlich, locker etc.). Für unser Rollstuhlbasketball-Foto gibt das Tool folgende drei Varianten aus:

  • Eine Gruppe von Menschen im Rollstuhl spielt Basketball auf einem Sportplatz.
  • Rollstuhlfahrer spielen Basketball in einem lebhaften Teamspiel.
  • Mehrere Personen im Rollstuhl sind aktiv beim Basketballspielen.

Die Varianten sind kurz und knapp, die Beschreibung aufs Wesentliche reduziert, je nach Kontext, in dem das Bild veröffentlicht würde, könnte diese Beschreibungen für viele Zwecke bereits ausreichend sein.

Ein weiteres Tool ist das Tool von YesChat.AI, hier sind jedoch nur 20 Kommunikationen pro Tag account- und kostenfrei. Bei dem Tool gibt es die typische „Chat-Oberfläche“ à la ChatGPT. Fragt man das Tool nach einer Bildbeschreibung für ein hochgeladenes Foto, wird die Bildbeschreibung zunächst (zu) sehr ausführlich:

„Auf dem Bild sind mehrere Menschen zu sehen, die in Rollstühlen Basketball spielen. Sie befinden sich in einer Sporthalle, der Boden ist mit Linien für verschiedene Sportarten markiert. In der Mitte des Bildes fliegt ein Basketball durch die Luft, während die Spieler in verschiedenen Positionen nach dem Ball schauen oder ihn gerade werfen. Einige der Spieler tragen T-Shirts und Shorts, andere sportliche Kleidung. Alle Personen wirken engagiert und konzentriert, und die Atmosphäre ist aktiv und positiv. Es sind insgesamt sieben Personen zu sehen, die in Rollstühlen sitzen, wobei einige mit roten Gurten über die Schultern gesichert sind.“

Interessant ist, dass hier ebenfalls nur sieben Personen erkannt wurden. Außerdem wird die rote Schärpe über den Spielerschultern (zur Unterscheidung der Teams) als Gurt fehlinterpretiert.

Die Beschreibungen kann man durch bestimmte Prompts verknappen, z. B. „Generiere 3 Vorschläge für einen Alt-Text in Deutsch“. Die Ausgabe lautet dann folgendermaßen:

  1. „[ID: 1] In einer Sporthalle spielen mehrere Personen Basketball im Rollstuhl. Der Ball fliegt durch die Luft, während die Spieler in unterschiedlichen Positionen auf ihn reagieren. Einige tragen sportliche Kleidung, andere haben spezielle Sicherheitsgurte um die Schultern. Die Stimmung ist aktiv und alle konzentrieren sich auf das Spiel.
  2. [ID: 2] Eine Gruppe von sieben Menschen, die in Rollstühlen sitzen, spielt Basketball auf einem Sporthallenboden. Der Ball ist in der Luft, und einige Spieler schauen darauf, während andere ihn zu fangen oder zu werfen versuchen. Die Teilnehmer tragen sportliche Outfits und sind in einem intensiven Moment des Spiels zu sehen.
  3. [ID: 3] Auf einem Sporthallenboden spielen Rollstuhlfahrer Basketball. Der Ball schwebt über den Köpfen der Spieler, während sie ihn aufmerksam verfolgen. Jeder Spieler ist in einem Rollstuhl, trägt sportliche Kleidung und ist in verschiedene Aktionen eingebunden, wie das Werfen oder Fangen des Balls. Die Atmosphäre wirkt energisch und fokussiert.“

Die Beschreibung ist nun kürzer und legt im Beispiel sehr viel Wert auf die Dynamik des Geschehens. Die Personenanzahl bleibt auch hier fehlerhaft.

Bei Alt-Texten stellt sich allgemein die Frage: Was ist eigentlich ein guter Alt-Text? Wie lang / kurz sollte er sein? Welche Details sollten beschrieben werden? Insgesamt gibt es neben der Faustregel „So kurz wie möglich, so ausführlich wie nötig“ einige Anhaltspunkte, die in den folgenden Beiträgen ausgeführt werden: