Anleitung Multimedia-Inhalte

Tipps für barrierefreie Multimedia-Inhalte: Video und Audio

Eine barrierefreie Website oder App ist technisch so gestaltet, dass sie alle Menschen gut nutzen können. Insbesondere für Menschen mit (temporären) Behinderungen ist die Barrierefreiheit einer Website von großer Bedeutung. Barrieren können fehlende Alternativtexte bei Bildern, eine unlogische Überschriftenstruktur oder zu geringe Farbkontrast-Werte sein. Aber auch Multimedia-Inhalte – wie Videos oder Audio-Inhalte – können unzugänglich gestaltet sein.

Um all diese Barrieren zu vermeiden, gibt es mit dem Europäischen Standard EN 301 549 V3.2.1 (PDF) (externer Link) ein klares Regelwerk. Wer die relevanten Klauseln dieses Standards erfüllt, entspricht den Vorgaben der EU-Richtlinie über den barrierefreien Zugang zu den Websites und mobilen Anwendungen öffentlicher Stellen (externer Link). Was aber noch viel besser ist: Damit ist es allen Personen gleich gut möglich, Websites, Apps und Dokumente uneingeschränkt zu nutzen.

Diese Anleitung soll dabei unterstützen, Multimedia-Inhalte so aufzubereiten, dass sie im Sinne des Europäischen Standards barrierefrei zugänglich sind. Im Kapitel „Weiterführende Informationen“ finden Sie weiterführende Ressourcen – auch zu Best-Practice-Umsetzungen.

Was sind barrierefreie Multimedia-Inhalte?

Ein großer Teil des Europäischen Standards entspricht den Web Content Accessibility Guidelines im Level AA. Die WCAG bestehen aus vielen sogenannten Erfolgskriterien. In den WCAG AA geben die folgenden relevanten Erfolgskriterien der Guideline für zeitbasierte Medien vor, wie Multimedia-Inhalte beschaffen sein sollten, damit sie barrierefrei sind.

Im Prinzip geht es immer darum, dass eine Alternative zu visuellen bzw. Audio-Inhalten bereitgestellt wird und alle transportierten Informationen für alle Nutzer:innen wahrnehmbar sind.

Folgende WCAG-Kriterien sind hier besonders relevant:

Barrierefreiheits-Anforderungen unterschiedlicher Multimedia-Inhalte

Audio-Inhalt ohne Bild
- Eine visuelle Alternative wird bereitgestellt, die dieselben Informationen enthält (beispielsweise ein barrierefrei zugänglicher Text)
Video-Inhalt ohne Ton (oder nur mit Hintergrundmusik)
- Eine Audiodeskription wird bereitgestellt
Video-Inhalt mit wichtigen Audio-Inhalten
- Untertitel werden bereitgestellt
- Eine Audiodeskription wird bereitgestellt

Es können weitere Ausnahmen vorliegen. Beispielsweise wenn ein Multimedia-Inhalt mit wichtigen Audio-Inhalten nur als äquivalente Alternative für eine barrierefreie Textversion zur Verfügung steht und als solche gekennzeichnet ist. Dann ist es nicht gefordert, Untertitel zur Verfügung zu stellen (siehe Erfolgskriterium 1.2.2 (externer Link)). Details dazu finden Sie in den WCAG 2.1 (externer Link).

Weitere WCAG 2.1-Kriterien, die für Multimedia-Inhalte relevant sein können:

Erfolgskriterium 2.3.1 Three Flashes or Below Threshold (Level A) (externer Link): Es werden keine Inhalte veröffentlicht, die in einer Art und Weise blitzen oder blinken, dass sie bei fotosensitiven Menschen Krampfanfälle auslösen können.
Erfolgskriterium 2.2.2 Pause, Stop, Hide (Level A) (externer Link): Inhalte werden nicht automatisch abgespielt, wenn sie nicht entsprechend pausiert oder gestoppt werden können.

Tipp: Auch die Player an sich, über die Multimedia-Inhalte zur Verfügung gestellt werden, können eine Barriere darstellen. Deshalb ist die richtige Wahl des Players eine Grundvoraussetzung, um barrierefreie Inhalte zur Verfügung stellen zu können.

Im Europäischen Standard finden sich einige Kriterien, die sich auf die Barrierefreiheit von Video-Playern selbst beziehen: Wenn Player entwickelt werden, müssen diese unter anderem Untertitel synchron zum Audioinhalt sowie eine Audiodeskription barrierefrei abspielen können.

Zusätzlich wichtig: Wenn Untertitel in einer anderen Sprache als der Audioinhalt zur Verfügung stehen (als Übersetzung), dann müssen diese Untertitel auch vorgelesen werden können (z.B. mit dem Screenreader der Nutzer:innen). Dabei geht es darum, dass diese andere Sprache beispielsweise auch blinden Menschen oder Menschen mit einer Sehbehinderung zugänglich ist. Wenn diese Übersetzung auch als eigener Audiotrack angeboten wird, müssen die Untertitel nicht auditiv ausgegeben werden können.

Details zu diesen Kriterien finden Sie im Europäischen Standard, Kapitel 7 (PDF) (externer Link).

Ausnahmen

In der Richtlinie der EU sind eine Reihe von Ausnahmen angeführt, die Multimedia-Inhalte betreffen. Folgende Multimedia-Inhalte sind explizit von den Barrierefreiheitsbestimmungen ausgenommen:

aufgezeichnete zeitbasierte Medien (Anm.: Video- oder Audio-Inhalte), die vor dem 23. September 2020 veröffentlicht wurden
live übertragene zeitbasierte Medien

Es können noch andere Ausnahmen vorliegen. Die vollständige Liste der Ausnahmen entnehmen Sie bitte der Richtlinie (EU) 2016/2102, Artikel 1 (externer Link).

Untertitel

Untertitel ermöglichen Menschen, die gehörlos sind oder eine Hörbehinderung haben, Videos anzusehen. Sie geben den Teil des Inhalts als Text wieder, der über die Audio-Spur transportiert wird. Untertitel geben gesprochenen Inhalt wieder, geben an, wer gerade spricht, und beinhalten auch Text zu informationstragenden Sound-Effekten. (Vgl. Understanding Success Criterion 1.2.2: Captions (Prerecorded) (externer Link))

Untertitel werden aber nicht ausschließlich von Menschen mit einer Hörbehinderung genutzt. Viele Website-Besucher:innen sehen Videos ohne Ton und nutzen Untertitel.

Es gibt auch Untertitel, die dafür verwendet werden, gesprochene Audio-Inhalte in eine andere Sprache zu übersetzen. Diese sind hier nicht gemeint. Es geht um Untertitel in derselben Sprache wie die gesprochenen Audio-Inhalte.

Für Untertitel werden alle relevanten gesprochenen Inhalte und sonstige relevante Audio-Inhalte transkribiert, also:

gesprochener Inhalt
Namen der jeweiligen Sprecher:innen
relevante Geräusche, z. B.: (Publikum applaudiert)

Tipps für das Erstellen von Untertiteln

Den gesprochenen Text exakt so in den Untertiteln wiedergeben, wie er gesprochen wird:
- Keine Korrektur von Grammatik oder sonstigen Fehlern in den Untertiteln vornehmen.
- Keine Inhalte weglassen oder zusätzliche, klärende Inhalte hinzufügen.
- Wenn unverständliche Inhalte vorkommen, in die Untertitel [unverständlich] aufnehmen.
Auf den passenden Detaillierungsgrad achten:
- Bei manchen Inhalten kann es notwendig sein, alles exakt wörtlich zu transkribieren, inklusive Füllwörtern wie „äh“ etc. – z.B. bei Inhalten mit rechtlicher Relevanz.
- Für die meisten Inhalte kann nicht substanzieller Text aus den Untertiteln weggelassen werden, damit diese leichter wahrgenommen werden können, z.B.: „Äh“, „Was wollte ich gerade sagen?“ etc.
- Kommen gesprochene Passagen vor, die gar nicht relevant sind, können diese in den Untertiteln zusammengefasst wiedergegeben werden, z.B.: [Teilnehmer*innen sprechen über das Wetter, während der Sprecher versucht, seinen Computer aufgrund technischer Probleme neu zu starten]
Formatierung:
- Untertitel sind leserlich
- Sie sind etwa ein bis zwei Zeilen lang
- Im besten Fall beginnt ein neuer Satz in einer neuen Zeile. Wenn lange Sätze in Segmente geteilt werden müssen, darauf achten, diese möglichst logisch nachvollziehbar zu teilen.
- Untertitel erscheinen synchron zum gesprochenen Text

(Vgl. Informationen zu Transcribing Audio to Text von W3C (externer Link))

Typen von Untertiteln

Technisch können Untertitel auf zwei verschiedene Arten zur Verfügung gestellt werden, als sogenannte „Open Captions“ und „Closed Captions“. Inhaltlich sind beide Varianten ident. Sie werden jedoch auf unterschiedliche Weise erstellt.

Am weitesten verbreitet sind Closed Captions. Diese werden dem Video als eigene Textdatei hinzugefügt. Sie können ein- oder ausgeblendet werden. Nutzer:innen können verschiedene Möglichkeiten zur Verfügung gestellt werden, die Untertitel ihren Präferenzen anzupassen.

Open Captions sind immer eingeblendet und können nicht ausgeschaltet werden, da sie ein fixer Teil der Video-Datei sind. Sie werden bei der Erstellung des Videos direkt in der Videoschnitt-Software hinzugefügt. Open Captions können von Nutzer:innen nicht angepasst werden.

Aus Sicht der Barrierefreiheit sind Closed Captions die bevorzugte Variante, da die Nutzer:innen diese für sich optimal anpassen können. In dieser Anleitung wird daher genauer auf Closed Captions eingegangen.

Erstellung von Closed Captions

Für Untertitel wird die Tonspur abgetippt (transkribiert). Closed Captions werden dann über eine speziell formatierte Textdatei einem Video hinzugefügt. Sie werden mit Zeitstempeln versehen, damit die Untertitel mit Bild und Ton synchron sind.

Screenshot einer Szene eines YouTube-Videos mit eingeblendeten Closed Captions. — Closed Captions in einem YouTube-Video, Copyright: gugler*brand&digital

Tipp: Es gibt unterschiedliche Dateiformate, die dafür genutzt werden können (z. B. .vtt, .sbv, .srt). Überprüfen Sie vor der Wahl des Dateiformats, welches mit dem von Ihnen genutzten Player kompatibel ist. Informationen, welche Dateiformate z. B. von YouTube unterstützt werden, finden Sie unter „Unterstützte Untertitelformate“ in der YouTube-Hilfe (externer Link).

Für die händische Erstellung von Closed Captions können unterschiedliche Programme genutzt werden.

Beispiel .vtt-Dateiformat

WEBVTT

00:00:31.602 --> 00:00:35.602

(Vorname Nachname Sprecher*in) Sehr geehrte Damen und Herren,

ich darf Sie im Namen der beiden

00:00:35.602 --> 00:00:38.164

veranstaltenden Organisationen sehr herzlich

zu diesem Webinar begrüßen!

00:00:38.164 --> 00:00:43.975

Die aktuelle Situation hat uns bewogen,

dieses neue Veranstaltungsformat zu wählen.

00:00:43.975 --> 00:00:49.475

Etc.

Beispiel .sbv-Dateiformat

0:00:19.890,0:00:29.520

(Vorname Nachname Sprecher*in) Sehr geehrte Damen und Herren,

ich darf Sie im Namen der beiden

0:00:31.910,0:00:40.040

veranstaltenden Organisationen sehr herzlich

zu diesem Webinar begrüßen!

0:00:40.040,0:00:45.350

Die aktuelle Situation hat uns bewogen,

dieses neue Veranstaltungsformat zu wählen.

0:00:45.350,0:00:52.040

Etc.

Die unterschiedlichen Dateiformate können weitere Formatierungsmöglichkeiten bieten. Nicht alle Player unterstützen alle Formatierungen. Zentral ist, die Zeitstempel zu nutzen, damit die Untertitel korrekt synchron angezeigt werden können. Beispielhaft finden Sie hier weitere Informationen zum .vtt-Format (externer Link).

Automatisch erstellte Closed Captions

Es gibt Programme, die Untertitel automatisch erstellen können (z. B. YouTube). Automatisch generierte Untertitel müssen in den allermeisten Fällen händisch überarbeitet werden. Automatisch erstellte Untertitel können nämlich deutlich vom tatsächlich gesprochenen Text abweichen und sehr fehlerhaft sein. Fehlt ein simples Wort wie „nicht“, besteht die Gefahr, dass die automatisch generierten Untertitel den gegenteiligen Inhalt wiedergeben wie der gesprochene Text. (Vgl. Informationen zu Captions/Subtitles von W3C (externer Link))

Es kann jedoch eine gute Vorgangsweise sein, sich Untertitel zunächst automatisiert erstellen zu lassen, diese manuell zu überarbeiten und dann zu veröffentlichen. Auf diese Weise muss nicht der gesamte Text manuell transkribiert werden.

Audiodeskription

Audiodeskriptionen ermöglichen Menschen, die blind oder sehbehindert sind, Zugang zu ansonsten nur visuell transportierten Informationen in Multimedia-Inhalten. Eine Audiodeskription ist eine eigene Tonspur, in der ein:e Sprecher:in in den Pausen der Audio-Inhalte den visuell sichtbaren Inhalt beschreibt. Es gibt auch Player, die textbasierte Audiodeskriptionen unterstützen. Hier werden diese Texte vom Player laut vorgelesen (Näheres dazu unter Audio Description of Visual Information von W3C (externer Link)).

Ein Beispiel für ein Video mit einer Audiodeskription: Web Accessibility Perspectives: Text to Speech – Audio Described Version (YouTube) (externer Link)

Tipps für die Erstellung von Audiodeskriptionen für Videos, die auf YouTube veröffentlicht werden: How to create audio descriptions for accessible YouTube videos (externer Link)

Auf welche unterschiedlichen Weisen kann eine Audiodeskription zur Verfügung gestellt werden?

Das Video hat die Audiodeskription als einzige Tonspur und wird für alle Nutzer:innen in dieser Form zur Verfügung gestellt.
Das Video hat mehrere Tonspuren: einen Track ohne Audiodeskription und einen mit Audiodeskription. Es wird ein Player genutzt, bei dem die Nutzer:innen die gewünschte Tonspur auswählen können.
Es gibt zwei Versionen des Videos: eine mit der Audiodeskriptions-Tonspur und ein ohne diese Tonspur. Beide Versionen werden den Nutzer:innen zur Verfügung gestellt.

(Vgl. Informationen zu Captions, Transcripts, and Audio Descriptions von WebAIM (externer Link))

Tipps für die Gestaltung einer Audiodeskription

Sie beschreibt alle visuellen Elemente, die wichtig sind, um zu verstehen, was das Video kommuniziert.
Nicht jedes kleine Detail wird beschrieben, z. B. Dinge, die ohnehin schon in der Tonspur vorkommen.
Sie ist objektiv, beschreibt ohne Interpretation, Kommentar oder Zensur.
Üblicherweise ist sie in der Gegenwart, im Aktiv und in der dritten Person formuliert.
Für die Audiodeskription werden stille Passagen in der Tonspur benötigt, sonst gibt es keinen Platz, die zusätzliche Beschreibung einzufügen. Im besten Fall wird das bei der Videoproduktion berücksichtigt. Falls das nicht möglich ist, kann ein alternatives Video mit Audiodeskription erstellt werden, bei dem, während die Audiodeskription läuft, das Bild als Standbild pausiert wird.

(Vgl. Audio Description of Visual Information von W3C (externer Link))

Wann kann auf eine Audiodeskription verzichtet werden?

Wenn in der Tonspur bereits alle notwendigen Informationen zum visuell sichtbaren Inhalt vorhanden sind, ist keine zusätzliche Audiodeskription nötig.

Wenn das Video z. B. eine Liste von fünf Punkten zeigt, können alle Punkte in der Tonspur genannt werden, anstatt nur zu sagen: „Hier sehen Sie die fünf wichtigsten Punkte.“ Dann wird die Information bereits über diese Tonspur transportiert. (Vgl. Informationen zu Captions, Transcripts, and Audio Descriptions von WebAIM (externer Link))
Bei „talking head“-Videos, bei denen eine Person vor einem sich nicht verändernden Hintergrund spricht, sind üblicherweise keine wichtigen visuellen Informationen vorhanden. Daher ist in so einem Fall keine Audiodeskription notwendig. Eine Textalternative, die eine allgemeine Beschreibung der visuell sichtbaren Situation sowie eventuell im Video vorhandenen Text, der nicht in der Tonspur vorhanden ist (Vor- oder Abspann, Name der Sprecher:innnen o. Ä.), beinhaltet, ist ausreichend.
Wichtig ist, dass bei mehreren Sprecher:innen klar hervorgeht, wer gerade spricht (z. B. direkt in der Tonspur) – wenn nicht, ist auch hier eine Audiodeskription notwendig. (Vgl. Using a static text alternative to describe a talking head video von W3C (externer Link))

Ein Beispiel für ein Video, in dem bereits alle relevanten visuell sichtbaren Inhalte von der Sprecherin genannt werden und daher keine zusätzliche Audiodeskription notwendig ist: Low vision: Challenging assumptions and understanding differences (YouTube) (externer Link)

Textalternative

Das Level A Erfolgskriterium 1.2.3 Audio Description or Media Alternative (Prerecorded) besagt, dass anstelle einer Audiodeskription Audio- und Videoinhalte alternativ auch in Textform bereitgestellt werden können. Für Level AA-Konformität ist dies allerdings nicht ausreichend, eine Audiodeskription muss dafür zur Verfügung gestellt werden. (Vgl. Understanding Success Criterion 1.2.3 Audio Description or Media Alternative (Prerecorded) von W3C (externer Link))

Beispiel für eine Textalternative mit Beschreibung der visuellen Inhalte für ein Video

Audio: Stellen Sie sich vor, Sie bauen ein topmodernes Hochhaus, spektakulär designt, hochwertig ausgestattet mit sensorgesteuerter Haustechnik, installieren am Dach sogar einen Pool mit Panoramablick.

Visuell: Ein Hochhaus wird gebaut. Icons erscheinen auf dem Hochhaus: Zirkel, Hand-Geste für „Spitze“, volles Wifi-Signal, Thermometer, Blätter und 360-Grad-Rundumblick.

Audio: Sparen sich dafür aber den Aufzug. Würden Sie nicht machen, oder?

Visuell: Aufzugsicon im Eingangsbereich des Hauses erscheint und wird durchgestrichen.

Gebärdensprachdolmetsch

Zusätzlich zu Untertiteln und Transkripten kann zu Videos mit relevantem Audio-Inhalt Gebärdensprache ergänzt werden, um sie barrierefreier zu machen. Gebärdensprache kann für gehörlose Nutzer:innen besser verständlich sein als Untertitel bzw. geschriebene Sprache. Für viele Inhalte kann es daher sinnvoll sein, Gebärdensprachdolmetsch zusätzlich anzubieten. Im Rahmen der Web-Zugänglichkeits-Richtlinie ist es aber nicht vorgeschrieben. In den WCAG ist Gebärdensprache in einem AAA-Kriterium festgeschrieben:

Erfolgskriterium 1.2.6 Sign Language (Prerecorded) (Level AAA) (externer Link): Für alle vorab aufgezeichneten Audioinhalte in synchronisierten Medien wird Gebärdensprachdolmetsch bereitgestellt.

Üblicherweise wird Gebärdensprachdolmetsch von darauf spezialisierten Anbietern gemacht. Es wird ein Video der Gebärdensprachdolmetscher:innen in das ursprüngliche Video eingebettet. Dabei wird darauf geachtet, dass der:die Dolmetscher:in gut sichtbar ist und die Übersetzung exakt sowie synchron zum gesprochenen Text ist.

Hier finden Sie ein Beispielvideo mit Gebärdensprachdolmetsch (externer Link).

Multimedia-Inhalte zur Verfügung stellen

Wird ein Video mittels <iframe> auf einer Website eingebettet, benötigt dieses Element ein title-Attribut, um barrierefrei zugänglich zu sein. Achten Sie darauf, dieses gegebenenfalls zu ergänzen. Im title-Attribut ist kurz beschrieben, was das Thema des Videos ist (z. B. ist der Video-Titel angegeben), damit blinde Nutzer:innen wissen, was sie erwartet, ohne dass sie das Video abspielen müssen. (Vgl. Using the title attribute of the frame and iframe elements von W3C (externer Link))

Tipp: Wenn Sie Videos veröffentlichen, die keine Audiodeskription benötigen, da alle sichtbaren Inhalte auch auf der Tonspur vermittelt werden und visuell keine zusätzlichen Informationen vorhanden sind, ist es für die Nutzer:innen hilfreich, sie darüber zu informieren. Ansonsten ist es für Nutzer:innen womöglich nicht gleich klar, warum keine Audiodeskription verfügbar ist. Ein solcher Hinweis könnte beispielsweise so formuliert sein: „Hinweis zur Barrierefreiheit: Bei diesem Video ist keine Audiodeskription notwendig. Die visuellen Elemente des Videos untermalen nur den gesprochenen Text, sie beinhalten keine zusätzliche Information.“

Verlinken Sie auf Ihrer Website auf Multimedia-Inhalte, achten Sie auf einen aussagekräftigen Linktext, um eine reibungslose Navigation zu ermöglichen.