Medienzentrum der Fakultät für Erziehungswissenschaft
Weiße Tastatur auf weißem Grund

Software für die Transkription von Audio- und Videomaterial im Überblick

Für Forschende ist die Transkription von Audio- und Videomaterial ein aufwändiger Arbeitsschritt. Dabei geht man bei der Abschrift einer Minute Audiomaterial von 4 bis 6 Minuten Dauer für die Transkription aus, in Abhängigkeit zum verwendeten Transkriptionsregelwerk

Manuelle und automatisierte Transkripte

Für die Transkription von Forschungsdaten gibt es eine Vielzahl an Software. Neuerdings finden sich immer mehr Dienstleister, die automatisierte Transkriptionen mit Hilfe künstlicher Intelligenz anbieten. Im folgenden Artikel bieten wir eine Übersicht über einige der Anbieter und Angebote.

Transkription mit Hilfe spezieller Software

Spezielle Transkriptionssoftware bietet gegenüber einfachen Media-Playern den Vorteil, dass spezielle Tastenkombinationen zur schnellen Bedienung verfügbar sind oder die Abspielgeschwindigkeit individuell eingestellt werden kann. Zudem bieten viele Tools einen eigenen Texteditor an oder lassen das Einfügen von Zeitmarken und den Export in Word zu. Ein weiteres Feature ist die Unterstützung von USB-Fußtastern, diese starten und stoppen die Audiodatei per Fußdruck, was in der Praxis zusätzlich Zeit spart.

Übersicht von Transkription-Software

Überblick über Anbieter und Funktionen von Transkriptionssoftware. Stand: 08/2020. Anbieter: Inqscribe, Express Scribe, f4Transkript, oTranscribe.
Überblick über Anbieter und Funktionen von Transkriptionssoftware. Stand: 08/2020

Automatisierte Transkription mit künstlicher Intelligenz

Wem das immer noch zu lange dauert, der hat mittlerweile die Möglichkeit, SaaS-Dienste (Software as a Service) für die automatisierte Transkription von Audio- und Videomaterial zu nutzen. Dabei erwirbt man meist Zeitguthaben, dass es einem ermöglicht, Dateien auf einen Server zu laden. Auf dem Server wird das Audiomaterial mit Hilfe einer künstlichen Intelligenz (KI) automatisch in Text umgewandelt. Das Prinzip ist ähnlich dem der Sprachassistenten. Ein großer Unterschied ist jedoch die Transkription vorproduzierter Audiodateien. Das personalisierte Trainieren der KI auf die Stimme entfällt ebenfalls. Die Transkription gelingt mit jedem Sprecher und kommt auch mit Sprecherwechseln meist zurecht. Dennoch nimmt die Qualität des Ergebnis der meisten automatisierten Transkriptionen bei mehr als 2 Sprechern ab. Generell gilt: je besser die Aufnahmequalität, desto besser das Resultat. 

Vor und Nachteile der automatisierten Transkriptionslösungen

Die Vorteile automatisierter Transkriptionen sind vor allem die Zeit- und Kostenersparnis. Dennoch bedeutet die Nutzung automatisierter Transkriptionslösungen für Forschende, dass auf jeden Fall nachgearbeitet und die Qualität der Transkription genau überprüft werden muss. Zudem beherrschen die automatisierten Lösungen keine Transkriptionsregeln. Neben den Sprecherwechseln vermerken diese zumeist nur den Zeitstempel im Transkript. Für die Transkription von Podcast-Episoden oder für die Erstellung von Videountertiteln ist dies ausreichend, nicht jedoch für qualitativ Forschende. Dennoch kann die Zeitersparnis für Forschende ohne personelle Unterstützung hilfreich sein, auch wenn weitere Arbeiten am Transkript notwendig werden.

Übersicht von Anbietern KI-basierter Transkriptionssoftware

Überblick über Anbieter und Funktionen von Transkriptionssoftware. Stand: 08/2020. Anbieter: happyscribe, Amberscript und f4x.
Überblick über Anbieter und Funktionen von KI-basierter Transkriptionssoftware. Stand: 08/2020

Die größten Herausforderungen ergeben sich für die Nutzung allerdings hinsichtlich des Datenschutzes. Auch wenn eine Einwilligung zur Nutzung der automatisierten Dienste schriftlich zu Forschungsbeginn bei den Betroffenen eingeholt wird, ist die Frage, inwiefern Quellenschutz und die Sicherung guter wissenschaftlicher Praxis bei der Nutzung der Dienste eingehalten werden können, da eine Offenlegung des Materials durch Dritte bei den meisten Anbietern nicht ausgeschlossen werden kann. Eine Ausnahme bildet f4x von audiotranskription.de, das serverseitig eine Verschlüsselung der Daten vornimmt und den internen Zugriff sowie den Zugriff durch Dritte verhindert. Andere Anbieter bieten lediglich verschlüsselte Transportverfahren an, die nicht das Material nach einem Upload schützen. Zudem unterscheiden sich die Anbieter in Hinblick auf die Speicherdauer, Formate und angebotene Sprachen.

Fazit

Wer keine besonderen Vorgaben hinsichtlich des Datenschutz einhalten muss, für den können die automatisierten Transkriptionsservices eine zeitsparende Alternative sein. Jedoch muss man sich im klaren darüber sein, dass bei der regelmäßigen Nutzung fortlaufend Kosten entstehen. Jedoch bieten die meisten Anbieter Mengenrabatt an. Wer nicht die finanziellen Mittel hat, der ist mit den meisten Anbietern von Transkriptionssoftware, auch für einmalige Projekte gut bedient, vor allem oTranscribe besticht durch seine Einfachheit und das kostenlose Angebot. Wer regelmäßig händisch transkribiert, für den lohnt sich der Einsatz von USB-Tastern, diese beschleunigen das Arbeiten ungemein, da die Hände auf der Tastatur verbleiben.

Disclaimer: Die Übersicht der Anbieter basiert auf der Zusammenfassung der von den Unternehmen selbst veröffentlichten Informationen, eine Testung der Services fand nicht statt (Stand: 06.08.2020). Die Anforderungen an den Datenschutz benötigen eine individuelle Prüfung, die Einschätzung des Datenschutzniveaus der Übersicht bezieht sich lediglich auf veröffentlichte Informationen der Anbieter, alle Angaben ohne Gewähr. Bei Fragen und/oder Ergänzungen kontaktieren Sie bitte escience[at]ew[dot]uni-hamburg[dot]de .
Wir benutzen Cookies um die Nutzer*innenfreundlichkeit der Webseite zu verbessen. Durch Ihren Besuch stimmen Sie dem zu.