Gender and Dialect Bias in YouTube’s Automatic Captions

Rachael Tatman

Erstpublikation in: Proceedings of the First Workshop on Ethics in Natural Language Processing, pages 53–59, Valencia, Spain, April 4th, 2017.

Publikationsdatum: 2017

Diese Seite wurde seit 1 Jahr inhaltlich nicht mehr aktualisiert. Unter Umständen ist sie nicht mehr aktuell.

Zusammenfassungen

In einer wissenschaftlichen Untersuchung zeigte Tatman, dass der Dienst der Plattform YouTube, um automatische Untertitel bei hochgeladenen Videos zu erzeugen („automatic caption“), unterschiedliche Genauigkeiten aufweist, mit deutlich geringerer Genauigkeit der Erkennung der Sprache von Frauen und für Videos mit Personen mit schottischem Dialekt. Der Dienst beruht auf einem maschinellen Lernverfahren. Als einen der möglichen Gründe vermutet die Autorin unzureichende Trainingsdaten (Tatman 2017: 57).

Von Carsten Orwat im Buch Diskriminierungsrisiken durch Verwendung von Algorithmen (2019)

This project evaluates the accuracy of YouTube’s automatically-generated captions across two genders and five dialects of English. Speakers’ dialect and gender was controlled for by using videos uploaded as part of the “accent tag challenge”, where speakers explicitly identify their language background. The results show robust differences in accuracy across both gender and dialect, with lower accuracy for 1) women and 2) speakers from Scotland. This finding builds on earlier research finding that speaker’s sociolinguistic identity may negatively impact their ability to use automatic speech recognition, and demonstrates the need for sociolinguistically-stratified validation of systems.

Von Rachael Tatman im Text Gender and Dialect Bias in YouTube’s Automatic Captions (2017)

Dieses Konferenz-Paper erwähnt ...

Aussagen KB IB clear	Spracherkennung funktioniert bei weiblichen Stimmen oft schlechter als bei männlichen
Begriffe KB IB clear	Gender Gender , Sprache language , Spracherkennung voice recognition

Zitationsgraph

Diese SVG-Grafik fensterfüllend anzeigen

Zitationsgraph (Beta-Test mit vis.js)

2 Erwähnungen

Mirages: On Anthropomorphism in Dialogue Systems (Gavin Abercrombie, Amanda Cercas Curry, Tanvi Dinkar, Zeerak Talat) (2023)
Fairness and Machine Learning - Limitations and Opportunities (Solon Barocas, Moritz Hardt, Arvind Narayanan) (2023)

Volltext dieses Dokuments

Gender and Dialect Bias in YouTube’s Automatic Captions: Artikel als Volltext ( lokal

, 123 kByte; WWW

)

Anderswo suchen

Beat und dieses Konferenz-Paper

Beat hat Dieses Konferenz-Paper während seiner Zeit am Institut für Medien und Schule (IMS) ins Biblionetz aufgenommen. Beat besitzt kein physisches, aber ein digitales Exemplar. Eine digitale Version ist auf dem Internet verfügbar (s.o.). Aufgrund der wenigen Einträge im Biblionetz scheint er es nicht wirklich gelesen zu haben. Es gibt bisher auch nur wenige Objekte im Biblionetz, die dieses Werk zitieren.

Beats Biblionetz - Texte