ЛЕНТА

Системы распознавания речи хуже справились с речью афроамериканцев

Green Book / DreamWorks, 2018

Ученые выяснили, что системы распознавания речи крупнейших компаний обрабатывают речь темнокожих американцев хуже, чем светлокожих, а мужчин-афроамериканцев хуже, чем женщин. Это связано с особенностями афроамериканского английского языка: алгоритмы хуже настроены на понимание особенностей произношения и интонации этого диалекта, считают авторы работы. Статья опубликована в журнале Proceedings of the National Academy of Sciences.
Системы распознавания речи должны быть доступными и универсальными. Для этого необходимо обучать алгоритмы на образцах речи людей всех популяции в равной мере, однако это не всегда удается, и любые виды дискриминации, которые возникают в результате неравномерности исходных данных, становятся заметными, а иногда и опасными. Так, некоторые исследователи отмечают расовое неравенство в системах распознавания лиц, оценки риска в уголовном правосудии, рекламы в интернете. Существуют подозрения и о расовой дискриминации в распознавании речи, так как для каждого языка существует множество диалектов и акцентов, которые влияют на качество распознавания.

Эллисон Коенеке (Allison Koenecke) из Стэнфордского университета и ее коллеги оценили расовое неравенство в системах распознавания речи пяти компаний: Amazon, Apple, Google, IBM и Microsoft. Для этого алгоритмы применили к образцам речи из обширных сборников интервью темнокожих и светлокожих американцев. Текст, который получили в результате автоматического распознавания, сравнили с расшифровкой экспертов и подсчитали частоту ошибок.

Ученые оценили, насколько уровень ошибок распознавания связан с диалектом говорящих. В образцах речи подсчитали частоту встречаемости фонетических и грамматических особенностей афроамериканской разновидности английского языка.

Чтобы понять, в чем причина расового неравенства, проверили две гипотезы. Первая — что алгоритмы распознавания речи настроены на лексику и грамматику стандартного английского и хуже узнают характерные афроамериканские конструкции. Авторы работы оценили количество слов, которые встречались в образцах речи, но отсутствовали в словарях алгоритмов, а затем сравнили уровень сложности языка говорящих разных рас. Системы распознавания речи предсказывают каждое следующее слово в предложении, и чем неожиданнее для них будет фраза, тем меньше вероятность, что алгоритм правильно запишет ее.

Вторая гипотеза — что проблема заключается в акустической чувствительности программ: алгоритм знает слова и лексические конструкции, но не может расслышать их. Чтобы проверить это предположение, ученые сравнили точность распознавания одинаковых предложений, которые произносили люди разных рас.

Частота ошибок в распознавании речи афроамериканцев была в среднем вдвое выше, чем светлокожих. Больше это касалось черных мужчин (41 процент неправильно распознанных слов), чем женщин 30 процентов). На графике распределения средней частоты ошибок различие выражено сильнее: у 25 процентов афроамериканцев уровень неточностей был выше 50 процентов. Меньше двух процентов образцов речи белых американцев были распознаны с такой частотой ошибок.

Частота ошибок при распознавании речи белых (синий) и черных (красный) американцев алгоритмами разных компаний

Allison Koenecke et al. / Proceedings of the National Academy of Sciences, 2020

Поделиться

Распределение частоты ошибок при распознавании речи белых (синий) и черных (красный) американцев. По вертикальной оси — процент образцов,в которых уровень ошибок был не ниже определенного. Например, в 25 процентах образцов речи афроамериканцев уровень ошибок был не ниже 0,5

Allison Koenecke et al. / Proceedings of the National Academy of Sciences, 2020

Поделиться

Частота ошибок коррелировала с тем, насколько был выражен диалект говорящего — чем больше особенностей афроамериканского английского было в речи, тем хуже алгоритмы распознавали ее. Это объясняет и различие между темнокожими мужчинами и женщинами: последние в среднем говорили на языке, которые более приближен к стандартному английскому.

Вертикальная ось: средняя частота ошибки при распознавании разными алгоритмами. Горизонтальная ось — степень использования диалекта. Точками разных цветов обозначены образцы речи людей из разных городов США

Allison Koenecke et al. / Proceedings of the National Academy of Sciences, 2020

Поделиться

Количество слов, которых не было в словарном запасе алгоритмов, не отличалось значительно в речи американцев разных рас, а уровень сложности предсказания следующего слова для языка афроамериканцев был даже ниже. Значит, лексико-грамматические настройки систем распознавания речи — не причина расового неравенства. Зато одинаковые фразы алгоритм понимал почти в два раза хуже у темнокожих, чем у светлокожих американцев. Причина различий в качестве распознавания речи в том, что у людей разных этнических групп отличается произношение и интонация даже для одних и тех же фраз.

Современные технологии часто оказываются в центре споров о политкорректности. Так, ученые заметили, что в темного робота люди стреляют решительнее, чем в светлого, а алгоритмы машинного обучения перенимают от людей шовинистические наклонности.

Алиса Бахарева

источник

Похожие статьи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Кнопка «Наверх»
Do NOT follow this link or you will be banned from the site!
Установите приложение MEGANEWS на Google Play
УСТАНОВИТЬ
Закрыть
Закрыть

Обнаружен Adblock

Поддержите нас, пожалуйста, отключив блокировку рекламы.