Даже специально обученные люди не способны отличить до 25 % звуковых дипфейков ИИ от реальных аудиозаписей голосов

Речевыми дипфейками называют синтетические голоса, создаваемые нейросетями. Дипфейки могут имитировать голоса реальных конкретных людей или быть уникальными. Инструменты, предназначенные для создания такого медиаконтента, постоянно улучшаются. На настоящий момент они стали настолько совершенными, что это начало вызывать опасения специалистов по поводу угрозы безопасности населения.

К примеру, с помощью дипфейков мошенникам уже удавалось выманивать деньги у населения. Недавно ученые провели интересное исследование, в котором приняло участие 529 человек. В ходе этого эксперимента участники в режиме онлайн прослушивали аудиоклипы и распознавали среди записей дипфейки.

Предварительное обучение

Проводили ученые исследование на двух языках — английском и китайском. При этом некоторым участникам перед экспериментом предоставляли примеры дипфейковой речи. То есть часть испытуемых предварительно прошла своего рода тренировку по распознаванию.

Результаты

В ходе исследования участники правильно определяли машинный медиаконтент в 73-75 % случаев. То есть в 25 % случаев синтезированную речь испытуемые принимали за речь реальных людей. Обман слуха людей нейросетям удавался.

При этом обучение помогло в распознавании участникам лишь незначительно. В любом случае испытуемые знали, что среди предложенных им клипов имеются дипфейки. К тому же ученые использовали не самые совершенные технологии синтеза речи. Из этого специалисты сделали вывод, что в реальных ситуация распознать дипфейк обычному человеку будет еще сложнее.

И на английском, и на китайском языках результаты распознавания в ходе эксперимента, по словам ученых, были одинаковыми. При этом при выявлении дипфейков, однако, носители английского языка ориентировались на дыхание и звуки, а китайского — на ритм, темп между словами и беглость.

Автоматические детекторы

Проведя эксперимент, ученые таким образом, сделали вывод, что обучение населения распознаванию дипфейков может быть неэффективным. По мнению специалистов, усилия по обеспечению безопасности населения сегодня должны быть направлены на улучшение автоматических детекторов. В ходе своего исследования эксперты выяснили, что такие детекторы справляются с распознаванием синтезированной речи лучше людей.

Нашли нарушение? Пожаловаться на содержание

Принимали ли вы когда-нибудь синтезированную речь за речь реальных людей в Интернете?
Комментарии 0
Подписаться
Я хочу получать
Правила публикации
Редактирование комментария возможно в течении пяти минут после его создания, либо до момента появления ответа на данный комментарий.