Будущее уже наступило: нейросеть Speech2Face генерирует портрет человека по голосу

Нейросети становятся главными героями новостей все чаще в последние пару лет. Можно заметить, как искусственный интеллект и технологии глубинного обучения и поиска информации становятся все более сложными и точными, а радоваться этому или беспокоиться, каждый решает сам.

Чему будут служить технологии?

В начале июня исследователи из Массачусетского технологического института и GOOGLE сделали заявлению об успешных испытаниях программы, способной реконструировать внешность по голосу.

Для получения нынешнего результата специалисты долгое время тренировали нейросеть на миллионах видеозаписей с говорящими людьми, взятых из открытых источников в Интернете. Довольно скоро после начала эксперимента стало понятно, что программное обеспечение способно замечать корреляции между чертами лица, полом, возрастом и этнической принадлежностью говорящего. Все обучение происходило в режиме самоконтроля без вмешательства человека.

Чтобы проконтролировать полученные нейросетью Speech2Face результаты, ученые решили сравнить голоса реальных людей, их фотографии и те портреты, которые были получены по итогам. Результаты ученых удивили.

Техническая сторона вопроса

С технической точки зрения нейросеть состоит из двух слоев программного обеспечения. В то время, как один слой декодирует голос и ищет соответствия в обширной базе данных лиц, другой деконструирует полученные данные и на их основе создает фоторобот.

Однако есть и этический момент. Последние исследования показали, что нейросети могут быть не беспристрастными. Один из недавних экспериментов пришлось остановить, так как чат-бот на основе нейросети неожиданно стал демонстрировать речевое поведение расиста, оскорбляя людей по расовому признаку.

Как быть с акцентом

Исследователи считают, что хотя они и используют крайне продвинутое программное обеспечение, позволяющее восстанавливать черепно-лицевые характеристики, ошибки не могут полностью исключаться, так как люди могут говорить с разным акцентом, который компьютер может неправильно атрибутировать.

Однако чем более длинный отрезок аудиозаписи используется, тем более точными получаются конечные результаты. Однако главной проблемой по-прежнему остается неравномерная представленность различных этнических и культурных групп в Интернете, так как далеко не все имеют возможность или осмысленную потребность записывать видео и выкладывать их в "Ютуб".

Насколько результаты эксперимента точны

Исследование показало, что в 94 % случаев нейросеть умеет правильно определять пол и возраст. С этнической принадлежностью дело обстоит несколько иначе: алгоритм хорошо научился отличать азиата от европейца, но все еще ошибается в отличении индийцев от африканцев. На лицо европоцентризм, который легко можно списать все же на человеческий фактор.

Однако авторы делают упор на то, что исследование является исключительно академическим и не преследует каких-либо практических целей. Но сомневаться в том, что найдутся желающие использовать это не только на благо общества, не приходится.

Что еще умеют нейросети?

Технологии искусственного интеллекта совершили скачок за несколько лет, и теперь мы можем видеть такие его результаты, как способность идентифицировать лица людей в толпе по имеющимся фото.

Кроме того, осенью прошлого года на аукционе современного искусства была впервые продана картина, написанная по эскизу нейросети. Полотно продали более чем за 400 тысяч долларов.

О том, какие последствия будут у столь мощного прорыва в программном обеспечении, можно только гадать и надеяться, что его результаты все же окажутся в правильных и честных руках.

Нашли нарушение? Пожаловаться на содержание

А вы верите, что технологии принесут только благо?
Комментариев 3
Подписаться
Я хочу получать
Правила публикации
1
Технологии - это инструмент в руках людей. Они могут быть как во благо, так и во вред.
Копировать ссылку
Очень точно!
Копировать ссылку
1
Ну, благо от них точно будет. Эту технологию можно внедрить в расследование преступлений. Любой записанный разговор может стать важной уликой. По голосу можно будет определить примерную внешность преступников, а это уже серьезный шаг вперед.
Копировать ссылку
Редактирование комментария возможно в течении пяти минут после его создания, либо до момента появления ответа на данный комментарий.