Будущее уже наступило: нейросеть Speech2Face генерирует портрет человека по голосу

Нейросети становятся главными героями новостей все чаще в последние пару лет. Можно заметить, как искусственный интеллект и технологии глубинного обучения и поиска информации становятся все более сложными и точными, а радоваться этому или беспокоиться, каждый решает сам.

Чему будут служить технологии?

В начале июня исследователи из Массачусетского технологического института и GOOGLE сделали заявлению об успешных испытаниях программы, способной реконструировать внешность по голосу.

Для получения нынешнего результата специалисты долгое время тренировали нейросеть на миллионах видеозаписей с говорящими людьми, взятых из открытых источников в Интернете. Довольно скоро после начала эксперимента стало понятно, что программное обеспечение способно замечать корреляции между чертами лица, полом, возрастом и этнической принадлежностью говорящего. Все обучение происходило в режиме самоконтроля без вмешательства человека.

Перегрев роутера может привести к потере стабильности и скорости интернета

Трискелион (жизнь - смерть - возрождение): символы для общения с подсознанием

Растят свою улучшенную копию: как себя вести с эмоционально незрелыми родителями

Чтобы проконтролировать полученные нейросетью Speech2Face результаты, ученые решили сравнить голоса реальных людей, их фотографии и те портреты, которые были получены по итогам. Результаты ученых удивили.

Техническая сторона вопроса

С технической точки зрения нейросеть состоит из двух слоев программного обеспечения. В то время, как один слой декодирует голос и ищет соответствия в обширной базе данных лиц, другой деконструирует полученные данные и на их основе создает фоторобот.

Однако есть и этический момент. Последние исследования показали, что нейросети могут быть не беспристрастными. Один из недавних экспериментов пришлось остановить, так как чат-бот на основе нейросети неожиданно стал демонстрировать речевое поведение расиста, оскорбляя людей по расовому признаку.

Как быть с акцентом

Исследователи считают, что хотя они и используют крайне продвинутое программное обеспечение, позволяющее восстанавливать черепно-лицевые характеристики, ошибки не могут полностью исключаться, так как люди могут говорить с разным акцентом, который компьютер может неправильно атрибутировать.

Пить и больше потеть: как вода может снизить сонливость в жаркие дни

Почему мужчины не замечают женщину, даже если она хороша собой: 8 объяснений

Игра с цветами и светом: приемы декора, чтобы маленькая кухня выглядела больше

Однако чем более длинный отрезок аудиозаписи используется, тем более точными получаются конечные результаты. Однако главной проблемой по-прежнему остается неравномерная представленность различных этнических и культурных групп в Интернете, так как далеко не все имеют возможность или осмысленную потребность записывать видео и выкладывать их в "Ютуб".

Насколько результаты эксперимента точны

Исследование показало, что в 94 % случаев нейросеть умеет правильно определять пол и возраст. С этнической принадлежностью дело обстоит несколько иначе: алгоритм хорошо научился отличать азиата от европейца, но все еще ошибается в отличении индийцев от африканцев. На лицо европоцентризм, который легко можно списать все же на человеческий фактор.

Однако авторы делают упор на то, что исследование является исключительно академическим и не преследует каких-либо практических целей. Но сомневаться в том, что найдутся желающие использовать это не только на благо общества, не приходится.

Что еще умеют нейросети?

Технологии искусственного интеллекта совершили скачок за несколько лет, и теперь мы можем видеть такие его результаты, как способность идентифицировать лица людей в толпе по имеющимся фото.

Кроме того, осенью прошлого года на аукционе современного искусства была впервые продана картина, написанная по эскизу нейросети. Полотно продали более чем за 400 тысяч долларов.

О том, какие последствия будут у столь мощного прорыва в программном обеспечении, можно только гадать и надеяться, что его результаты все же окажутся в правильных и честных руках.

Комментариев 3

Я хочу получать

Новые комментарии в личный кабинет

Ответы на мои комментарии

Ничего

Правила публикации

Евгений Парков

10 июня 2019, 21:50

Технологии - это инструмент в руках людей. Они могут быть как во благо, так и во вред.

Очень точно!

Показать ответы (0)

Показать ответы (1)

Osangel

10 июня 2019, 22:17

Ну, благо от них точно будет. Эту технологию можно внедрить в расследование преступлений. Любой записанный разговор может стать важной уликой. По голосу можно будет определить примерную внешность преступников, а это уже серьезный шаг вперед.

Редактирование комментария возможно в течении пяти минут после его создания, либо до момента появления ответа на данный комментарий.

Будущее уже наступило: нейросеть Speech2Face генерирует портрет человека по голосу

Чему будут служить технологии?

Техническая сторона вопроса

Как быть с акцентом

Насколько результаты эксперимента точны

Что еще умеют нейросети?

Самые неловкие и нелепые ситуации, которые случались на "Оскаре"

Сплошная мистика и никакого обмана: фото, тайна которых не разгадана до сих пор

Ее супруг пропал через 6 недель после свадьбы. Правда открылась спустя много лет

Как сегодня выглядит Анастасия Безрукова - девочка с лицом ангела

Кожура тыквы: многофункциональное сырье в кулинарии и не только

"Золотая" кровь: всего 43 человека в мире имеют самую редкую группу крови

Мужчина нашел младенца и отнес в больницу, через 20 лет раздался стук в дверь

Кем выросла дочь известного шахматиста Каспарова и актрисы Нееловой (фото)

Мужчина и женщина не стриглись более 10 лет. Когда они все же решились сменить имидж, то окружающие не поверили своим глазам, настолько изменилась их внешность