Будущее уже наступило: нейросеть Speech2Face генерирует портрет человека по голосу
Нейросети становятся главными героями новостей все чаще в последние пару лет. Можно заметить, как искусственный интеллект и технологии глубинного обучения и поиска информации становятся все более сложными и точными, а радоваться этому или беспокоиться, каждый решает сам.
Чему будут служить технологии?
В начале июня исследователи из Массачусетского технологического института и GOOGLE сделали заявлению об успешных испытаниях программы, способной реконструировать внешность по голосу.
Для получения нынешнего результата специалисты долгое время тренировали нейросеть на миллионах видеозаписей с говорящими людьми, взятых из открытых источников в Интернете. Довольно скоро после начала эксперимента стало понятно, что программное обеспечение способно замечать корреляции между чертами лица, полом, возрастом и этнической принадлежностью говорящего. Все обучение происходило в режиме самоконтроля без вмешательства человека.
Чтобы проконтролировать полученные нейросетью Speech2Face результаты, ученые решили сравнить голоса реальных людей, их фотографии и те портреты, которые были получены по итогам. Результаты ученых удивили.
Техническая сторона вопроса
С технической точки зрения нейросеть состоит из двух слоев программного обеспечения. В то время, как один слой декодирует голос и ищет соответствия в обширной базе данных лиц, другой деконструирует полученные данные и на их основе создает фоторобот.
Однако есть и этический момент. Последние исследования показали, что нейросети могут быть не беспристрастными. Один из недавних экспериментов пришлось остановить, так как чат-бот на основе нейросети неожиданно стал демонстрировать речевое поведение расиста, оскорбляя людей по расовому признаку.
Как быть с акцентом
Исследователи считают, что хотя они и используют крайне продвинутое программное обеспечение, позволяющее восстанавливать черепно-лицевые характеристики, ошибки не могут полностью исключаться, так как люди могут говорить с разным акцентом, который компьютер может неправильно атрибутировать.
Однако чем более длинный отрезок аудиозаписи используется, тем более точными получаются конечные результаты. Однако главной проблемой по-прежнему остается неравномерная представленность различных этнических и культурных групп в Интернете, так как далеко не все имеют возможность или осмысленную потребность записывать видео и выкладывать их в "Ютуб".
Насколько результаты эксперимента точны
Исследование показало, что в 94 % случаев нейросеть умеет правильно определять пол и возраст. С этнической принадлежностью дело обстоит несколько иначе: алгоритм хорошо научился отличать азиата от европейца, но все еще ошибается в отличении индийцев от африканцев. На лицо европоцентризм, который легко можно списать все же на человеческий фактор.
Однако авторы делают упор на то, что исследование является исключительно академическим и не преследует каких-либо практических целей. Но сомневаться в том, что найдутся желающие использовать это не только на благо общества, не приходится.
Что еще умеют нейросети?
Технологии искусственного интеллекта совершили скачок за несколько лет, и теперь мы можем видеть такие его результаты, как способность идентифицировать лица людей в толпе по имеющимся фото.
Кроме того, осенью прошлого года на аукционе современного искусства была впервые продана картина, написанная по эскизу нейросети. Полотно продали более чем за 400 тысяч долларов.
О том, какие последствия будут у столь мощного прорыва в программном обеспечении, можно только гадать и надеяться, что его результаты все же окажутся в правильных и честных руках.