У кого-то семь пальцев, у кого-то очень длинная ладонь: почему системы искусственного интеллекта не могут нормально изобразить руки людей

Разработчики систем на базе искусственного интеллекта (ИИ) открывают все новые горизонты развития своих продуктов. Прорывы имеют место в сферах искусства, Интернете, образовании и т.д. И тем удивительнее, что некоторые простые задачи остаются неподвластными ИИ. Как ни странно, "умный" компьютер до сих пор не научился как следует рисовать человеческую руку.

О проблеме стало известно, когда уже несколько нейросетей сталкивались с трудностями при изображении рук. Больше всего внимания было привлечено системой Midjourney, которая должна была сгенерировать коллекцию изображений участников Twitter. На первый взгляд изображения выглядели очень правдоподобно и привлекательно. Однако нельзя было не заметить, что у кого-то из пользователей было семь пальцев, у кого-то слишком длинная ладонь, а кого-то и вовсе три руки.

Минимум представлений

Как объясняют ученые-компьютерщики, проблема реалистического изображения человеческой руки нейросетью заключается в слишком узком представлении об этой части тела у самой машины. Компьютер имеет очень общее представление руки, у которой есть пальцы, ногти, определенные черты внешнего вида и т.д. Но для трехмерного объемного отображения этого мало. Более того, когда мы говорим о контексте использования рук, например, для управления гаджетом, результат может быть еще более далеким от реальности.

Задача создания образа, в рамках которого человек держит фотоаппарат, играет на пианино или делает определенные символы руками, может вовсе завести ИИ в тупик. Все потому, что у машины нет достаточного объемного описания трехмерной модели руки с особенностями ее геометрического представления в разных вариациях.

На пути к идеалу

Тем не менее, системы ИИ достигли очень многого в результатах своей работы, когда дело касается обучения на простых двухмерных изображениях. Они создают весьма реалистичные образы людей, которые не всегда можно отличить от реальных фото. Но внимательный глаз сможет заметить на большинстве таких изображений очень грубые неточности с нарушениями законов физики.

Проблемы изображения рук интересны тем, что они встречаются повсеместно и тем самым обращают внимание на системное несовершенство искусственной генерации изображений людей.

Но можно ли исправить эту проблему?

Обучение трехмерной геометрии

Специалисты видят выход в том, чтобы нейросеть научилась не просто изображать определенный образ, а понимать его форму и неявные характеристики. Если нужно будет изобразить объект в более сложном контексте, система, понимающая его геометрические свойства, сможет с минимальным количеством ошибок выполнить задание.

Один из способов обучения нейросетей предполагает анализ данных 3D-проектирования. То есть 2D-изображений уже недостаточно для технологии машинного обучения.

К слову, компания OpenAI уже работает в этом направлении в рамках своего проекта Point-E. Планируется, что эта система будет генерировать 3D-модели на основе текстовых подсказок. В будущем подобные нейросети смогут создавать высокодетализированные 3D-рендеринги и даже цифровые миры.

Нашли нарушение? Пожаловаться на содержание

А как вы относитесь к нейросетям, которые создают реалистичные образы людей?
Комментарии 0
Подписаться
Я хочу получать
Правила публикации
Редактирование комментария возможно в течении пяти минут после его создания, либо до момента появления ответа на данный комментарий.