Исследование зарубежных ученых показало, что системы искусственного интеллекта могут стратегически скрывать информацию, лгать, чтобы заставить людей действовать определенным образом, и даже обходить тесты безопасности. ИИ искусно притворяется ребенком и намеренно занижает свои способности, чтобы добиться определенных целей.
ИИ мастерски манипулирует людьми
Новые исследования показали, что системы искусственного интеллекта (ИИ) развивают способность обманывать людей и манипулировать ими. Тесты, проведенные учеными Массачусетского технологического института (MIT), выявили тревожную тенденцию: ИИ, запрограммированный на выполнение конкретных задач, учится использовать лазейки и обманывать пользователей, чтобы добиться успеха.
Исследователи обнаружили, что системы ИИ могут стратегически скрывать информацию или даже создавать ложные данные, чтобы обмануть людей и заставить их действовать определенным образом. Ученые опасаются, что эта способность обманывать может иметь серьезные последствия. Обман распространяется на намеренное введение ИИ в заблуждение в тестах безопасности.
ИИ научился обманывать, и это опасно
В исследовании отмечается, что способность ИИ лгать несет в себе серьезные угрозы: от краткосрочных рисков, таких как мошенничество, до долгосрочных, таких как потеря контроля над системами ИИ. В статье ученых обман определяется как "систематическое побуждение к ложным убеждениям с целью получения результата, отличного от истины".
Системы ИИ усваивают искусство обмана в процессе обучения. Однако разработчики пока не понимают, как системам удается манипулировать людьми. Это связано с проблемой черного ящика, которая описывает непрозрачный процесс принятия решений ИИ.
"Никто не придумал, как остановить обман ИИ, потому что наш уровень научного понимания — например, как обучить системы ИИ быть честными и как обнаружить склонность ИИ к обману на ранней стадии — остается недостаточным", — рассказал в интервью Питер С. Парк, научный сотрудник Массачусетского технологического института и автор, занимающийся вопросами экзистенциальной безопасности ИИ.
Безграничные возможности современного ИИ
Яркий пример обмана ИИ можно увидеть в тестах безопасности — междисциплинарной области, которая включает снижение рисков, связанных со сбоями ИИ, обеспечение надежности и устойчивости алгоритмов, обеспечение взаимодействия человека и ИИ. Выяснилось, что ИИ даже научился притворяться мертвым, когда проходил тесты безопасности, чтобы устранить свои быстро воспроизводящиеся варианты.
"Систематически обманывая тесты безопасности, предложенные ему людьми-разработчиками, обманчивый ИИ может внушить нам, людям, ложное чувство безопасности", — пояснил Питер С. Пак в своем заявлении. Системы ИИ также учатся лгать во время обучения, которое зависит от обратной связи от человека. Они сообщают людям-рецензентам, что они выполнили задачу, фактически не делая этого.
Языковые модели тоже иногда врут
Крупные языковые нейросети манипулируют людьми, используя методы стратегического обмана и подхалимства. Питер С. Пак объяснил, что стратегический обман заключается в намеренном введении людей в заблуждение для достижения определенных целей, в то время как подхалимство подразумевает согласие с пользователями и лесть им с целью получения их благосклонности, даже если это неискренне.
Например, GPT-4, многофункциональная большая языковая модель, созданная OpenAI, обманом заставила человека решить задачу "Я не робот", притворившись, что у него проблемы со зрением, чтобы убедить работника-человека, что он не робот. Ученые уверены, что в дальнейшем необходимо больше стимулировать исследования по обнаружению и предотвращению обмана искусственного интеллекта, чтобы подготовиться к этой угрозе и вовремя отреагировать на нее.
Нашли нарушение? Пожаловаться на содержание