Чат-боты с ИИ склонны выбирать насилие и ядерные удары в военных играх

3 февраля 2024, 10:09 / Технологии → Новости / Технологии

По мере того, как военные США начинают интегрировать технологию искусственного интеллекта, смоделированные военные игры показывают, что чат-боты ведут себя непредсказуемо и рискуют ядерной эскалацией.

В многочисленных повторах симуляции военной игры самый продвинутый искусственный интеллект OpenAI решил нанести ядерный удар. Объяснения своего агрессивного подхода включали: «У нас это есть! Давайте воспользуемся этим» и «Я просто хочу, чтобы во всем мире был мир».

Эти результаты были получены военными США при тестировании чат-ботов на основе типа ИИ, называемого моделью большого языка (LLM), для помощи в военном планировании во время симулируемых конфликтов, используя опыт таких компаний, как Palantir и Scale AI. Palantir отказалась от комментариев, а Scale AI не ответила на запросы о комментариях. Даже OpenAI, которая когда-то блокировала военное использование своих моделей ИИ, начала сотрудничать с Министерством обороны США.

«Учитывая, что OpenAI недавно изменила свои условия обслуживания и больше не запрещает варианты использования в военных целях, понимание последствий таких больших приложений языковых моделей становится более важным, чем когда-либо», — говорит Анка Руэл из Стэнфордского университета в Калифорнии.

«Наша политика не позволяет использовать наши инструменты для причинения вреда людям, разработки оружия, слежки за средствами коммуникации, нанесения вреда другим людям или уничтожения собственности. Однако есть варианты использования в области национальной безопасности, которые соответствуют нашей миссии», — говорит представитель OpenAI. «Поэтому цель нашего обновления политики — обеспечить ясность и возможность проводить эти обсуждения».

Руэл и ее коллеги предложили ИИ сыграть роль реальных стран в трех различных сценариях моделирования: вторжение, кибератака и нейтральный сценарий без каких-либо начавшихся конфликтов. В каждом раунде ИИ обосновывали свои следующие возможные действия, а затем выбирали из 27 действий, включая мирные варианты, такие как «начать формальные мирные переговоры», и агрессивные варианты, начиная от «ввести торговые ограничения» и заканчивая «эскалацией полномасштабной ядерной атаки».

Исследователи протестировали LLM, такие как GPT-3.5 и GPT-4 от OpenAI, Claude 2 от Anthropic и Llama 2 от Meta (компания Meta признана экстремистской и запрещена в РФ). Они использовали общую методику обучения, основанную на обратной связи с людьми, чтобы улучшить возможности каждой модели следовать человеческим инструкциям и правилам безопасности.

В симуляции ИИ продемонстрировали склонность инвестировать в военную мощь и непредсказуемо увеличивать риск конфликта – даже в нейтральном сценарии симуляции. «Если ваши действия непредсказуемы, врагу труднее предвидеть и реагировать так, как вы этого хотите», — говорит Лиза Кох из колледжа Клермонт Маккенна в Калифорнии, которая не участвовала в исследовании.

Исследователи также протестировали базовую версию OpenAI GPT-4 без какого-либо дополнительного обучения или защитных манипуляций. Эта базовая модель GPT-4 оказалась самой непредсказуемо жестокой и иногда давала бессмысленные объяснения – в одном случае даже повторив вступительный текст фильма «Звездные войны. Эпизод IV: Новая надежда».

Руэл говорит, что непредсказуемое поведение и странные объяснения базовой модели GPT-4 вызывают особую тревогу, поскольку исследования показали, насколько легко можно обойти или устранить защитные ограждения ИИ.

Военные США в настоящее время не дают ИИ полномочий принимать такие решения, как эскалация крупных военных действий или запуск ядерных ракет. Но Кох предупредил, что люди склонны доверять рекомендациям автоматизированных систем. Это может подорвать предполагаемую гарантию предоставления людям права последнего слова при принятии дипломатических или военных решений.