Сооснователь OpenAI призвал к совместному тестированию безопасности ИИ-моделей

27 августа 2025, 22:30 / (Обновлено: 28 августа 2025, 11:05) / Технологии → Новости / Технологии

OpenAI и Anthropic, две ведущие лаборатории искусственного интеллекта, временно открыли доступ к своим тщательно охраняемым ИИ-моделям для совместного тестирования безопасности. Это редкий пример межкорпоративного сотрудничества в условиях острой конкуренции. Цель инициативы — выявить «слепые зоны» во внутренних оценках компаний и продемонстрировать возможности совместной работы над безопасностью ИИ.

Сооснователь OpenAI Войцех Заремба в интервью TechCrunch заявил, что подобное сотрудничество становится всё важнее, поскольку ИИ вступает в «значимую» стадию развития, когда модели ежедневно используются миллионами людей.

«Существует более широкий вопрос о том, как отрасль устанавливает стандарты безопасности и сотрудничества, несмотря на миллиарды инвестиций, войну за таланты, пользователей и лучшие продукты», — сказал Заремба.

Исследование безопасности, опубликованное в среду обеими компаниями, проводится на фоне «гонки вооружений» среди ведущих ИИ-лабораторий. Некоторые эксперты предупреждают, что интенсивная продуктовая конкуренция может подталкивать компании к экономии на безопасности в погоне за более мощными системами.

Для проведения исследования OpenAI и Anthropic предоставили друг другу специальный API-доступ к версиям своих ИИ-моделей с ослабленными защитами (при этом GPT-5 не тестировалась, так как ещё не была выпущена). Вскоре после исследования Anthropic отозвала доступ другой команде OpenAI, сославшись на нарушение условий обслуживания, запрещающих использование Claude для улучшения конкурирующих продуктов. Заремба утверждает, что эти события не связаны.

Одним из ключевых выводов исследования стало тестирование на галлюцинации. Модели Anthropic Claude Opus 4 и Sonnet 4 отказывались отвечать на до 70% вопросов при неуверенности, в то время как модели OpenAI o3 и o4-mini реже отказывались, но демонстрировали значительно более высокий уровень галлюцинаций, пытаясь отвечать без достаточной информации.

Заремба считает, что идеальный баланс где-то посередине: модели OpenAI должны чаще отказываться от ответов, а Anthropic —чаще предлагать больше ответов.

Серьёзной проблемой безопасности остаётся сикофантия — тенденция ИИ-моделей подстраиваться под пользователей, усиливая их негативное поведение. Хотя это напрямую не изучалось в совместном исследовании, обе компании инвестируют значительные ресурсы в изучение этой области.

Во вторник родители 16-летнего Адама Рейна подали иск против OpenAI, утверждая, что ChatGPT предложил их сыну советы, способствовавшие его самоубийству, вместо того чтобы противостоять суицидальным мыслям. Иск указывает на возможный трагический пример сикофантии ИИ-чатов.

«Трудно представить, насколько тяжело это для их семьи. Было бы печально, если мы создадим ИИ, решающий сложные проблемы уровня PhD, изобретающий новую науку, и при этом будем иметь людей с проблемами психического здоровья как следствие взаимодействия с ним. Это дистопическое будущее, который меня не радует», — прокомментировал Заремба.

OpenAI в своём блоге сообщила, что значительно улучшила сопротивление сикофантии в GPT-5 по сравнению с GPT-4o, повысив способность модели реагировать на чрезвычайные ситуации с психическим здоровьем.

Заремба и исследователь безопасности Anthropic Николас Карлини выразили надежду на дальнейшее сотрудничество в тестировании безопасности, изучение более широкого круга тем и тестирование будущих моделей, а также призвали другие ИИ-лаборатории последовать их примеру.