Исследователи недовольны «чрезмерными» ограничениями новой ИИ-модели Anthropic Fable

Исследователи в области кибербезопасности недовольны ограничениями, установленными Anthropic в своей новой модели Fable.

Во вторник компания Anthropic выпустила свою новейшую модель Fable, представив ее как публичную и ограниченную версию своей мощной и разрекламированной модели для кибербезопасности Mythos.

Однако не все довольны этими ограничениями, и ряд исследователей кибербезопасности и профессионалов выразили недовольство в интернете.

«[Fable] отклоняет любые запросы, которые могут быть хоть как-то связаны с кибербезопасностью. Даже такие безобидные задачи, как чтение сообщения в блоге», — сказала Валентина «Чомпи» Пальмиотти, известный исследователь безопасности, работающий в IBM X-Force.

Когда запрос запускает защитные механизмы, Fable приостанавливает чат и сообщает, что «меры безопасности пометили это сообщение как связанное с кибербезопасностью или биологией».

Эти ограничения были введены, чтобы снизить риск использования Fable для разработки вредоносного ПО или взлома программного обеспечения — давняя проблема для Anthropic. Ограничения в области биологии связаны с аналогичными опасениями по поводу разработки биологического оружия.

Когда ИИ-гигант выпустил Mythos в апреле, он ограничил модель для ограниченного числа компаний и организаций в рамках проекта Glasswing — усилия по развертыванию модели для защиты критически важного программного обеспечения и инфраструктуры. На прошлой неделе Anthropic расширила доступ к Mythos для сотен организаций в 15 странах.

Но, несмотря на благие намерения, многие эксперты по кибербезопасности по-прежнему недовольны непродуманным характером ограничений. Мэтт Суиш, ветеран кибербезопасности, рассказал TechCrunch, что «если попросить его написать безопасный код, он считает это работой, связанной с кибербезопасностью, а не лучшими практиками разработки ПО, и вы получаете пониженный уровень». Fable запрограммирован на переход к Claude Opus 4.8, если он сталкивается с ограничением. «Похоже, это основано на ключевых словах, так что всё, что попадает в лексическое поле «кибербезопасности», запускает защитные механизмы».

«Но это понятно, так как мы всё еще на раннем этапе, и они всё еще адаптируют свои защитные механизмы. Я уверен, что они будут развиваться со временем, поскольку Anthropic и другие компании, создающие передовые модели, будут больше сотрудничать с новым поколением компаний в сфере кибербезопасности», — сказал Суиш, который является техническим сотрудником Tolmo, стартапа в области ИИ-кибербезопасности. «Лучше поймать больше людей, чем недостаточно, когда вы делаете такой релиз, и ослаблять ограничения со временем».

Другой исследователь пожаловался в X, что «даже просьба о ревью кода» запускает защитные механизмы Fable.

Anthropic не сразу ответила на запрос о комментарии.

Помимо ограничений внутри своих моделей, Anthropic требует от специалистов по кибербезопасности подавать заявки в Cyber Verification Program. В случае одобрения заявители получают меньше ограничений на использование Claude для работы в области кибербезопасности. У OpenAI есть аналогичная программа под названием Trusted Access for Cyber.

Подписаться на обновления Новости / Технологии
Зарегистрируйтесь на сайте, чтобы отключить рекламу

ℹ️ Помощь от ИИ в комментариях

Вы можете задать вопрос нашему ИИ-помощнику прямо в комментариях к этой статье. Он постарается быстро ответить или уточнить информацию.

⚠️ ИИ может ошибаться — проверяйте важную информацию.


0 комментариев

Оставить комментарий


Все комментарии - Технологии