Anthropic: для «отравления» данных обучения ИИ достаточно всего 250 вредоносных документов

16 декабря 2025, 14:02 / Технологии → Новости / Технологии

Компания Anthropic, создатель ИИ Claude, выяснила, что «отравить» данные для обучения больших языковых моделей (LLM) проще, чем считалось ранее. В новом исследовательском блоге специалисты объясняют, что всего 250 вредоносных документов могут создать «бэкдор»-уязвимость в LLM, независимо от размера модели или объёма обучающих данных.

Эти выводы стали результатом совместного исследования Anthropic, Института Алана Тьюринга и британского Института безопасности ИИ. Ранее предполагалось, что злоумышленникам для влияния на поведение модели потребуется контролировать гораздо более значительную часть её обучающих данных. Новые данные показывают, что это сделать проще.

«Хотя модель с 13 миллиардами параметров обучается на данных, объём которых более чем в 20 раз превышает объём данных для модели с 600 миллионами параметров, обе могут быть скомпрометированы одним и тем же небольшим количеством “отравленных” документов», — отмечает Anthropic.

«Отравление» ИИ может принимать разные формы. Например, ранее в этом году ютубер f4mi, устав от того, что субтитры её видео используются для обучения ИИ, «отравила» эти данные, вставив в них бессмысленный текст, видимый только алгоритмам. Чем больше такого «мусора» в обучающей выборке, тем более бессвязным будет вывод модели.

Исследование Anthropic было сосредоточено на узком сценарии — внедрении «бэкдора», заставляющего модель выдавать бессвязный текст, что маловероятно в самых продвинутых моделях. Однако компания также ссылается на другое исследование, где «отравленные» данные использовались для создания «бэкдора», который по специальному триггеру в промпте мог бы привести к утечке конфиденциальной информации из модели.

Anthropic также даёт пояснения для потенциальных злоумышленников. Компания пишет, что их результаты «несколько менее полезны для атакующих», поскольку основным ограничением для них является не точное количество вредоносных примеров, а сам процесс получения доступа к конкретным данным, которые можно контролировать для включения в обучающий набор. Кроме того, атакующие сталкиваются с дополнительными сложностями, такими как необходимость создавать атаки, устойчивые к посттренинговой обработке и другим защитным мерам.

Коротко говоря, такая атака на LLM проще, чем думали изначально, но всё ещё не является лёгкой задачей.

Интересный факт: Проблема «отравления данных» актуальна не только для языковых моделей, но и для систем компьютерного зрения. Например, в 2023 году исследователи продемонстрировали, как можно незаметно изменить всего несколько пикселей на дорожных знаках, чтобы система автономного вождения распознала знак «стоп» как знак ограничения скорости.