Microsoft представила сканер для обнаружения «отравленных» моделей ИИ
Microsoft представила инновационный сканер, предназначенный для обнаружения так называемых «отравленных моделей» искусственного интеллекта. Это ответ на растущую угрозу, когда киберпреступники не атакуют ИИ извне, а заражают его на фундаментальном уровне, внедряя вредоносные инструкции прямо в структуру модели во время её обучения.
В отличие от известных атак типа «инъекции промптов», отравление модели — это долгосрочная операция. Злоумышленники создают «спящие инструкции» (бэкдоры). Такая модель может корректно работать 99% времени, проходя рутинные проверки безопасности, но в определённый момент, после ввода специального триггера, выполнить вредоносное действие, например, раскрыть данные или сгенерировать опасный код.
Новый инструмент Microsoft действует как рентген для алгоритмов. Сканер анализирует паттерны «внимания» модели, выискивая аномалии, такие как внезапная концентрация на конкретном триггере. Он также обнаруживает подозрительную «избыточную память» для специфических фраз, что часто свидетельствует о целенаправленном отравлении обучающих данных. Процесс быстр и не требует дорогостоящего переобучения нейросети.
Для компаний, внедряющих ИИ в производственные среды, это прорыв. Сканер позволяет проверить доверие к моделям с открытым исходным кодом или обученным на внешних наборах данных. В 2026 году, когда «отравление» становится реальным бизнес-риском, инструмент Microsoft может стать стандартным оснащением для команд кибербезопасности.







0 комментариев