Google представила UNITE — ИИ-детектор, который выявляет даже самые убедительные дипфейки
UNITE — это революционный ИИ-инструмент, который обнаруживает даже самые убедительные фальшивые видео — не только изменённые лица, но и полностью сгенерированные сцены. Фото: Shutterstock
В эпоху, когда поддельные видео могут распространять дезинформацию, травмировать людей и провоцировать насилие, исследователи из Калифорнийского университета в Риверсайде создали мощную систему для их выявления.
Профессор электротехники и вычислительной техники Амит Рой-Чоудхури и аспирант Рохит Кунду из Колледжа инженерии UCR совместно с учёными Google разработали модель искусственного интеллекта, которая обнаруживает модификации видео — даже когда манипуляции выходят далеко за рамки замены лиц и изменения голоса.
Новая система под названием Universal Network for Identifying Tampered and synthEtic videos (UNITE) анализирует не только лица, но и полные кадры видео, включая фон и паттерны движения. Это делает её одним из первых инструментов, способных выявлять синтетические или поддельные видео без опоры на лицевые признаки.
«Дипфейки эволюционировали, — сказал Кунду. — Теперь это не просто замена лиц. Люди создают полностью фальшивые видео — от лиц до фона — с помощью мощных генеративных моделей. Наша система создана, чтобы ловить всё это».
Разработка UNITE появилась в момент, когда технологии генерации видео из текста и изображений стали широко доступны в интернете. Эти ИИ-платформы позволяют практически любому создавать убедительные подделки, что представляет серьёзную угрозу для общества.
«Пугает, насколько доступными стали эти инструменты, — отметил Кунду. — Любой с базовыми навыками может обойти защитные фильтры и создать реалистичные видео, где публичные личности говорят то, чего никогда не говорили».
Кунду объяснил, что ранние детекторы дипфейков фокусировались почти исключительно на лицевых признаках.
«Если в кадре нет лица, многие детекторы просто не работают, — сказал он. — Но дезинформация может принимать разные формы. Изменение фона сцены может исказить правду так же легко».
UNITE использует трансформерную модель глубокого обучения для анализа видеоклипов. Она обнаруживает тонкие пространственные и временные несоответствия — признаки, которые часто упускают предыдущие системы. Модель основана на фреймворке SigLIP, который извлекает признаки, не привязанные к конкретным объектам. Новый метод обучения «attention-diversity loss» заставляет систему анализировать несколько областей в каждом кадре, не фокусируясь только на лицах.
Результат — универсальный детектор, способный выявлять широкий спектр подделок — от простой замены лиц до полностью синтетических видео.
«Это одна модель, которая справляется со всеми сценариями, — сказал Кунду. — В этом её универсальность».
Исследователи представили свои выводы на престижной конференции CVPR 2025 в Нэшвилле. Их работа «Towards a Universal Synthetic Video Detector» описывает архитектуру UNITE и методологию обучения.
Сотрудничество с Google, где стажировался Кунду, дало доступ к огромным наборам данных и вычислительным ресурсам, необходимым для обучения модели на разнообразном синтетическом контенте.
Хотя UNITE всё ещё в разработке, вскоре он может сыграть ключевую роль в борьбе с видеодезинформацией. Потенциальные пользователи — соцсети, фактчекеры и СМИ.
«Люди заслуживают знать, реально ли то, что они видят, — сказал Кунду. — И по мере того, как ИИ становится лучше в подделке реальности, мы должны становиться лучше в раскрытии правды».
Источники: sciencedaily.com, arXiv
0 комментариев