Википедия выпустила лучшее руководство по распознаванию текстов, написанных ИИ

20 ноября 2025, 21:47 / Технологии → Новости / Технологии

Многие из нас испытывали смутное подозрение, что читаемый текст был написан большой языковой моделью, но доказать это оказывается на удивление сложно. В прошлом году все вдруг стали убеждены, что такие слова, как «углубляться» или «подчеркивать», выдают модели, но доказательства сомнительны, а с ростом сложности моделей характерные слова стало труднее отследить.

Однако, как выяснилось, участники Википедии стали довольно искусны в выявлении текстов, написанных ИИ, и их публичное руководство по «Признакам текста ИИ» — лучший ресурс для проверки обоснованности подозрений. (Благодарность поэту Джеймсону Фитцпатрику, указавшему на этот документ в X.)

С 2023 года редакторы Википедии работают над контролем за материалами от ИИ в рамках «Проекта очистки от ИИ». При миллионах правок ежедневно материала для анализа достаточно, и в классическом стиле википедистов группа создала подробное руководство, основанное на доказательствах.

Прежде всего, руководство подтверждает известный факт: автоматизированные инструменты практически бесполезны. Вместо этого оно фокусируется на оборотах и привычках, редких в Википедии, но распространённых в интернете (и, следовательно, в обучающих данных моделей). Согласно руководству, тексты ИИ много внимания уделяют подчёркиванию важности темы общими фразами вроде «переломный момент» или «широкое движение». Модели также детально описывают незначительные упоминания в СМИ, чтобы придать значимости предмету — то, что ожидаешь в личной биографии, но не в независимом источнике.

В руководстве отмечена интересная особенность: добавление придаточных предложений с расплывчатыми утверждениями о важности. Модели пишут, что какое-то событие «подчёркивает значимость» чего-либо или «отражает сохраняющуюся актуальность» некой общей идеи. (Знатоки грамматики узнают в этом «причастие настоящего времени».) Это сложно ухватить, но, научившись распознавать, начинаешь видеть это повсюду.

Также заметна тенденция к использованию размытого маркетингового языка, крайне распространённого в сети. Пейзажи всегда «живописные», виды «захватывающие дух», а всё — «чистое и современное». Как выразились редакторы,

«это больше похоже на транскрипт телевизионной рекламы».

Руководство стоит прочитать полностью, и оно производит сильное впечатление. Ранее можно было бы сказать, что тексты языковых моделей развиваются слишком быстро, чтобы их можно было чётко определить. Однако привычки, отмеченные здесь, глубоко укоренены в способах обучения и применения моделей ИИ. Их можно замаскировать, но полностью искоренить будет сложно. И если общественность станет более осведомлённой в распознавании текстов ИИ, это может иметь самые разные интересные последствия.

Интересный факт: Проект очистки Википедии от ИИ (Project AI Cleanup) был запущен в ответ на растущий поток правок, сделанных языковыми моделями, которые иногда искажают факты или добавляют нерелевантную информацию. Это одна из первых масштабных попыток сообщества добровольцев системно бороться с влиянием ИИ на качество контента.