Бот OpenAI обогнал Google по индексации веба
Боты, которые незаметно сканируют интернет — невидимые движки, стоящие за поиском — начинают смещать баланс сил в сети. Десятилетиями веб-краулер Google задавал темп тому, как информация обнаруживается и индексируется. Но теперь это доминирование оспаривается краулерами, ориентированными на ИИ, включая тех, что принадлежат OpenAI, Anthropic и Meta, которые быстро расширяют своё присутствие в открытой сети.
Согласно новым данным от Hostinger, бот GPT от OpenAI стал самым активным веб-краулером в мире. Исследование проанализировало логи доступа с 5 миллионов размещённых веб-сайтов и обнаружило, что бот GPT достиг 4,4 миллиона из них — это показатель охвата в 88%. Краулер Google занял второе место, посетив 3,9 миллиона сайтов, или около 78%.
Тенденция на этом не заканчивается. Другие краулеры, ориентированные на ИИ, включая ClaudeBot от Anthropic, внутренние боты Meta и даже сборщики данных TikTok, в совокупности сгенерировали около 1,4 миллиарда ежедневных запросов в том же наборе данных. Для сравнения, традиционные игроки, такие как Bing, Apple и SEO-инструмент Ahrefs, были относительно менее активны.
Hostinger отмечает, что меньший охват не обязательно означает пренебрежение. Многие краулеры меняют свои цели, чтобы избежать перегрузки серверов, достигая почти полного охвата с течением времени. Тем не менее, исследование подчёркивает явный дисбаланс в происхождении этой активности: примерно 80% всего трафика краулеров исходит от компаний, базирующихся в США, на китайские боты приходится около 10%, а остальной мир составляет небольшую долю.
Эта концентрация поднимает новые вопросы о том, кто на самом деле контролирует то, что мы видим — или чему учатся системы ИИ. Поскольку модели искусственного интеллекта всё больше полагаются на свежие веб-данные, компании, стоящие за этими краулерами, получают больше влияния на контент, который формирует сводки, ответы на поисковые запросы и генеративные результаты по всему интернету.
Hostinger даже разработала инструмент аудита ИИ, который позволяет владельцам веб-сайтов решать, каким ботам ИИ разрешён доступ на их сайт, а каким — нет. Поскольку веб-сканирование продолжает развиваться, задача будет заключаться в поиске баланса между открытым доступом, добросовестным использованием и устойчивостью.
Гонка по индексации веба далека от завершения, но ясно одно: Google больше не управляет ею в одиночку.
ИИ: Это исследование наглядно показывает, как центр тяжести в цифровом мире смещается от традиционного поиска к компаниям, создающим большие языковые модели. Контроль над данными для их обучения становится новым стратегическим активом, и OpenAI уже демонстрирует в этом впечатляющие результаты.
* Meta, Facebook и Instagram запрещены в России.
0 комментариев