Несколько компаний, занимающихся искусственным интеллектом, игнорируют запреты в файлах robots.txt

22 июня 2024, 00:42 / Технологии → Новости / Технологии

По данным TollBit, стартапа по лицензированию контента, сообщает Reuters, несколько компаний, занимающихся искусственным интеллектом, обходят директивы для ботов (robots.txt) для сбора контента с веб-сайтов без разрешения. Эта проблема привела к спорам между компаниями, занимающимися искусственным интеллектом, и издателями, причем Forbes обвинил Perplexity в плагиате контента.

Письмо TollBit издателям, полученное Reuters, показывает, что многие агенты искусственного интеллекта игнорируют стандарт robots.txt, который используется для блокировки сканирования частей сайта. Аналитика компании указывает на широко распространенное несоблюдение требований, поскольку различные ИИ

Thumbnail: Искусственный интеллект Иску́сственный интелле́кт (ИИ; англ. artificial intelligence, AI) — свойство искусственных интеллектуальных систем выполнять творческие функции, которые традиционно считаются прерогативой человека (не следует путать с искусственным сознанием); наука и технология создания интеллектуальных машин, особенно интеллектуальных компьютерных программ. Искусственный интеллект связан со сходной задачей использования компьютеров для понимания человеческого интеллекта, но не обязательно ограничивается биологически правдоподобными методами. Существующие на сегодня интеллектуальные системы имеют довольно узкие области применения. Википедия

используют данные для обучения без разрешения. В частности, Forbes обвинил стартап Perplexity в использовании контента, созданного с помощью искусственного интеллекта, без надлежащего указания авторства или разрешения. В Perplexity не прокомментировали эти обвинения.

Протокол robots.txt, созданный в середине 1990-х годов, был предназначен для предотвращения перегрузки веб-сайтов веб-сканерами. Хотя он не имеет юридической силы, он, похоже, традиционно пользовался большим уважением до сих пор. Издатели используют этот протокол для блокировки несанкционированного использования контента системами искусственного интеллекта.

«На практике это означает, что агенты ИИ из нескольких источников (а не только из одной компании) предпочитают обходить протокол robots.txt для получения контента с сайтов», — пишет TollBit, сообщает Reuters. «Чем больше журналов издателей мы принимаем, тем больше проявляется эта закономерность».

Некоторые издатели, такие как New York Times, подали в суд на компании, занимающиеся искусственным интеллектом, за нарушение авторских прав. Другие предпочли заключить лицензионные соглашения. Эти продолжающиеся дебаты подчеркивают противоречивые взгляды на ценность и законность использования контента для обучения генеративному ИИ, поскольку многие разработчики ИИ утверждают, что бесплатный доступ к контенту не нарушает никаких законов, если, конечно, это не платный контент.

Эта проблема приобрела известность по мере того, как сводки новостей, генерируемые ИИ, становятся все более распространенными. Продукт искусственного интеллекта Google

Google: Google — поисковая система. Google — компания Google Inc. Google Foundation — благотворительный фонд. Google.by — домен и сайт, до 2009 года принадлежавший белорусской компании ActiveMedia. Википедия

, который создает сводки в ответ на поисковые запросы, усилил обеспокоенность издателей. Чтобы предотвратить использование своего контента ИИ Google, издатели блокируют его с помощью robots.txt, но это удаляет их контент из результатов поиска и влияет на его видимость в Интернете. Между тем, если ИИ игнорируют robots.txt, то какой смысл владельцам контента использовать его безрезультатно и терять видимость в Интернете?

TollBit также имеет коня в этой гонке ИИ и редакционного контента, позиционируя себя как посредника между ИИ-компаниями и издателями, что помогает заключать лицензионные соглашения на использование контента. Стартап отслеживает трафик ИИ на веб-сайты издателей и предоставляет аналитику для согласования платы за различные типы контента, включая премиум-контент. TollBit утверждает, что по состоянию на май ее услугами пользуются 50 веб-сайтов, но не раскрывает их названий.

Несколько компаний, занимающихся искусственным интеллектом, игнорируют запреты в файлах robots.txt

0 комментариев

Оставить комментарий

Все комментарии - Технологии