Новостные издания блокируют Wayback Machine от архивирования своих страниц

Многие новостные издания, как сообщается, блокируют Wayback Machine от архивирования своих страниц, по-видимому, из-за опасений, что компании, занимающиеся искусственным интеллектом, будут злоупотреблять принципами добросовестного использования и обучать свои модели на снимках старых статей. Это рискует сократить коллективный доступ общества к историческим новостным материалам, а также к другой критически важной информации, особенно в эпоху, когда дезинформации в избытке, а большие языковые модели (LLM) ИИ генерируют убедительные, но ложные ответы. Wired сообщает, что 23 крупных издания в настоящее время блокируют бота ia-archiverbot, обычно используемого краулера Internet Archive, включая USA Today и The New York Times. Иронично, что издание Wired отметило, что некоторые из этих изданий сами используют Wayback Machine в своих репортажах.

Многие библиотеки и редакции газет раньше имели богатые хранилища архивных томов, к которым люди обращались, чтобы получить представление об исторических записях. Но по мере того как мир отказался от печатной журналистики в пользу удобства онлайн-газет, эти архивы больше не обновляются; мы должны полагаться на онлайн-архивирующие сервисы, такие как Wayback Machine, которые служат современным историческим архивом.

Было некоторое сопротивление со стороны изданий в отношении архивирования, но правовая система установила, что то, что делает Internet Archive, является законным и частью добросовестного использования.

«Суды давно признали, что часто невозможно создать поисковый индекс, не создавая копии исходного материала», — заявил Фонд электронных рубежей (EFF). Он также добавил: «Копирование служило преобразующей цели: позволяло открывать, исследовать и получать новые знания о творческих работах».

Снимок Wayback Machine главной страницы Tom's Hardware за 1997 год / Изображение: Tom's Hardware/Wayback Machine

Можно было бы утверждать, что сами газеты и издания могли бы заниматься своим собственным архивированием, но в общественных интересах, чтобы ведение записей осуществляла нейтральная третья сторона. В конце концов, легко изменить онлайн-статьи, чтобы изменить запись, и хотя многим изданиям можно доверять, некоторые также принадлежат крупным корпорациям, которые потенциально могут извлечь выгоду из контроля над историческим нарративом. Кроме того, общеизвестно, что издания иногда обновляют статьи, открыто или тайно, поэтому такой архив, как Wayback Machine, также полезен для отслеживания подобных изменений. Архивные сервисы также можно использовать для сохранения записей об изданиях, которые с тех пор прекратили существование и чье содержание было бы в противном случае утеряно для истории.

Злоупотребление компаниями принципами добросовестного использования для обучения ИИ-моделей действительно является обоснованной проблемой как для медиакомпаний, так и для других платформ, на которых размещаются огромные объемы данных. Но предотвращение архивирования такими сервисами, как Wayback Machine, принесет обществу больше вреда, чем пользы. Будем надеяться, что не все потеряно для архивирования — директор Wayback Machine Марк Грэм, как сообщается, ведет переговоры с несколькими изданиями, чтобы бот архиватора снова получил доступ к этим веб-сайтам, в то время как коалиция журналистов и других заинтересованных сторон подписала письмо в поддержку Internet Archive и его миссии по обеспечению всеобщего доступа ко всем знаниям.

Источник: Tomshardware.com

Подписаться на обновления Новости / Технологии
Зарегистрируйтесь на сайте, чтобы отключить рекламу

ℹ️ Помощь от ИИ в комментариях

Вы можете задать вопрос нашему ИИ-помощнику прямо в комментариях к этой статье. Он постарается быстро ответить или уточнить информацию.

⚠️ ИИ может ошибаться — проверяйте важную информацию.


0 комментариев

Оставить комментарий


Все комментарии - Технологии