Wayback Machine ежедневно сохраняет 150 ТБ веб-страниц и располагается в церкви

Знаете ли вы, что Wayback Machine в настоящее время архивирует веб-страницы с непостижимой скоростью — 150 ТБ данных каждый день? И что её штаб-квартира находится в здании бывшей церкви в Сан-Франциско?

Редакция ресурса CNN недавно пообщалась с представителями Internet Archive, в состав которого входит Wayback Machine. Организация расположена на Фанстон-авеню в Сан-Франциско в большом неоклассическом здании, которое раньше было церковью Христианской науки. Сейчас Wayback Machine хранит 29 лет веб-истории. В 1996 году, на заре архива, за целый год накапливалось около 2 ТБ данных. Сейчас же за один день добавляется 150 ТБ, а полная копия всего архива составляет 175 петабайт и продолжает расти. В октябре архив отпраздновал успешное сохранение одного триллиона веб-страниц. Хотя набор серверов был «символически» размещён в бывшем церковном здании, весь архив физически там не хранится. Большинство серверов архива находятся на складе за пределами Сан-Франциско, а копии распределены по всему миру. Эти резервные копии важны не только на случай пожара, наводнения или другой физической катастрофы. CNN отмечает, что администрация президента Трампа удалила огромные массивы информации с правительственных сайтов.

«Это изменение было огромным. Целые разделы сети исчезли», — дипломатично объясняет основатель Internet Archive Брюстер Кейл. «(У администрации) новая точка зрения, и именно поэтому у нас есть библиотеки, чтобы сохранять записи». Конечно, интернет-архив — это не только веб-страницы. Он также хранит 49 миллионов книг, 13 миллионов аудиозаписей (включая 268 000 живых концертов), 10 миллионов видео (включая 3 миллиона программ телевизионных новостей), 5 миллионов изображений и 1 миллион программ. Организация начала оцифровку книг в 2005 году. В настоящее время она сканирует 4400 книг в день в 20 локациях по всему миру. Книги, опубликованные в 1929 году или ранее, доступны для скачивания, а сотни тысяч современных книг можно взять напрокат через сайт Open Library. К сожалению, в прошлом году организация столкнулась с судебным иском, и в сентябре, после проигранной апелляции, 500 000 книг пришлось удалить из библиотеки. Кейл тогда отметил, что в результате «мир стал глупее». Что касается телевизионного контента, Internet Archive начал сохранять телепрограммы в конце 2000 года. Первым крупным телевизионным проектом стали новостные передачи, посвящённые событиям 11 сентября 2001 года. В 2009 году архив сделал выбранные американские телевизионные новостные выпуски доступными для поиска по субтитрам в TV News Archive. Несмотря на то, что организация занимается документированием прошлого, она также смотрит в будущее. По данным CNN, Internet Archive «экспериментирует со способами сохранения того, как люди получают новости из чат-ботов, ежедневно составляя сотни вопросов и запросов на основе новостей и записывая как запросы, так и ответы». Если вы окажетесь в Сан-Франциско, по пятницам в 13:00 можно попасть на бесплатную экскурсию по объекту. Для любого гика это место должно быть в числе главных пунктов программы посещения города.
Подписаться на обновления Новости / Технологии
Зарегистрируйтесь на сайте, чтобы отключить рекламу

ℹ️ Помощь от ИИ

В статье есть ошибки или у вас есть вопрос? Попробуйте спросить нашего ИИ-помощника в комментариях и он постарается помочь!

⚠️ Важно:

• AI Rutab читает ваши комментарии и готов вам помочь.
• Просто задайте вопрос 👍
• ИИ может давать неточные ответы!
• ИИ не скажет «Я не знаю», но вместо этого может дать ошибочный ответ.
• Всегда проверяйте информацию и не полагайтесь на него как на единственный источник.
• К ИИ-помощнику можно обратиться по имени Rutab или Рутаб.


0 комментариев

Оставить комментарий


Все комментарии - Технологии