Wayback machine что это такое

Как пользоваться сервисом Wayback Machine: 10 советов для интернет-маркетологов

Wayback Machine – это широко известный и полезный сервис, позволяющий увидеть сайты в том виде, в котором они существовали в прошлом, но это не единственная полезная функция Wayback Machine – сервис можно использовать и в интернет-маркетинге.

1. Отслеживание изменений сайта

Это основная функция Wayback Machine. Снимки сайта (snapshots) Wayback Machine можно использовать для сравнения вида сайта в разное время, чтобы посмотреть, что изменилось.

Даже если у Wayback Machine мало снимков сайта (обычно такое случается с не очень популярными сайтами), вы все равно можете определить дату внесения изменений. Это полезно, если вы считаете, что изменения могли быть причиной падения сайта в поисковой выдаче, посмотрите на версию страницы того времени, после которого произошло падение и узнаете, что за негативные изменения ее вызвали. Используйте эти данные, чтобы исправить проблему.

Wayback machine что это такое. 05 10 16 texterra 01. Wayback machine что это такое фото. Wayback machine что это такое-05 10 16 texterra 01. картинка Wayback machine что это такое. картинка 05 10 16 texterra 01

2. Знакомство с сайтом

Когда вы работаете с новым клиентом, важно быть ознакомленным с его сайтом и разбираться в тонкостях его бренда. Wayback Machine вам в этом поможет. Вы можете посмотреть, как сайт менялся с годами и насколько изменилась политика бренда. Согласуйте с клиентом изменения: «Раньше вы утверждали одно, а теперь другое, так ведь?».

3. Поиск прежних редиректов

Один из хороших способов использовать Wayback Machine – поиск URL, на которые через какое-то время повесили редиректы. Такое часто бывает с крупными брендами, сайты которых начинали работу в 90 или начале 2000, а потом были переделаны в соответствии с требованиями поисковых систем. Чтобы найти более ранние версии ссылок и проверить их код состояния, используйте Wayback Machine в паре с Screaming Frog.

4. Поиск старой структуры URL

Иногда структура URL сайтов меняется, а старая теряется. Если вы знаете приблизительную дату изменения структуры ссылки, то можете использовать Wayback Machine, чтобы выяснить, когда именно были внесены изменения и как выглядела прежняя структура. Затем вы можете сравнить более новые версии ссылки с предыдущими. Эта функция полезна, если контент сайта был реорганизован или подразделы были переименованы.

Wayback machine что это такое. 05 10 16 texterra 02. Wayback machine что это такое фото. Wayback machine что это такое-05 10 16 texterra 02. картинка Wayback machine что это такое. картинка 05 10 16 texterra 02

5. Изучение Robots.txt

Wayback Machine индексирует все, что находит на сайте, в том числе и файлы robots.txt. И это здорово: если у вашего сайта есть технические уязвимости, вы сможете узнать, когда именно были внесены изменения в документе robots.txt, приведшие к этим уязвимостям. Все, что надо сделать – это найти документ robots.txt и сравнивать срезы данных страниц за разные даты до тех пор, пока не найдете причину уязвимостей.

6. Проверка работы счетчика аналитики

Wayback Machine индексирует исходный код страниц и позволяет отследить изменения, которые были в него внесены. Введите URL страницы, выберите дату и снимки сайта, которые вам нужны, и кликните на просмотр исходного кода и оцените, насколько правильно он сделан.

7. Анализ пути клиента

Если вы хотите провести полный анализ пути клиента, то с этим вам также может помочь Wayback Machine. Используя этот сервис, вы сможете сравнить текущую длину пути с тем, который был в прошлом, чтобы определить, какие стадии изменились с течением времени. Также Wayback Machine открывает способы повысить конверсию. Если конверсия на вашем сайте была высокой в определенной время, то можно посмотреть на предыдущее оформление, кнопки и ссылки на странице, чтобы определить, как они повлияли на конверсию.

Wayback machine что это такое. 05 10 16 texterra 03. Wayback machine что это такое фото. Wayback machine что это такое-05 10 16 texterra 03. картинка Wayback machine что это такое. картинка 05 10 16 texterra 03

8. Определение структуры сайта

Wayback Machine показывает, как в прошлом выглядела иерархическая структура сайта. Иногда разделы могут объединять или наоборот разбивать на несколько штук. Если вы посмотрите на то, какой была структура сайта в прошлом, вы сможете сказать, какие страницы были недавно объединены в одну категорию или разделены на самостоятельные.

9. Поиск старого контента

Wayback Machine поможет найти старый контент, который был утерян или случайно удален. Достаточно открыть страницу, на которой находился контент, на более ранней дате.

Wayback machine что это такое. 05 10 16 texterra 04. Wayback machine что это такое фото. Wayback machine что это такое-05 10 16 texterra 04. картинка Wayback machine что это такое. картинка 05 10 16 texterra 04

10. Проведение смешанного маркетингового анализа

С помощью Wayback Machine можно анализировать рост трафика посадочных страниц. Предположим, что в прошлом году контекст работал хорошо, но результат в этом году далеко не такой впечатляющий. Посмотрите на ваши посадочные страницы с помощью Wayback Machine, чтобы выяснить, какие ключевые слова приносили результат, и что изменилось на посадочных страницах и привело к снижению эффективности этих ключевиков.

Назад в будущее

На первый взгляд, Wayback Machine – это просто сервис, показывающий более раннюю версию сайтов, действительно «машина времени» интернета. Однако, его функции могут быть полезны и в сфере интернет-маркетинга. А какие способы использования Wayback Machine приходят в голову вам? Поделитесь в комментариях.

В Google и «Яндексе», соцсетях, рассылках, на видеоплатформах, у блогеров

Источник

Web Archive: как посмотреть, как выглядел сайт раньше?

Wayback machine что это такое. aleksei andrusenko e1506484025759. Wayback machine что это такое фото. Wayback machine что это такое-aleksei andrusenko e1506484025759. картинка Wayback machine что это такое. картинка aleksei andrusenko e1506484025759

Wayback machine что это такое. web archive kak polzovatsya chem polezen. Wayback machine что это такое фото. Wayback machine что это такое-web archive kak polzovatsya chem polezen. картинка Wayback machine что это такое. картинка web archive kak polzovatsya chem polezen

Интернет в привычном для нас виде появился 36 лет назад — за это время он развивался семимильными шагами, а сайты тысячи раз меняли свой дизайн и контент. Web archive представляет собой своеобразную машину времени, которой может воспользоваться каждый пользователь.

Что такое Web Archive?

Это бесплатный сервис, где собраны истории многих интернет ресурсов — их архивные копии. Причем речь идет не о скриншотах, а о полноценных страницах с изображениями, рабочими ссылками и стилевым оформлением.

Получение информации о том или ином домене предполагает не только интересное времяпровождение с отслеживанием эволюции веб-проекта, но еще и возможность:

История создания архива интернета

Wayback Machine является одним из двух главных проектов archive.org. Этот некоммерческий сервис был создан в 1996 году Брюстером Кейлом. Машина времени сайтов имеет четкую цель: сбор и хранение копий ресурсов вместе со всем контентом для возможности свободного просмотра несуществующих или неподдерживающихся страниц в будущем. С 1999-го робот стал фиксировать еще и аудио, видео, иллюстрации, программное обеспечение.

База современного архива собиралась в течение 20 лет, у нее не существует аналогов. Статистика впечатляет: на сегодняшний день в сервисе находится 279 миллиардов страниц, 11 миллионов книг и статей, 100 тысяч программ и миллион картинок.

А знаете ли вы? Веб-архив сайтов часто имеет проблемы на законодательном уровне из-за нарушения авторских прав. По требованию правообладателей библиотека удаляет материалы из публичного доступа.

Как пользоваться веб-архивом?

Сервис очень удобный в применении. Пошаговая инструкция такова:

Wayback machine что это такое. vvod nazvanie interesujushhego sajta. Wayback machine что это такое фото. Wayback machine что это такое-vvod nazvanie interesujushhego sajta. картинка Wayback machine что это такое. картинка vvod nazvanie interesujushhego sajta

Wayback machine что это такое. osnovnaya informaciya po sajtu livepage. Wayback machine что это такое фото. Wayback machine что это такое-osnovnaya informaciya po sajtu livepage. картинка Wayback machine что это такое. картинка osnovnaya informaciya po sajtu livepage

Wayback machine что это такое. daty sozdaniya slepkov v kalendare. Wayback machine что это такое фото. Wayback machine что это такое-daty sozdaniya slepkov v kalendare. картинка Wayback machine что это такое. картинка daty sozdaniya slepkov v kalendare

Каждый из них доступен для просмотра: нужно лишь выбрать год, месяц и день сохранения. Мы хотим посмотреть, как выглядел сайт раньше: допустим, 3 февраля текущего года. Наводим курсор на голубой кружок и жмем на время сохранения. Проще не бывает!

Wayback machine что это такое. vybor daty sohraneniya slepka. Wayback machine что это такое фото. Wayback machine что это такое-vybor daty sohraneniya slepka. картинка Wayback machine что это такое. картинка vybor daty sohraneniya slepka

Wayback machine что это такое. primer sohranennogo sajta waybackmachine. Wayback machine что это такое фото. Wayback machine что это такое-primer sohranennogo sajta waybackmachine. картинка Wayback machine что это такое. картинка primer sohranennogo sajta waybackmachine

Wayback machine что это такое. obshhie dannye o web proekte. Wayback machine что это такое фото. Wayback machine что это такое-obshhie dannye o web proekte. картинка Wayback machine что это такое. картинка obshhie dannye o web proekte

Wayback machine что это такое. primer karty sajta. Wayback machine что это такое фото. Wayback machine что это такое-primer karty sajta. картинка Wayback machine что это такое. картинка primer karty sajta

Алгоритм действий можно сократить. Для работы с сервисом напрямую, введите в строке своего браузера

В нашем случае это

Как восстановить сайт из веб-архива?

Плохая новость для тех, кто планирует просто найти архив сайта и скачать его привычным способом: страницы имеют вид статических html-файлов, к тому же их слишком много для того, чтобы заниматься этим вручную. Решить проблему можно при помощи специальных программ, к примеру, приложения на ruby. Необходимо лишь установить все на сервер и запустить восстановление страниц.

apt-get install ruby

Wayback machine что это такое. 33 2. Wayback machine что это такое фото. Wayback machine что это такое-33 2. картинка Wayback machine что это такое. картинка 33 2

Wayback machine что это такое. 3. Wayback machine что это такое фото. Wayback machine что это такое-3. картинка Wayback machine что это такое. картинка 3

gem install wayback_machine_downloader

Wayback machine что это такое. zapusk vykachivaniya sajta iz web archive. Wayback machine что это такое фото. Wayback machine что это такое-zapusk vykachivaniya sajta iz web archive. картинка Wayback machine что это такое. картинка zapusk vykachivaniya sajta iz web archive

Для удобства можно указать отметку снапшота — утилита определит число страниц и выведет выкачиваемые файлы на консоль. После скачивания и сохранения мы получим набор статических данных.

Wayback machine что это такое. sozdajte konfiguraciju v nginx i dozhdites obnovleniya dns. Wayback machine что это такое фото. Wayback machine что это такое-sozdajte konfiguraciju v nginx i dozhdites obnovleniya dns. картинка Wayback machine что это такое. картинка sozdajte konfiguraciju v nginx i dozhdites obnovleniya dns

Как восстановить сайт без бэкапа?

Вернуть ресурс из небытия можно даже без резервного копирования.

Wayback machine что это такое. poluchenie vseh stranic sajta iz veb arhiva. Wayback machine что это такое фото. Wayback machine что это такое-poluchenie vseh stranic sajta iz veb arhiva. картинка Wayback machine что это такое. картинка poluchenie vseh stranic sajta iz veb arhiva

Войдите в режим расширенного поиска и укажите имя сайта. Получив результаты, кликайте по ссылкам «cached» или «копия».

Учтите!

Нужный вам проект может и не входить в архив сайтов интернета. Если вы его не нашли в библиотеке — значит, правообладатель потребовал удаления копий или же ресурс закрыли в соответствии с законом о защите интеллектуальной собственности. Возможен и другой вариант: через файл robots.txt был банально внесен соответствующий запрет.

Как найти уникальный контент из веб-архива для вашего сайта?

Статьи, расположенные на заброшенных ресурсах, обычно не представляют никакой ценности для их бывших владельцев. А ведь в мир иной ежедневно уходят десятки сайтов. И среди кучи хлама, выброшенного на помойку истории, можно найти настоящие самородки — приличные тексты, которые достанутся вам бесплатно.

Поисковики хорошо относятся к любому актуальному и уникальному контенту — можно не бояться попасть в их немилость только из-за того, что статьи взяты из веб-архива чужого сайта.

Итак, последовательность действий следующая:

При разумном подходе такой способ пополнения сайта контентом можно поставить на поток. Поиски материалов на мертвых блогах оправданы экономией времени на написание текстов и денег, которые бы вам пришлось заплатить авторам.

Как сделать так, чтобы сайт не попал в библиотеку веб-архива?

Если вы дорожите контентом и не хотите видеть свою онлайн-площадку в электронной библиотеке, пропишите запретную директиву в файле robots.txt:

User-agent: ia_archiver
Disallow: /

User-agent: ia_archiver-web.archive.org
Disallow: /

После изменения в настройках веб-сканер перестанет создавать архивные копии вашего сайта, к тому же удалит уже сделанные слепки. Однако учтите, что ваш запрет действует лишь до тех пор, пока доступен robots.txt — когда закончится срок регистрации доменного имени, машина времени сайтов станет демонстрировать статьи всем желающим.

Важно! Если вы, наоборот, желаете активно пользоваться веб-архивом, введите соответствующий запрос на главной странице сервиса. Просто укажите адрес проекта в разделе Save Page Now, после чего нажмите кнопку Save Page. Повторяйте процедуру после внесения любых правок.

Wayback machine что это такое. sohranenie stranic veb arhiv. Wayback machine что это такое фото. Wayback machine что это такое-sohranenie stranic veb arhiv. картинка Wayback machine что это такое. картинка sohranenie stranic veb arhiv

Аналоги Webarchive

Альтернативой рассматриваемой в обзоре электронной библиотеке может стать:

Источник

Wayback Machine что это за сервис?

Ежедневно в интернете появляются тысячи различных веб-сайтов, наполненных всевозможной информацией. Естественно, все эти данные требуется где-то хранить. Именно с этой целью и был создан Wayback Machine. На сегодняшний день уже достаточно сложно представить количество хранившихся на нем ресурсов, но отсчет идет даже не с миллионных чисел.

Wayback machine что это такое. Chto takoe Wayback Machine. Wayback machine что это такое фото. Wayback machine что это такое-Chto takoe Wayback Machine. картинка Wayback machine что это такое. картинка Chto takoe Wayback Machine

Зачем нужен Wayback Machine

Этот сервис предназначен для сохранения информации, находящейся на просторах интернета. Данные записываются абсолютно в любых форматах, будь это текстовые документы, музыка или фильмы. Доступ к файлам является свободным, то есть получить их может абсолютно любой заинтересованный пользователь.

Wayback Machine регулярно обновляется новыми сайтами, а так же отслеживает редактирование ранее созданных ресурсов. Сложный алгоритм работы стал возможен благодаря использованию специальных мини-программ, которые регулярно мониторят сеть на наличие новых появившихся ресурсов. В зависимости от популярности сайта и множества других критериев роботы посещают страницы с разной частотой.

Wayback machine что это такое. Glavnaya stranitza internet arhiva. Wayback machine что это такое фото. Wayback machine что это такое-Glavnaya stranitza internet arhiva. картинка Wayback machine что это такое. картинка Glavnaya stranitza internet arhiva

Все что требуется от пользователя – ввести поисковый запрос в пустую строку сервиса и ознакомиться с имеющейся информацией, выданной по ключевым словам. Здесь вы можете использовать специальные фильтры, которые позволяют отсортировать результаты согласно заданным вами критериям.

Немаловажным является то, что сервис сохраняет информацию не только о рабочих сайтах, а и о тех, которые уже не используются. Это может быть весьма полезным, при поиске специфической или не популярной информации.

Как работать с Wayback Machine

Сразу же после открытия основной страницы проекта вы увидите пустую графу поиска. Она собственно и носит название, которому просвещена эта статья. Введите интересующие вас ключевые слова и запустите поисковый процесс.

После обработки запроса вы увидите несколько ссылок с изображением искомого ресурса в разный период времени. Для открытия сайта достаточно выбрать дату, однако не следует забывать, что копии ресурса делаются не регулярно, и зависят от множества различных факторов.

Иногда информация, имеющаяся на сайте, может очень отличаться в различные временные интервалы. Это вызвано тем, что основной домен мог принадлежать ранее какой-либо другой компании, специализирующейся на какой-то другой тематике.

Wayback machine что это такое. Otobrashenie informatzii po saitu v Internet Arhive. Wayback machine что это такое фото. Wayback machine что это такое-Otobrashenie informatzii po saitu v Internet Arhive. картинка Wayback machine что это такое. картинка Otobrashenie informatzii po saitu v Internet Arhive

Этот сервис выполняет крайне важную функцию, позволяя отслеживать изменения, внесенные на сайты в разное время. Наиболее актуально это для пользователей, желающих приобрести какой-либо домен, и заинтересованных предварительно ознакомиться с историей адреса, но и просто случайный посетитель проекта сможет найти для себя много интересного.

Источник

На каких серверах держится Архив Интернета?

Wayback machine что это такое. 6krnguhemwn yufm89zysrithqg. Wayback machine что это такое фото. Wayback machine что это такое-6krnguhemwn yufm89zysrithqg. картинка Wayback machine что это такое. картинка 6krnguhemwn yufm89zysrithqg
Фото 1. Один из дата-центров Internet Archive в Сан-Франциско

Internet Archive — некоммерческая организация, которая с 1996 года сохраняет копии веб-страниц, графические материалы, видео- и аудиозаписи и программное обеспечение. Каждый может зайти в Wayback Machine и посмотреть, как выглядел Хабр в 2006 году или «Яндекс» в 1998 году, хотя загрузка архивных копий занимает около минуты (это не для реализма 90-х, а по техническим причинам, см. ниже).

Архив быстро растёт. Сейчас объём всех накопителей достиг 200 петабайт. Но Internet Archive принципиально не обращается к стороннему хостингу или облачному сервису вроде AWS. У некоммерческой организации собственные дата-центры, свои серверы и свои инженеры. Это гораздо дешевле, чем услуги AWS.

Архив Интернета против облаков

Технические подробности серверного устройства Internet Archive раскрыл Джона Эдвардс (Jonah Edwards), руководитель инженерной группы Core Infrastructure Team.

По его мнению, понятие «облако» многих людей вводит в заблуждение как нечто абстрактное. На самом деле это просто чужие компьютеры, то есть серверы посторонней компании. Для Internet Archive это неприемлемо. У организации собственные серверные в собственных зданиях, компьютеры принадлежат им, и персонал тоже свой.

Wayback machine что это такое. image loader. Wayback machine что это такое фото. Wayback machine что это такое-image loader. картинка Wayback machine что это такое. картинка image loader
Четыре дата-центра Internet Archive располагаются в Сан-Франциско, Ричмонде и Редвуд-Сити (это пригороды Сан-Франциско)

Кто-то может посчитать такой подход архаичным, но в некоторых случаях он действительно оправдан. В случае Internet Archive на то есть три причины: это дешевле, обеспечивает лучший контроль за серверами и даёт гарантию, что пользователей не отслеживают рекламные трекеры.

Инфраструктура

Что представляет собой инфраструктура, которой управляет Core Infrastructure Team? На февраль 2021 года цифры такие:

Разумеется, техника постепенно обновляется. На смену старым накопителям приходят новые. Например, маленькие диски на 2 и 3 терабайта полностью вышли из обращения в 2017 и 2018 годах, соответственно, а с прошлого года постоянно растёт доля дисков на 16 ТБ.

Как показано на графике ниже, несмотря на увеличение ёмкости накопителей, общее число HDD тоже постепенно растёт: за три года оно выросло с 15 тыс. до 20 тыс.

Wayback machine что это такое. image loader. Wayback machine что это такое фото. Wayback machine что это такое-image loader. картинка Wayback machine что это такое. картинка image loader
Количество жёстких дисков разного объёма на серверах Internet Archive

Диски реплицируются по дата-центрам, для производительности контент по запросу выдаётся одновременно со всех копий. Все элементы Архива представляют собой директории на дисках. Веб-страницы Wayback Machine хранятся в файлах WARC (Web ARChive, сжатые файлы Web Archive). При запросе отдельной страницы её нужно извлечь из середины архива WARC, а если страница требует загрузки дополнительных ресурсов, то процесс повторяется. Это одна из причин, почему полная загрузка страниц из Wayback Machine достигает 90 секунд, хотя закэшированные копии и популярный контент загружаются быстрее.

Wayback machine что это такое. . Wayback machine что это такое фото. Wayback machine что это такое-. картинка Wayback machine что это такое. картинка

Для надёжности копии Архива хранятся не только в Сан-Франциско, но и ещё в нескольких локациях по всему миру, в том числе в Амстердаме (Нидерланды) и Новой Александрийской библиотеке (Египет).

В 1996 году первые серверы Internet Archive подняли на недорогих компьютерах из стандартных комплектующих: по сути, на обычных десктопах под Linux. Хотя инфраструктура сильно выросла, в качестве операционной системы всегда использовали только Linux. С 2004 года все серверы перешли на Ubuntu, сейчас продолжается миграция на Ubuntu 20.4 LTS (Focal Fossa).

Объём Архива

В последнее время объём Архива возрастает примерно на 25% в год, сейчас это соответствует 5−6 петабайтам в квартал. С учётом резервных копий нужно добавлять накопителей на 10−12 петабайт в квартал.

Одна копия Архива занимает более 45 петабайт, но на дисках и лентах хранится минимум две копии каждого объекта.

Как видно на графике вверху, обновление дискового массива происходит только за счёт моделей максимальной ёмкости. Например, в конце 2021 года планируется переход на диски по 20 ТБ, и тогда в серверы будут устанавливать только их. Остальные HDD постепенно доживают свой век, и их количество медленно снижается.

Internet Archive возлагает большие надежды на новые технологии записи данных, такие как HAMR (heat-assisted magnetic recording), чтобы ёмкость HDD увеличивалась ещё быстрее. Технология HAMR предусматривает предварительное нагревание магнитной поверхности лазером в процессе записи, что позволяет значительно уменьшить размеры магнитной области, хранящей один бит информации — и увеличить плотность записи. Нагрев выполняется с помощью лазера, который за 1 пс разогревает область записи до 100 °C.

Разработка этой технологии затянулась на 15 лет, но в январе 2021 года были официально представлены первые диски HAMR на 20 ТБ. Пока что они официально поставляются только избранным клиентам в рамках фирменного сервиса Seagate Lyve, но вскоре должны появиться в свободной продаже.

Seagate обещает, что HAMR позволит наращивать ёмкость HDD на 20% в год. Поэтому в ближайшее время можно ожидать модель на 24 ТБ, а в будущем — диски на 30 и 50 ТБ. Internet Archive тоже надеется на это и внимательно следит за последними разработками.

На текущем размере дисков понадобится 15 вот таких серверных стоек, чтобы разместить одну копию Архива:

Wayback machine что это такое. . Wayback machine что это такое фото. Wayback machine что это такое-. картинка Wayback machine что это такое. картинка
У Internet Archive 750 серверов и 20 000 жёстких дисков

Сейчас в дата-центрах установлено 75 серверных стоек, что обеспечивает некоторый запас и избыточное копирование.

По состоянию на февраль 2021 года на серверах хранились копии 534 млрд веб-страниц, 16 млн аудиозаписей, 8,7 млн видеозаписей фильмов, клипов и телепередач, 3,8 млн изображений, 629 тыс. компьютерных программ, более 29 млн книг и текстов, в том числе 72 771 текстов на русском языке.

Wayback machine что это такое. image loader. Wayback machine что это такое фото. Wayback machine что это такое-image loader. картинка Wayback machine что это такое. картинка image loader

Любой пользователь может создать аккаунт и добавить в архив медиафайлы.

В 2020 году Internet Archive пережил серьёзный рост количества запросов и объёма внешнего трафика с 40 до 60 Гбит/с. Из-за пандемии коронавируса и самоизоляции ресурсы Архива стали более востребованы. Количество запросов росло так быстро, что в определённый момент маршрутизаторы Internet Archive перестали справляться с нагрузкой, пришлось делать апгрейд сетевой инфраструктуры быстрее, чем планировалось. Сейчас веб-сайт входит в топ-300 крупнейших сайтов интернета.

Работа на собственных серверах имеет и свои недостатки. Основные причины сбоев Internet Archive — обрывы оптоволокна из-за строительных работ в городе, сбои энергоснабжения, случайные провалы напряжения в сети. Впрочем, прошлый год сайт завершил с аптаймом 99,9%.

Wayback machine что это такое. image loader. Wayback machine что это такое фото. Wayback machine что это такое-image loader. картинка Wayback machine что это такое. картинка image loader

Internet Archive планирует расширять внешний канал. Ожидается, что в ближайшее время внешний трафик вырастет до 80 Гбит/с.

Примерно так выглядит дизайн внутренней сети:

Wayback machine что это такое. image loader. Wayback machine что это такое фото. Wayback machine что это такое-image loader. картинка Wayback machine что это такое. картинка image loader

Дата-центры подключены к нескольким провайдерам первого уровня (Tier 1) и соединены между собой по оптоволокну с применением технологии плотного спектрального уплотнения (DWDM). Локальные университетские сети подключаются к этому кольцу напрямую через локальные точки обмена трафиком.

Вместо нынешнего оптоволокна планируется проложить пары 100-гигабитных кабелей по всему кольцу из четырёх дата-центров, так что внешний трафик тоже можно будет увеличить до 100 Гбит/с.

Прокладка новых кабелей по Сан-Франциско — весьма хлопотное и дорогое дело. Приходится перекладывать асфальт на автомобильных дорогах и тротуарах. К счастью, Internet Archive удалось получить официальный статус библиотеки, что даёт доступ к государственным субсидиям, в том числе к бюджету Федеральной комиссии по связи США (FCC) на подключение всех библиотек к интернету. Таким образом, львиную долю расходов на прокладку, обслуживание оптоволокна и трафик оплачивает FCC по программе E-Rate Universal Service Program.

С 2005 года Internet Archive начал проект Open Library по сканированию книг. С одной стороны, это действительно важный общественный проект. С другой стороны, он позволил получить государственные льготы и финансирование в качестве публичной библиотеки.

Кроме государственных грантов и пожертвований, организация оказывает платные услуги по сканированию книг, в основном, для других библиотек и университетов. Это ещё один источник финансирования.

Планы на будущее

Инженеры Internet Archive сейчас обдумывают варианты использования SSD и GPU в основных серверах, чтобы увеличить их производительность. Главная проблема здесь в том, что все дата-центры находятся в стеснённых городских условиях Сан-Франциско и пригородов с очень ограниченными возможностями охлаждения (см. фото 1). Так что каждый апгрейд требуется хорошо обдумать: не приведёт ли он к повышению температуры.

Интересно наблюдать за ростом инфраструктуры Internet Archive с увеличением количества серверных стоек. Есть подозрение, что рано или поздно наступит момент, когда сложность поддержания своей инфраструктуры превысит некий порог — и библиотека откажется от собственных дата-центров. Но пока что инженеры Core Infrastructure Team успешно справляются с работой.

В зависимости от методологии расчёта, хранение данных в собственных дата-центрах Internet Archive обходятся в 2−5 раз дешевле, чем в облаке. И это только хранение. Сложно даже посчитать, сколько будет стоить круглосуточный исходящий трафик 60 Гбит/с на AWS. Вероятно, он обойдётся даже дороже, чем хранение 200 петабайт.

Похоже, что некоторые сервисы просто «слишком велики» для облака. Компаниям приходится поднимать собственные дата-центры, потому что у них нет выхода. Другой вопрос: должна ли библиотека заниматься этим самостоятельно? Получается, что современная цифровая библиотека — это по сути хостинг-провайдер и дата-центр?

На правах рекламы

Эпичные серверы — это надёжные VDS на Linux или Windows с мощными процессорами семейства AMD EPYC и очень быстрой файловой системой, используем исключительно NVMe диски от Intel. Попробуйте как можно быстрее!

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *