Wayback machine что это такое
Как пользоваться сервисом Wayback Machine: 10 советов для интернет-маркетологов
Wayback Machine – это широко известный и полезный сервис, позволяющий увидеть сайты в том виде, в котором они существовали в прошлом, но это не единственная полезная функция Wayback Machine – сервис можно использовать и в интернет-маркетинге.
1. Отслеживание изменений сайта
Это основная функция Wayback Machine. Снимки сайта (snapshots) Wayback Machine можно использовать для сравнения вида сайта в разное время, чтобы посмотреть, что изменилось.
Даже если у Wayback Machine мало снимков сайта (обычно такое случается с не очень популярными сайтами), вы все равно можете определить дату внесения изменений. Это полезно, если вы считаете, что изменения могли быть причиной падения сайта в поисковой выдаче, посмотрите на версию страницы того времени, после которого произошло падение и узнаете, что за негативные изменения ее вызвали. Используйте эти данные, чтобы исправить проблему.
2. Знакомство с сайтом
Когда вы работаете с новым клиентом, важно быть ознакомленным с его сайтом и разбираться в тонкостях его бренда. Wayback Machine вам в этом поможет. Вы можете посмотреть, как сайт менялся с годами и насколько изменилась политика бренда. Согласуйте с клиентом изменения: «Раньше вы утверждали одно, а теперь другое, так ведь?».
3. Поиск прежних редиректов
Один из хороших способов использовать Wayback Machine – поиск URL, на которые через какое-то время повесили редиректы. Такое часто бывает с крупными брендами, сайты которых начинали работу в 90 или начале 2000, а потом были переделаны в соответствии с требованиями поисковых систем. Чтобы найти более ранние версии ссылок и проверить их код состояния, используйте Wayback Machine в паре с Screaming Frog.
4. Поиск старой структуры URL
Иногда структура URL сайтов меняется, а старая теряется. Если вы знаете приблизительную дату изменения структуры ссылки, то можете использовать Wayback Machine, чтобы выяснить, когда именно были внесены изменения и как выглядела прежняя структура. Затем вы можете сравнить более новые версии ссылки с предыдущими. Эта функция полезна, если контент сайта был реорганизован или подразделы были переименованы.
5. Изучение Robots.txt
Wayback Machine индексирует все, что находит на сайте, в том числе и файлы robots.txt. И это здорово: если у вашего сайта есть технические уязвимости, вы сможете узнать, когда именно были внесены изменения в документе robots.txt, приведшие к этим уязвимостям. Все, что надо сделать – это найти документ robots.txt и сравнивать срезы данных страниц за разные даты до тех пор, пока не найдете причину уязвимостей.
6. Проверка работы счетчика аналитики
Wayback Machine индексирует исходный код страниц и позволяет отследить изменения, которые были в него внесены. Введите URL страницы, выберите дату и снимки сайта, которые вам нужны, и кликните на просмотр исходного кода и оцените, насколько правильно он сделан.
7. Анализ пути клиента
Если вы хотите провести полный анализ пути клиента, то с этим вам также может помочь Wayback Machine. Используя этот сервис, вы сможете сравнить текущую длину пути с тем, который был в прошлом, чтобы определить, какие стадии изменились с течением времени. Также Wayback Machine открывает способы повысить конверсию. Если конверсия на вашем сайте была высокой в определенной время, то можно посмотреть на предыдущее оформление, кнопки и ссылки на странице, чтобы определить, как они повлияли на конверсию.
8. Определение структуры сайта
Wayback Machine показывает, как в прошлом выглядела иерархическая структура сайта. Иногда разделы могут объединять или наоборот разбивать на несколько штук. Если вы посмотрите на то, какой была структура сайта в прошлом, вы сможете сказать, какие страницы были недавно объединены в одну категорию или разделены на самостоятельные.
9. Поиск старого контента
Wayback Machine поможет найти старый контент, который был утерян или случайно удален. Достаточно открыть страницу, на которой находился контент, на более ранней дате.
10. Проведение смешанного маркетингового анализа
С помощью Wayback Machine можно анализировать рост трафика посадочных страниц. Предположим, что в прошлом году контекст работал хорошо, но результат в этом году далеко не такой впечатляющий. Посмотрите на ваши посадочные страницы с помощью Wayback Machine, чтобы выяснить, какие ключевые слова приносили результат, и что изменилось на посадочных страницах и привело к снижению эффективности этих ключевиков.
Назад в будущее
На первый взгляд, Wayback Machine – это просто сервис, показывающий более раннюю версию сайтов, действительно «машина времени» интернета. Однако, его функции могут быть полезны и в сфере интернет-маркетинга. А какие способы использования Wayback Machine приходят в голову вам? Поделитесь в комментариях.
В Google и «Яндексе», соцсетях, рассылках, на видеоплатформах, у блогеров
Web Archive: как посмотреть, как выглядел сайт раньше?
Интернет в привычном для нас виде появился 36 лет назад — за это время он развивался семимильными шагами, а сайты тысячи раз меняли свой дизайн и контент. Web archive представляет собой своеобразную машину времени, которой может воспользоваться каждый пользователь.
Что такое Web Archive?
Это бесплатный сервис, где собраны истории многих интернет ресурсов — их архивные копии. Причем речь идет не о скриншотах, а о полноценных страницах с изображениями, рабочими ссылками и стилевым оформлением.
Получение информации о том или ином домене предполагает не только интересное времяпровождение с отслеживанием эволюции веб-проекта, но еще и возможность:
История создания архива интернета
Wayback Machine является одним из двух главных проектов archive.org. Этот некоммерческий сервис был создан в 1996 году Брюстером Кейлом. Машина времени сайтов имеет четкую цель: сбор и хранение копий ресурсов вместе со всем контентом для возможности свободного просмотра несуществующих или неподдерживающихся страниц в будущем. С 1999-го робот стал фиксировать еще и аудио, видео, иллюстрации, программное обеспечение.
База современного архива собиралась в течение 20 лет, у нее не существует аналогов. Статистика впечатляет: на сегодняшний день в сервисе находится 279 миллиардов страниц, 11 миллионов книг и статей, 100 тысяч программ и миллион картинок.
А знаете ли вы? Веб-архив сайтов часто имеет проблемы на законодательном уровне из-за нарушения авторских прав. По требованию правообладателей библиотека удаляет материалы из публичного доступа.
Как пользоваться веб-архивом?
Сервис очень удобный в применении. Пошаговая инструкция такова:
Каждый из них доступен для просмотра: нужно лишь выбрать год, месяц и день сохранения. Мы хотим посмотреть, как выглядел сайт раньше: допустим, 3 февраля текущего года. Наводим курсор на голубой кружок и жмем на время сохранения. Проще не бывает!
Алгоритм действий можно сократить. Для работы с сервисом напрямую, введите в строке своего браузера
В нашем случае это
Как восстановить сайт из веб-архива?
Плохая новость для тех, кто планирует просто найти архив сайта и скачать его привычным способом: страницы имеют вид статических html-файлов, к тому же их слишком много для того, чтобы заниматься этим вручную. Решить проблему можно при помощи специальных программ, к примеру, приложения на ruby. Необходимо лишь установить все на сервер и запустить восстановление страниц.
apt-get install ruby
gem install wayback_machine_downloader
Для удобства можно указать отметку снапшота — утилита определит число страниц и выведет выкачиваемые файлы на консоль. После скачивания и сохранения мы получим набор статических данных.
Как восстановить сайт без бэкапа?
Вернуть ресурс из небытия можно даже без резервного копирования.
Войдите в режим расширенного поиска и укажите имя сайта. Получив результаты, кликайте по ссылкам «cached» или «копия».
Учтите!
Нужный вам проект может и не входить в архив сайтов интернета. Если вы его не нашли в библиотеке — значит, правообладатель потребовал удаления копий или же ресурс закрыли в соответствии с законом о защите интеллектуальной собственности. Возможен и другой вариант: через файл robots.txt был банально внесен соответствующий запрет.
Как найти уникальный контент из веб-архива для вашего сайта?
Статьи, расположенные на заброшенных ресурсах, обычно не представляют никакой ценности для их бывших владельцев. А ведь в мир иной ежедневно уходят десятки сайтов. И среди кучи хлама, выброшенного на помойку истории, можно найти настоящие самородки — приличные тексты, которые достанутся вам бесплатно.
Поисковики хорошо относятся к любому актуальному и уникальному контенту — можно не бояться попасть в их немилость только из-за того, что статьи взяты из веб-архива чужого сайта.
Итак, последовательность действий следующая:
При разумном подходе такой способ пополнения сайта контентом можно поставить на поток. Поиски материалов на мертвых блогах оправданы экономией времени на написание текстов и денег, которые бы вам пришлось заплатить авторам.
Как сделать так, чтобы сайт не попал в библиотеку веб-архива?
Если вы дорожите контентом и не хотите видеть свою онлайн-площадку в электронной библиотеке, пропишите запретную директиву в файле robots.txt:
User-agent: ia_archiver
Disallow: /
User-agent: ia_archiver-web.archive.org
Disallow: /
После изменения в настройках веб-сканер перестанет создавать архивные копии вашего сайта, к тому же удалит уже сделанные слепки. Однако учтите, что ваш запрет действует лишь до тех пор, пока доступен robots.txt — когда закончится срок регистрации доменного имени, машина времени сайтов станет демонстрировать статьи всем желающим.
Важно! Если вы, наоборот, желаете активно пользоваться веб-архивом, введите соответствующий запрос на главной странице сервиса. Просто укажите адрес проекта в разделе Save Page Now, после чего нажмите кнопку Save Page. Повторяйте процедуру после внесения любых правок.
Аналоги Webarchive
Альтернативой рассматриваемой в обзоре электронной библиотеке может стать:
Wayback Machine что это за сервис?
Ежедневно в интернете появляются тысячи различных веб-сайтов, наполненных всевозможной информацией. Естественно, все эти данные требуется где-то хранить. Именно с этой целью и был создан Wayback Machine. На сегодняшний день уже достаточно сложно представить количество хранившихся на нем ресурсов, но отсчет идет даже не с миллионных чисел.
Зачем нужен Wayback Machine
Этот сервис предназначен для сохранения информации, находящейся на просторах интернета. Данные записываются абсолютно в любых форматах, будь это текстовые документы, музыка или фильмы. Доступ к файлам является свободным, то есть получить их может абсолютно любой заинтересованный пользователь.
Wayback Machine регулярно обновляется новыми сайтами, а так же отслеживает редактирование ранее созданных ресурсов. Сложный алгоритм работы стал возможен благодаря использованию специальных мини-программ, которые регулярно мониторят сеть на наличие новых появившихся ресурсов. В зависимости от популярности сайта и множества других критериев роботы посещают страницы с разной частотой.
Все что требуется от пользователя – ввести поисковый запрос в пустую строку сервиса и ознакомиться с имеющейся информацией, выданной по ключевым словам. Здесь вы можете использовать специальные фильтры, которые позволяют отсортировать результаты согласно заданным вами критериям.
Немаловажным является то, что сервис сохраняет информацию не только о рабочих сайтах, а и о тех, которые уже не используются. Это может быть весьма полезным, при поиске специфической или не популярной информации.
Как работать с Wayback Machine
Сразу же после открытия основной страницы проекта вы увидите пустую графу поиска. Она собственно и носит название, которому просвещена эта статья. Введите интересующие вас ключевые слова и запустите поисковый процесс.
После обработки запроса вы увидите несколько ссылок с изображением искомого ресурса в разный период времени. Для открытия сайта достаточно выбрать дату, однако не следует забывать, что копии ресурса делаются не регулярно, и зависят от множества различных факторов.
Иногда информация, имеющаяся на сайте, может очень отличаться в различные временные интервалы. Это вызвано тем, что основной домен мог принадлежать ранее какой-либо другой компании, специализирующейся на какой-то другой тематике.
Этот сервис выполняет крайне важную функцию, позволяя отслеживать изменения, внесенные на сайты в разное время. Наиболее актуально это для пользователей, желающих приобрести какой-либо домен, и заинтересованных предварительно ознакомиться с историей адреса, но и просто случайный посетитель проекта сможет найти для себя много интересного.
На каких серверах держится Архив Интернета?
Фото 1. Один из дата-центров Internet Archive в Сан-Франциско
Internet Archive — некоммерческая организация, которая с 1996 года сохраняет копии веб-страниц, графические материалы, видео- и аудиозаписи и программное обеспечение. Каждый может зайти в Wayback Machine и посмотреть, как выглядел Хабр в 2006 году или «Яндекс» в 1998 году, хотя загрузка архивных копий занимает около минуты (это не для реализма 90-х, а по техническим причинам, см. ниже).
Архив быстро растёт. Сейчас объём всех накопителей достиг 200 петабайт. Но Internet Archive принципиально не обращается к стороннему хостингу или облачному сервису вроде AWS. У некоммерческой организации собственные дата-центры, свои серверы и свои инженеры. Это гораздо дешевле, чем услуги AWS.
Архив Интернета против облаков
Технические подробности серверного устройства Internet Archive раскрыл Джона Эдвардс (Jonah Edwards), руководитель инженерной группы Core Infrastructure Team.
По его мнению, понятие «облако» многих людей вводит в заблуждение как нечто абстрактное. На самом деле это просто чужие компьютеры, то есть серверы посторонней компании. Для Internet Archive это неприемлемо. У организации собственные серверные в собственных зданиях, компьютеры принадлежат им, и персонал тоже свой.
Четыре дата-центра Internet Archive располагаются в Сан-Франциско, Ричмонде и Редвуд-Сити (это пригороды Сан-Франциско)
Кто-то может посчитать такой подход архаичным, но в некоторых случаях он действительно оправдан. В случае Internet Archive на то есть три причины: это дешевле, обеспечивает лучший контроль за серверами и даёт гарантию, что пользователей не отслеживают рекламные трекеры.
Инфраструктура
Что представляет собой инфраструктура, которой управляет Core Infrastructure Team? На февраль 2021 года цифры такие:
Разумеется, техника постепенно обновляется. На смену старым накопителям приходят новые. Например, маленькие диски на 2 и 3 терабайта полностью вышли из обращения в 2017 и 2018 годах, соответственно, а с прошлого года постоянно растёт доля дисков на 16 ТБ.
Как показано на графике ниже, несмотря на увеличение ёмкости накопителей, общее число HDD тоже постепенно растёт: за три года оно выросло с 15 тыс. до 20 тыс.
Количество жёстких дисков разного объёма на серверах Internet Archive
Диски реплицируются по дата-центрам, для производительности контент по запросу выдаётся одновременно со всех копий. Все элементы Архива представляют собой директории на дисках. Веб-страницы Wayback Machine хранятся в файлах WARC (Web ARChive, сжатые файлы Web Archive). При запросе отдельной страницы её нужно извлечь из середины архива WARC, а если страница требует загрузки дополнительных ресурсов, то процесс повторяется. Это одна из причин, почему полная загрузка страниц из Wayback Machine достигает 90 секунд, хотя закэшированные копии и популярный контент загружаются быстрее.
Для надёжности копии Архива хранятся не только в Сан-Франциско, но и ещё в нескольких локациях по всему миру, в том числе в Амстердаме (Нидерланды) и Новой Александрийской библиотеке (Египет).
В 1996 году первые серверы Internet Archive подняли на недорогих компьютерах из стандартных комплектующих: по сути, на обычных десктопах под Linux. Хотя инфраструктура сильно выросла, в качестве операционной системы всегда использовали только Linux. С 2004 года все серверы перешли на Ubuntu, сейчас продолжается миграция на Ubuntu 20.4 LTS (Focal Fossa).
Объём Архива
В последнее время объём Архива возрастает примерно на 25% в год, сейчас это соответствует 5−6 петабайтам в квартал. С учётом резервных копий нужно добавлять накопителей на 10−12 петабайт в квартал.
Одна копия Архива занимает более 45 петабайт, но на дисках и лентах хранится минимум две копии каждого объекта.
Как видно на графике вверху, обновление дискового массива происходит только за счёт моделей максимальной ёмкости. Например, в конце 2021 года планируется переход на диски по 20 ТБ, и тогда в серверы будут устанавливать только их. Остальные HDD постепенно доживают свой век, и их количество медленно снижается.
Internet Archive возлагает большие надежды на новые технологии записи данных, такие как HAMR (heat-assisted magnetic recording), чтобы ёмкость HDD увеличивалась ещё быстрее. Технология HAMR предусматривает предварительное нагревание магнитной поверхности лазером в процессе записи, что позволяет значительно уменьшить размеры магнитной области, хранящей один бит информации — и увеличить плотность записи. Нагрев выполняется с помощью лазера, который за 1 пс разогревает область записи до 100 °C.
Разработка этой технологии затянулась на 15 лет, но в январе 2021 года были официально представлены первые диски HAMR на 20 ТБ. Пока что они официально поставляются только избранным клиентам в рамках фирменного сервиса Seagate Lyve, но вскоре должны появиться в свободной продаже.
Seagate обещает, что HAMR позволит наращивать ёмкость HDD на 20% в год. Поэтому в ближайшее время можно ожидать модель на 24 ТБ, а в будущем — диски на 30 и 50 ТБ. Internet Archive тоже надеется на это и внимательно следит за последними разработками.
На текущем размере дисков понадобится 15 вот таких серверных стоек, чтобы разместить одну копию Архива:
У Internet Archive 750 серверов и 20 000 жёстких дисков
Сейчас в дата-центрах установлено 75 серверных стоек, что обеспечивает некоторый запас и избыточное копирование.
По состоянию на февраль 2021 года на серверах хранились копии 534 млрд веб-страниц, 16 млн аудиозаписей, 8,7 млн видеозаписей фильмов, клипов и телепередач, 3,8 млн изображений, 629 тыс. компьютерных программ, более 29 млн книг и текстов, в том числе 72 771 текстов на русском языке.
Любой пользователь может создать аккаунт и добавить в архив медиафайлы.
В 2020 году Internet Archive пережил серьёзный рост количества запросов и объёма внешнего трафика с 40 до 60 Гбит/с. Из-за пандемии коронавируса и самоизоляции ресурсы Архива стали более востребованы. Количество запросов росло так быстро, что в определённый момент маршрутизаторы Internet Archive перестали справляться с нагрузкой, пришлось делать апгрейд сетевой инфраструктуры быстрее, чем планировалось. Сейчас веб-сайт входит в топ-300 крупнейших сайтов интернета.
Работа на собственных серверах имеет и свои недостатки. Основные причины сбоев Internet Archive — обрывы оптоволокна из-за строительных работ в городе, сбои энергоснабжения, случайные провалы напряжения в сети. Впрочем, прошлый год сайт завершил с аптаймом 99,9%.
Internet Archive планирует расширять внешний канал. Ожидается, что в ближайшее время внешний трафик вырастет до 80 Гбит/с.
Примерно так выглядит дизайн внутренней сети:
Дата-центры подключены к нескольким провайдерам первого уровня (Tier 1) и соединены между собой по оптоволокну с применением технологии плотного спектрального уплотнения (DWDM). Локальные университетские сети подключаются к этому кольцу напрямую через локальные точки обмена трафиком.
Вместо нынешнего оптоволокна планируется проложить пары 100-гигабитных кабелей по всему кольцу из четырёх дата-центров, так что внешний трафик тоже можно будет увеличить до 100 Гбит/с.
Прокладка новых кабелей по Сан-Франциско — весьма хлопотное и дорогое дело. Приходится перекладывать асфальт на автомобильных дорогах и тротуарах. К счастью, Internet Archive удалось получить официальный статус библиотеки, что даёт доступ к государственным субсидиям, в том числе к бюджету Федеральной комиссии по связи США (FCC) на подключение всех библиотек к интернету. Таким образом, львиную долю расходов на прокладку, обслуживание оптоволокна и трафик оплачивает FCC по программе E-Rate Universal Service Program.
С 2005 года Internet Archive начал проект Open Library по сканированию книг. С одной стороны, это действительно важный общественный проект. С другой стороны, он позволил получить государственные льготы и финансирование в качестве публичной библиотеки.
Кроме государственных грантов и пожертвований, организация оказывает платные услуги по сканированию книг, в основном, для других библиотек и университетов. Это ещё один источник финансирования.
Планы на будущее
Инженеры Internet Archive сейчас обдумывают варианты использования SSD и GPU в основных серверах, чтобы увеличить их производительность. Главная проблема здесь в том, что все дата-центры находятся в стеснённых городских условиях Сан-Франциско и пригородов с очень ограниченными возможностями охлаждения (см. фото 1). Так что каждый апгрейд требуется хорошо обдумать: не приведёт ли он к повышению температуры.
Интересно наблюдать за ростом инфраструктуры Internet Archive с увеличением количества серверных стоек. Есть подозрение, что рано или поздно наступит момент, когда сложность поддержания своей инфраструктуры превысит некий порог — и библиотека откажется от собственных дата-центров. Но пока что инженеры Core Infrastructure Team успешно справляются с работой.
В зависимости от методологии расчёта, хранение данных в собственных дата-центрах Internet Archive обходятся в 2−5 раз дешевле, чем в облаке. И это только хранение. Сложно даже посчитать, сколько будет стоить круглосуточный исходящий трафик 60 Гбит/с на AWS. Вероятно, он обойдётся даже дороже, чем хранение 200 петабайт.
Похоже, что некоторые сервисы просто «слишком велики» для облака. Компаниям приходится поднимать собственные дата-центры, потому что у них нет выхода. Другой вопрос: должна ли библиотека заниматься этим самостоятельно? Получается, что современная цифровая библиотека — это по сути хостинг-провайдер и дата-центр?
На правах рекламы
Эпичные серверы — это надёжные VDS на Linux или Windows с мощными процессорами семейства AMD EPYC и очень быстрой файловой системой, используем исключительно NVMe диски от Intel. Попробуйте как можно быстрее!