Архив Интернета

We use cookies. Read the Privacy and Cookie Policy

Архив Интернета

Интернет – среда, меняющаяся чрезвычайно быстро, страницы открываются и исчезают, их содержимое тоже непостоянно. Что делать, если вам нужна информация, ссылка на которую уже устарела? Только одно – посетить специальный сайт, своеобразный архив Интернета (http://www.archive.org) (рис. 4.13).

Безусловно, создать точную копию всех сайтов, существовавших когда-либо в виртуальном пространстве, просто нереально. Однако время от времени отслеживать обновления, а главное, не дать исчезнуть вовсе тем сайтам, которые по разным причинам перестали существовать, – вот основная задача архива Интернета.

Сервис, называемый The Internet Archive Wayback Machine, позволяет просматривать заархивированные версии сайтов Сети, в том числе за определенный промежуток времени.

Архив Интернета был основан в 1996 году Брюстером Кейлом (Brewster Kahle), который работает в тесном сотрудничестве с Библиотекой Конгресса США.

В декабре 2000 года Конгресс США выделил Библиотеке Конгресса $100 млн для разработки национальной программы сохранения цифровой информации. Помимо оплаты хранения, эти деньги пойдут и на научные исследования стабильности цифровых носителей. За долгие годы человечество научилось хранить бумажные материалы и знает все об их сохранности и долговечности. С цифровыми данными все иначе. В первые годы существования компьютеров люди предполагали, что цифровые данные смогут храниться без потерь десятилетиями. Однако сотрудники архивов уже заявляют, что магнитные пленки и гибкие диски, на которых хранится информация, выходят из строя.

Рис. 4.13. Архив Интернета содержит копии всех сайтов

Кроме того, цифровые носители постоянно меняются, как меняются и аппаратные средства для их воспроизведения. Сейчас многие библиотеки и архивы являются обладателями больших собраний музыкальных и иных компакт-дисков, а также DVD, которые тоже стареют год от года.

Не стоит на месте и программное обеспечение, что приводит к появлению большого количества разных форматов, не всегда совместимых между собой. Поэтому специалисты архивного дела стараются хранить данные в таких стандартных форматах, как HTML и ASCII.

Немного статистики: объем накопленной в архиве информации измеряется в PB (petabyte), а растет со скоростью 20 Тбайт в месяц. Архив обновляется каждые два месяца. Архив Интернета планирует переписывать собираемые материалы на новые носители каждые пять лет, чтобы предотвратить потерю данных.

Кроме этого, совместно с архивом Интернета работает специальная поисковая машина Wayback Machine, которая позволяет путешествовать в прошлое Интернета и отыскивать сайты, которых уже не существует.

В качестве базы для поиска Wayback Machine использует не сам Интернет, а «Архив Интернета».

Wayback Machine очень полезна для журналистов, поскольку сохраняет «снимки» электронных газет так же, как микрофильмы сохраняют старые бумажные издания. Особенно это актуально в случае электронных изданий, которые не имеют собственного архива, как, например, знаменитый Drudge Report.

Для поиска информации в архиве достаточно указать адрес сайта, в результате чего вы получите список дат, за которые в архиве сохранены его «снимки». Вы можете выбрать нужное значение и просмотреть, как выглядел сайт в определенный день.

ПРИМЕЧАНИЕ

Следует заметить, что при использовании ссылок на научные статьи, опубликованные в Интернете, часто требуют указывать ссылку именно на архив Интернета.

Данный текст является ознакомительным фрагментом.