Архивы: по дате | по разделам | по авторам

Раскопки в интернете

18.12.2002

В интернете есть своя машина времени

Архив Интернет – год за годом, для последующих поколений

Хотите собственными глазами увидеть интернет, каким он был – вчера, на прошлой неделе, в 2001 или, может быть, 1996 году? Никаких проблем. Это вполне реально. Не верите? Тогда читайте. Эта статья о Wayback Machine – интернет-архиве, который ещё с 1996 года производит архивацию всех доступных веб-документов, и уже содержит в своей базе около 10 миллиардов страниц.

Интернет – словно зыбучий песок. В своей изменчивости и свободе проявлений сравнимый разве что с человеческим настроением, а по темпам развития подобный микроорганизму, попавшему в благоприятную для развития среду. Большой, свободный, он служит не только хранилищем необходимых кому-то данных, но также является динамичным отражением настроения всех тех, кто, сидя у мониторов, создают его, страница за страницей, байт за байтом. В нём – какая-то часть нашей жизни, важная, как и любая другая. И, тем не менее, эта часть имеет все шансы бесследно уйти в небытиё. Согласно статистике, средняя "продолжительность жизни" веб-документа – около 100 дней, после этого он либо изменяется, либо бывает просто удален. По тем же данным, средняя продолжительность существования сайта равна 19 месяцам. И всё. Если проект не представляет особой важности, и его авторы не потрудились сохранить его где-нибудь "на память", он исчезнет. Исчезнет навсегда. Следует ли нам согласиться с этим?

Брюстер Кахл, создатель Wayback Machine, считает, что нет. Вот уже более шести лет – начиная с 1995 – его детище – Internet Archive собирает и сохраняет все общедоступные документы World Wide Web, включая графику, в единой базе данных. Уже сейчас объёмы проделанной работы впечатляют: сохранено более 10 миллиардов страниц, ежедневно добавляется около 250 гигабайт, более 12 терабайт данных поступает ежемесячно. Сейчас база располагает документами, общий объём которых составляет более 120 терабайт. Wayback Machine – сестринская компания поисковика Alexa Internet, поисковые пауки которого также участвуют в сборе данных в базу архива (пауки, спайдеры и т.д.– программы, которые являются частью поисковых служб (типа Яндекса, Google и .т.п.), и которые, двигаясь по ссылкам, закачивают веб-страницы для дальнейшего их индексирования). Публичный доступ к Интернет архиву открыт с октября 2001 года.

Мне машину времени!

Для того, чтобы удостоверится во всём вышесказанном и совершить своеобразное путешествие по страницам интернета прошлого, достаточно просто ввести в поисковую форму на первой странице сайта архива необходимый вам адрес. К сожалению, пока Wayback Machine не располагает возможностью поиска по содержанию сайтов, подобно поисковым серверам вроде Яндекса – так что для того, чтобы попасть на необходимую страницу, пользователь должен знать её конкретный URL, или, по крайней мере, адрес сайта.

Мне, например, было весьма любопытно узнать, как выглядела несколько лет назад Computerra.ru. Для того, чтобы это сделать, вводим в поле поиска "www.computerra.ru" и жмем кнопку "Take me back" (Переместите меня назад). Получаем страницу, которая содержит семь столбцов – по числу лет, начиная с 1996 и заканчивая 2002. Каждый столбец содержит список дат со ссылками на архивы страниц различной давности. Страниц за 1996 и 1997 год нет, самая старая обозначена 12 декабря 1998 года. Столбец 1999 содержит 2 ссылки, относящиеся к началу года, 2000 – 14 ссылок, а 2001 – 28 (считать вручную нет необходимости, их количество написано под годом). В 2000 обновление начинается с января и со сравнительно постоянной частотой, равной 5-7 раз в месяц, длится до сентября, после чего обрывается. Столбец 2002 пуст. Большинство ссылок в конце обозначены "*". Это обозначает, что страница была изменена и отличается от последней имеющейся в базе копии (весьма любопытно, что некоторые записи Компьютеры, не смотря на её постоянное обновление, всё-таки не обозначены звёздочкой – это период 1999 – август 2000 (все ссылки подряд). Возможно, это связано с модификацией алгоритмов обработки получаемого материала).

Выбираем самую раннюю имеющуюся ссылку (12 декабря 1998). Жмём. Загружается страница. У меня, если честно, со всей графикой загрузилась не сразу, а только после нескольких перезагрузок. После некоторого рассмотрения замечаем довольно странную деталь – вверху страницы информ-вставка " Курс ЦБ USD на 26 ноября 1999". Значит, это не 1998. Что ж, вполне возможно, что это опять связано с несовершенством системы обработки и систематизации данных. Тем не менее, очень любопытно: старый дизайн, реклама Pentium III, на странице заголовки "Microsoft выпускает Windows Millennium Beta 2", "Война в Косово", "750 МГц Athlon выйдет уже в понедельник" и тому подобное. Сразу следует отметить ещё несколько важных моментов. Во-первых, все адреса в адресной строке начинаются с http://web.archive.org/, потом идёт название раздела ("web/"), далее серия цифр и лишь потом собственно адрес страницы. Так, например, адрес описанной выше страницы. Серия цифр – отнюдь не случайная. Если присмотреться, то можно увидеть, что они обозначают точную дату вида "год-месяц-число-час-минута-секунда" получения страницы. Как видим, действительно, эта "Компьютерра" относится не к 1998, а к 1999 году, а именно к 28 ноября, 08:33 и 14 секундам. Между прочим, данный синтаксис может быть использован и непосредственно для поиска необходимых данных. Не обязательно знать дату архивации страницы вплоть до секунды. Для поиска страниц за определённый период можно воспользоваться сокращенной формой записи. Так, например, на запрос "http:///2000/http://www.mysite.com" мы получим страницу сайта www.mysite.com, дата сохранения которой наиболее близка к 1 июля 2000 года (июль – средина года или "среднее значение" для 2000 года). На запрос http:///200010/http://www.mysite.com получим страницу, наиболее близкую к 15 октября (средина месяца, "среднее значение" для октября 2000 года) и так далее. Для получения самой свежей записи нужно ввести ссылку типа http:///http://www.mysite.com.

Другие варианты ввода можно увидеть на странице специального поиска, где также имеется более удобная форма для выбора временного диапазона. Кроме того, на этой же странице можно воспользоваться серией весьма важных настроек. Так, например, здесь можно ограничить тип документов, по которым производится поиск (один из вариантов – images, audio, video, binary, text или PDF; по умолчанию стоит All types), определить, будет ли производится поиск только однозначный поиск по заданной ссылке или следует учитывать подобные варианты (выводить yahoo.com, www.yahoo.com и yahoo.com/index.html отдельно или "расценивать" равными) и некоторые другие.

Другим принципиально важным моментом относительно страниц, выдаваемых Wayback Machine, является то, что все ссылки, наличные на странице, ведут не на современные сайты, а на другие сохранённые страницы. Таким образом, вы в самом прямом смысле находитесь в "Интернете прошлого". Это создает массу возможностей для исторических изысканий: историки могут узнать о массе особенностей Интернет за период его существования с 1996, бизнес-эксперты могут разобраться в бизнес-планах потерпевших крах компаний, работодатели – увидеть студенческие странички кандидатов на свободную должность, веб-дизайнеры – получить раннюю не сохранённую версию сайта заказчика и доказать первенство в новом стиле и многое другое.

Также сейчас на основе архива создаются тематические коллекции, в которых подобраны веб-материалы относительно определённого события или периода. Так, в частности, сейчас ко вниманию пользователей такие подборки, как "11 сентября", "2001 год", "Пионеры Сети (о сайтах, сыгравших важную роль в жизни Интернет)" и "Выборы 2000 года (американцы считают их чуть ли не самыми противоречивыми и памятными за последние годы)". Планируется создание новых коллекций.

Не без проблем

Безусловно, даже при более чем 120 терабайтах накопленных данных и имеющихся темпах пополнения базы, работа Wayback Machine связана с весьма и весьма многими вопросам и проблемами. Как уже было оговорено, сбор данных для базы производится поисковыми пауками или спайдерами, аналогично тому, как это делают поисковые машины. Поиск для Wayback Machine бывает двух типов – узкий и широкий. Задачей широкого является сбор данных в максимально широком объёме, покрывая по возможности все доступные источники. Узкий поиск предназначен для сбора информации с определённых сайтов или касательно конкретной темы. Широкий поиск с самого начала поднимает серию вопросов. В принципе, в то время, как создание поискового робота, который бы полной мерой использовал пропускную возможность канала в 100 Мб/с не представляет кардинальной сложности, намного труднее "прокормить" такого паука. При работе такой интенсивности робот будет способен "покрывать" около 150 миллионов страниц за неделю, и действовать так на протяжении 40-60 дней. Однако перед тем, как осуществлять архивацию той или иной страницы, следует проверить, нет ли случайно в архиве её копии. Эти операции производятся в оперативной памяти, что чревато скорым достижением предела её емкости, после чего работа системы неизбежно сильно затормозится.

Другой аспект проблем широкого поиска – нагрузка на сервера сайтов. Не каждый из них способен выдержать натиск мощного поискового бота, "потребляющего" десятки миллионов страниц ежедневно. Так что в данной ситуации возможны два выхода – либо программа-робот будет достаточно "разумной" для того, чтобы ограничить натиск на сервер, либо последний имеет все шансы "упасть". Да и сам сайт Wayback Machine не всегда бывает доступен – того и гляди, при заходе приходится любоваться пояснением относительно того, что в связи с "непредвиденно высоким уровнем запросов" сайт в дауне, или "Internet Archive Site временно недоступен в связи с техобслуживанием". Следует отметить, что посещаемость у архива действительно немаленькая, достигающая в среднем около 5 миллионов посетителей в сутки. Так или иначе, в связи со сложностью отбора дублирующихся материалов и их значительным распространением в сети, результаты широкого поиска содержат около 30 % повторов.

Владельцы некоторых сайтов, по тем или иным причинам не желающие индексировать свой ресурс, также ограничивают доступ к ним роботов архива (это осуществляется путём прописывания соответствующих директив в файле robots.txt в корневом каталоге сайта). Правда, если вы, блуждая по архиву, переходите по ссылке на такой ресурс, то увидите копию данного файла и объяснение отсутствия материалов. Между прочим, в случае, если требуется удалить тот или иной уже сохранённый материал из базы, это можно произвести на специальной странице.

Ну и, безусловно, вопрос финансирования. Ежегодно на покупку одних только винчестеров идёт около 40 000 долларов. Физически архив сосредоточен в трёх местах – два из них находятся в районе Сан-Франциско, а ещё одна база расположена в новой библиотеке Александрии, Египет.

Wayback Machine является некоммерческим проектом и на сайте нет рекламы, которая могла бы хоть в некоторой степени компенсировать расходы. В текущий момент финансирование держится на добровольных взносах отдельных граждан и организаций, а также грантах. Среди партнёров проекта, приведенных на главной странице, числятся AT&T Research, Compaq, Prelinger Archives, QuantumDLT, и Xerox PARC.

Кахл возлагает надежды на создание объединённых проектов, и что Wayback Machine – только первая из целой сети организаций, которые будут совместно выполнять великую задачу – собирать и сохранять знания и делать их доступными для всего человечества.

Источники:

http://www.archive.org/
http://www.newscientist.com/opinion/opinterview.jsp?id=ns23701
http://www.mindjack.com/feature/archive.html
http://www.infotoday.com/online/mar02/OnTheNet.htm
и другие.