Архивы: по дате | по разделам | по авторам

Дыры в Паутине

Архив
автор : Виктор Шепелев   27.09.2007

Две вещи делают Веб Вебом (Повсеместно Протянутой Паутиной): широко разбросанные независимые тексты-узлы и ниточки-ссылки, что их объединяют. Но по мере взросления и старения Паутины в ней появляются Дыры - рвутся нити, становятся недоступны пути из пункта А в пункт Б…

Две вещи делают Веб Вебом (Повсеместно Протянутой Паутиной): широко разбросанные независимые тексты-узлы и ниточки-ссылки, что их объединяют. Но по мере взросления и старения Паутины в ней появляются Дыры - рвутся нити, становятся недоступны пути из пункта А в пункт Б… Где вы, Сетевые археологи?..

КОНЦЕПЦИЯ
Эта Паутина была в каком-то смысле даже противоположна самой Сети <…> Паутина обволакивала Сеть, а вовсе не являлась ее синонимом. Сеть искривляла пространство, помогая видеть Паутину.

Мерси Шелли, "Паутина"

К тому времени, как Тим Бернерс-Ли начал работу над концепцией World Wide Web, обе ее составляющие - техническая (Интернет) и идеологическая (гипертекст) - уже много лет существовали [Создание Интернета, как и первых гипертекстовых систем (Xanadu Теда Нельсона и NLS Дугласа Энгельбарта), датируется 1960-ми годами; создание Веба - началом 1990-х]. Гениальная инновация британца состояла, собственно, в объединении этих двух сущностей, что в конечном счете развернуло обе технологии "лицом к простым людям".

Многочисленные ранние гипертекстовые системы предполагали создание всего контента одним автором или сплоченной группой и требовали корректности ссылок между документами. Естественно, что единая гипертекстовая система, тексты в которой созданы множеством независимых авторов по всему миру, потребовала некоторых компромиссов; один из них - принципиальная возможность несуществования страницы, на которую указывает ссылка (в этом случае сервер должен просто вернуть стандартную страницу "404 Not Found").

Ценность гипертекста не в возможности создания удобных навигационных меню (эта функция служебная, да и придумана была намного позже), а в принципиальной возможности изменения уровня изложения. Тексты-"узелки", соединенные нитками-"ссылками", позволяют внимательному и неравнодушному читателю извлекать из Сети сложнейшие "кружева" знаний - кружева, которые ни один из отдельных авторов отдельных текстов не в силах был создать. Сила гипертекста - в создании контекста, возможности исследования интересной темы вширь и вглубь - почти до бесконечности [Интересно, что гипертекст так и не породил новых форм художественной литературы (точнее, эти формы существуют, но вполне маргинальны) - зато эффективно и остроумно используется "более прикладными" писателями - блоггерами, журналистами, создателями руководств и энциклопедий].

Но такого рода свободное обращение с контекстом не учитывает того самого "компромисса 404-й страницы" - любая изящнейшим образом выстроенная в гипертексте структура может быть легко разрушена при "протухании" ссылок. И в результате сила воздействия ГИПЕР-текста снижается до уровня обычного, офлайнового, "плоского" текста; а зачастую и падает гораздо ниже - если без контента-за-ссылками мысль читаемого текста неполна или вовсе теряется.

Диагностика разрыва

УГРОЗА
Паутина огромна. Она везде. А я могу порвать лишь пару ее ниток. Да и то неизвестно, те ли нитки. Нужно что-то глобальное. Нашествие термитов. Какой-нибудь особый техновирус, который питается электричеством и проникает всюду, как пыль. Он вырубит всю Паутину к чертовой матери!

Мерси Шелли, "Паутина"

Отчего могут порваться паутинки-ссылки? Очевидная причина - страница, на которую ссылались, перестала существовать (закрылся сайт, умер сервер, статья удалена автором) - случай простой и печальный. Но помимо этого, у Времени есть куча уловок для нарушения "ссылочной целостности" Сети. Вот лишь некоторые из них.

Смена системы управления контентом. Как правило, хорошие СУК (они же CMS) позволяют гибко настраивать схемы адресов для сайта; но далеко не каждый сайтоправитель станет с этим заморачиваться. Результат - адреса вида "example.com/index.php?articleId=150" в один прекрасный понедельник все как один преобразовываются в "example.com/articles/?id=1500&s=m". Весь контент на сайте при этом остается неизменным, но человек, пришедший по "дореформенной" ссылке, останется в растерянности.

Изменения в логике контента. Например, "слишком старые" статьи онлайнового журнала могут быть убраны в архив (с соответствующим изменением адресов на "old.журнал.ru/…" или "журнал.ru/archive/…"); или новому руководителю не понравилось деление на "новости", "колонки" и "интервью" (с соответствующими адресами); или автор сайта решает идти в ногу со временем и префикс "article" у всех статей меняет на "blog" - несть числа причудам креатива.

У сайта может поменяться домен. Простой случай: контент остался на месте, ни один адрес не изменился, но по истечении очередного года регистрации домена владелец его "проворонил" (в пользу жадного киберсквоттера, вестимо) и вынужден переехать с "адрес.com" на "адрес.net" - никакого способа оповестить о переезде тех, кто придет по старой ссылке, не существует (в отличие от более позитивного случая переезда с "сайт.narod.ru" на "взрослый" "сайт.ru" - но и здесь авторы умудряются прибрать со старого сайта все статьи, оставив одну лишь переадресацию на главную страницу нового - а там поди вспомни, по какой ссылке ты сюда забрался).

Форумы и прочие "очень динамические" сайты. Вдобавок к перечисленным проблемам (удаление, перенос в архив) ссылка на ветку форума более склонна "протухнуть", например, из-за перенесения обсуждения в другой подфорум и от прочих действий модератора; на небольших коммунальных вики-сайтах могут часто меняться имена статей (естественно, в сторону "более точных"); даже в Википедии "сомнительный" раздел может быть удален из важной статьи; а "верную" ссылку на комментарий к некоей записи в блоге дать еще сложнее…

Наконец, с точки зрения человека, поставившего ссылку, Веб может выглядеть иначе, чем с точки зрения читателя. Например, ссылка поставлена на статью на сайте, требующем авторизации, или на "подзамочную" запись чужого блога (тот, кто ставил ссылку, был "авторизован" и просто не заметил не-для-всехности статьи). Или статья ушла в "под замок" позже простановки ссылки. Или сайт, на который ссылались, склонен выдавать посетителю разный контент, в зависимости от его браузера, страны проживания и других параметров.

Мы здесь оставляем в стороне совсем наивных авторов, поставивших "ссылку" на самую свежую статью в блоге или на новостном сайте в виде "www.АдресСайта.ru", и прочие клинические случаи.

Как бы то ни было, большинство этих случаев объединяет тот факт, что "текст под ссылкой" до сих пор существует в Сети, и даже где-то "неподалеку" от того места, куда указывала ссылка, - но, увы, "сдвинулся" на несколько миллиметров в сторону. Этого уже достаточно для разрушения ниточек-ассоциаций, нужных читателю, а в самых запущенных случаях - для полного разрушения какой-то ценной части контента.

Чтобы пронаблюдать эти эффекты вживую, достаточно почитать (точнее, попытаться это сделать) ошметки "первого Рунета" (конец 90-х), с его прото-блогами, веб-обзорами, зарождением сетевого литературного сообщества […а вовсе не какой-то отдельной "сетевой литературы", которую принято глубокомысленно обсуждать].

Одна часть тогдашних "отцов Рунета" (и по сию пору людей известных и уважаемых, да вот от бумагомарания давно отошедших) публиковалась под крылом "Русского Журнала", старых "Граней.Ру" и "Вестей.Ру", - все их статьи сохранились, но как архивы - на других, часто совсем неожиданных сайтах.

Другая часть вела свои дневники-колонки (слово "блог" еще не было придумано) по адресам, выделенным провайдером или тогдашним работодателем для "страничек пользователей", - эти материалы, после утери к ним интереса авторов, пропали, кажется, безвозвратно, не осев даже и в интернет-архивах (о которых - позже). Весь этот огромный корпус гипер-текстов, написанный людьми образованными и любопытными, к тому же между собой лично знакомыми, был густо залинкован (в немалой степени он состоял из диалогов, ответов и обзоров публикаций друг друга) - и за исключением отдельных, переживших время жемчужин, ценен был именно во всей полноте. И полнота эта утеряна безвозвратно. Притом что бо,льшая часть текстов по-прежнему доступна [Интересно, что наибольшая вероятность найти по прежнему адресу страницу восьми-десятилетней давности остается для сайтов на бесплатных хостингах вроде Geocities.ru или narod.ru - там, даже если автор забросил свое "творение", никому не придет в голову "поменять структуру сайта" или "удалить страницы неактивных пользователей"].

Хирургия на Паутине

КСТАТИ
У древних японцев считалось, что увидеть паука или паутину — хорошая примета, означающая, что скоро придет письмо.

Мерси Шелли, "Паутина"

Очевидно, что существуют способы - пусть трудоемкие, пусть не всегда работающие, но хоть какие-то - противостоять течению времени, разрушающего Паутину.

Конечно, в идеале о сохранности ссылки должен заботиться ее адресат; структуры сайтов лучше не менять, а, меняя, устанавливать умную переадресацию; "вкусные" домены не упускать… В лучшем мире, возможно, так оно и было бы. В реальности же некоторые сайтовладельцы не то чтобы не заботятся о пришедших по точным ссылкам, но… считают ссылки на внутренние страницы сайта (а не на главную) нарушением копирайта и ущемлением своих прав [Это не выдумка. Несколько соответствующих судебных дел можно найти по ключевым словам "lawsuit deep linking"; как правило, это случаи, в которых доступ к платному контенту ограничивался сомнительным способом сокрытия точных адресов страниц (и открытия их после оплаты) при полном отсутствии авторизации].

То есть "заполнение разрывов" остается делом тех, кто ставит ссылки, а также самих серферов-читателей. И для тех, и для других - базовых техник "борьбы со Временем" всего две: архивирование и использование "ассоциативных ссылок" вместо гиперссылок (но лучше - вместе с ними).

Архивирование. Архивы "всего" Интернета можно найти в кэше поисковиков (Google, Yahoo, MSN) или в специализированном Internet Archive; крупные участки Веба сохраняются также в некоторых региональных поисковиках или национальных архивах. Кэши поисковых машин, как правило, содержат более-менее актуальные копии страниц (навсегда "умершие" сайты из кэша исчезают) и оттого пригодны лишь для "добычи" временно недоступного контента (сайт упал, а статья нужна сегодня). Зато Internet Archive (archive.org) и его Wayback Machine (web.archive.org) позволяют получить "снимки" почти любого сайта за почти любой период его существования - "снимки" делаются примерно раз в полгода. Самое интересное, что все ссылки, ведущие со страницы, приведут тоже на заархивированные копии сайтов - таким образом, становится доступен целый "временной срез" Веба.

К сожалению, далеко не все сайты и страницы доступны таким образом. Internet Archive "не любит" страниц с "динамическими адресами" ("example.com/index.php?articleId=…"), ему недоступен Deep web (часть Веба, закрытая от индексации поисковиками), наконец, он вынужден уважать права авторов и удалять из архива копии сайтов по первому требованию владельца [А иногда и не владельца. Известен случай, когда множество антисайентологических сайтов исчезло из Internet Archive (а также из кэша Гугла) по требованию Церкви Сайентологии]. Схожие проблемы и у локальных (национальных и тематических) архивов.

Впрочем, если архивированием того-на-что-ссылка своевременно озаботится автор ссылающегося материала, ему станут доступны еще некоторые техники "архивирования по требованию". В частности, такими методами пользуются ученые, у которых научные ссылки в работах все чаще ведут в Веб, а не в статьи бумажных журналов. Автор может, во-первых, сохранить все материалы, на которые сослался, в специальном месте - например, у себя на сайте (что, впрочем, может быть чревато копирайтными трудностями) или в специализированном сервисе (знающем, как с такими трудностями справиться) [Самый популярный из такого рода архивов - WebCite (webcitata.org) - на момент написания статьи был недоступен (sic!)].

ПРОРОЧЕСТВО
Пожнут твои плоды потомки.

Публий Вергилий

Кроме того, можно не трогать залинкованные материалы, зато поставить на них ссылки в одном из "адресо-независимых форматов" - PURL (Persistent URL) или DOI (digital object identifier). Этот способ основан на том, что для каждой статьи, ссылку на которую необходимо сохранить доступной, ссылающийся заводит запись на специальном сервере (PURL-сервере или DOI-сервере соответственно), в которой и поддерживает лично актуальность ссылки (по необходимости изменяя ее адрес, перенаправляя ее в какой-нибудь архив и т. п.). Читатели же его работы вводят идентификатор ссылки на том же сервере и сразу попадают на ее "живую" версию (если сославшийся не забывает обновлять ее - что при наличии десятков работ и сотен ссылок весьма сомнительно). Впрочем, понятно, что журналисты популярных веб-изданий, блоггеры и прочие "простые смертные писатели" к столь сложным способам "обеспечения доступности" не склонны [Интересно, кстати, как решен этот вопрос в "народной" Википедии. Можно заметить, что актуальные и часто обновляемые статьи в последнее время для указания источников информации переходят с привычных для Веба ссылок из текста к более формальной системе нумерованных сносок, в каждой из которых лежит ссылка и запись вида "доступность проверена тогда-то". Такая система требует дополнительного труда и внимания, зато позволяет обновлять "протухшие" ссылки на источники фактов, не трогая основной текст].

Ассоциативные ссылки. Менее надежный, зато более человечный способ сохранить связь-ссылку (и найти ее, если очень понадобится) - ориентация на ключевые слова, информацию, лежащую "вокруг", или "характерную фразу" (fingerprint phrase - буквально "фраза - отпечаток пальца") ссылаемой статьи. Применимость таких эрзац-ссылок (или супер-ссылок - как посмотреть) довольно широка - автор статьи для объяснения какого-либо понятия или упоминания не-всем-известного анекдота может поставить ссылку на поиск ключевой фразы в Гугле; может записать ключевые слова рядом со ссылкой, если боится ее протухания [Кстати, сюда же примыкает понятие memomark - "ссылки в будущее", когда для описания новопридуманной концепции используют еще несуществующее слово/словосочетание, а спустя некоторое время ищут слово в поисковиках, отслеживая распространение и обсуждение концепции (ну, или воровство текста). Кстати, слово "memomark" само по себе является memomark’ом - любой русскоязычный поисковик немедленно выдаст, у кого я позаимствовал это понятие]. А если этого не сделал автор, читатель, наткнувшийся на что-нибудь вроде "кое-что по этой теме можно найти здесь" (с неживой ссылкой за "здесем"), может поискать другие упоминания той же ссылки, собственноручно вычленить из них ключевые слова, пройтись по поисковикам…

Понятно, что и от автора, и от читателя использование такого рода "косвенных" ссылок требует некоторых усилий и внимания к тексту несколько выше уровня "написал и забыл"/"прочитал и забыл". И все же такой способ "обеспечения связности" менее формален и назойлив, нежели ориентированные на ученых решения вроде PURL и архивирования-по-запросу.

Итого

Дырки в Паутине есть, и с каждым днем их все больше; никакой панацеи от протухших ссылок, изменившейся структуры сайтов, перехваченных доменов человечество пока не придумало (и сомнительно, что придумает). Кружева Паутины эфемерны, но во многих случаях разрывы можно заштопать или предотвратить. Вопрос лишь в том, сколько усилий это потребует - и готовы ли читатель, перегруженный информацией, и автор, перегруженный буквами, прилагать эти усилия для восстановления в принципе не таких уж и важных звеньев цепочки рассуждений.

Проблема заимствования

Один неописанный в статье случай "ссылки" - прямое включение контента с одного сайта в контент на другом.
В современном Вебе такое "заимствование" проявляется в основном в форме вставки картинок, лежащих на других серверах, но шумиха вокруг Web 2.0 и "помесей" сайтов (mash-ups) дает надежду, что в Вебе появится-таки самый настоящий "transclusion" - термин Теда Нельсона, означающий специальный тип гиперссылок, которые не "указывают" на какую-то статью, а физически включают ее (или ее часть) в ссылающийся текст.

С одной стороны, это позволит создавать "еще более гипер"-тексты, с другой же - включение в свой сайт чужих изображений - техника весьма спорная. Это считается плохим тоном по двум причинам: "воровство трафика" (сервер, на котором лежит картинка, испытывает дополнительную нагрузку из-за ваших читателей) и копирайтные трудности (рядом с картинкой далеко не всегда пишут, кому она принадлежит) - поэтому на подобные запросы с чужих адресов многие "шутники" возвращают вместо запрошенной картинки "заглушку" с нравоучительной надписью (вроде "Не воруй").

При этом включенная таким образом картинка может дать "продвинутому" серферу и полезную информацию: посмотрев на адрес интересующего рисунка, можно пойти на сайт, с которого он был "позаимствован". Есть надежда, что вскоре мы увидим также, какие проблемы и преимущества принесет заимствование текста.

Но, возвращаясь к основной теме статьи, отметим, что здесь же лежит очередная "опасность разрыва" - если заимствованные материалы вдруг исчезнут с источника, для заимствующего это чревато уже не просто неработающими ссылками, а "черными дырами" в теле статьи.

© ООО "Компьютерра-Онлайн", 1997-2024
При цитировании и использовании любых материалов ссылка на "Компьютерру" обязательна.