Архивы: по дате | по разделам | по авторам

Ахиллесова пята Семантического Веба

автор : Виктор Шепелев 25.08.2008

Тим Бернерс-Ли, много лет назад создавший Веб, долгое время был привычен нам в амплуа участника комитетов, радетеля и охранителя, авторитетного, но кабинетного ученого.

Тим Бернерс-Ли, много лет назад создавший Веб, долгое время был привычен нам в амплуа участника комитетов, радетеля и охранителя, авторитетного, но кабинетного ученого. Однако в последние месяцы досточтимому сэру стало тесно в этом амплуа: то опубликует программную статью про Giant Global Graph - будущее Веба[См. "Обалдеть, завтра дайте три!" ("КТ" #717).], то интервью даст, с легкой руки журналистов получившее кодовое название "Создатель Веба рассказывает, где смерть Гуглова"[См., например, compulenta.ru/news/351000]. Нетрудно заметить, что и в этих новых статьях/интервью отец-основатель продвигает все ту же идею, которую продвигал в предшествующие семь лет: идею (фанфары!) Семантического Веба. А, простите, что это? И, кстати, почему все эти долгие годы (за которые в Интернете изменилось чуть ли не все) Прекрасный Новый Веб неизменно остается "делом отдаленного, но близкого будущего"?

Замах:Обыкновенный веб

Как известно, Веб и составляющие его технологии - HTML (формат описания гипертекста), HTTP (протокол передачи гипертекста), URL (способ адресации гипертекстовых документов) - далеко не первая гипертекстовая система в мире. К тому моменту, как молодой выскочка-ядерщик заинтересовался темой, считалось, что известны инструменты, наработаны теории и технологии, и вообще - гипертекст это наше все и наше будущее (как только глупые люди поймут, сколько в нем преимуществ). И тут появляется Бернерс-Ли, тогда еще ни капельки не сэр, и создает систему, которая с возмутительной простотой и легкомыслием нарушает большинство принципов простоты ради - и завоевывает мир. (Заметим, что прототип Веба, персональная программа-для-управления данными Esquire, была куда более "серьезным" инструментом, нежели все достижения сегодняшних технологий, - она работала не просто со "ссылками куда-то", а со ссылками, включавшими описание отношений между данными, проверявшими наличие и релевантность "конечной точки" и т. п.) Причины, по которым эта простота и "легкомысленность" Веба стали главным залогом его успеха, мы здесь рассматривать не будем (хотя бы потому, что автор уже делал это - см. "Таинственные формулы прогресса" в "КТ" #695). А рассмотрим мы - что с сегодняшним Вебом не так, какие проблемы порождает его простота и снисходительность.

А "не так", собственно, только одно - набор элементов, предоставляемых HTML, слишком мал и однообразен для описания богатой семантики современной веб-страницы - даже с учетом всех благих рекомендаций по отделению представления от содержания и использованию таблиц стилей (CSS).

Ведь все элементы HTML, в общем-то, предназначены для описания только и именно текста, статьи, документа; все это богатство (абзац, заголовок, таблица и пр.) отнюдь не рассчитано на страницы сложной структуры, состоящие из многих сегментов - верхнего меню, бокового меню, подвала, панели ссылок… то есть всего, что составляет практически любой современный сайт. Таблицы стилей скрывают от нас, что с точки зрения языка разметки мы смотрим не на "страницу с меню и блоком навигации", а на сотню одинаковых блоков или (упаси господи) здоровенную таблицу из полутора сотен ячеек. Еще более проблемный элемент - собственно ссылка, основа и связующее звено гипертекста.

Опять же, с точки зрения семантики любая ссылка выглядит одинаково, и отличить ссылки внутренней навигации от несущих смысл информационных связей (а также от ссылок "по дружбе", ссылок на "студию, которая делала этот сайт", и т. п.) может только естественный интеллект (вооруженный к тому же современным браузером, изображающим документ примерно так, как предполагал его автор). И это если не говорить о "ссылках", выглядящих как таковые, но никуда не ссылающихся, а открывающих новые окна, выполняющих AJAX-запросы и делающих много других, крайне полезных, но никак в семантику ссылки не укладывающихся дел.[Некоторые из этих проблем пытается исправить будущий стандарт HTML5, вводящий, например, элемент <nav> для обозначения навигационной части страницы;другие проблемы решаются и в сегодняшнем HTML’е при помощи менее известных "фич" вроде возможности указать атрибут "rel"(relation) для любой ссылки, обозначив ее отношение к текущему документу. Но все это лишь случайные "поправки" - тогда как необходимо комплексное решение проблемы.]

То есть изначальная (и нынешняя) структура HTML, во-первых, не учитывает разделения любой вебстраницы на "приложение" (навигацию, служебные и информационные элементы) и его "контент"; вовторых, эта самая структура неспособна адекватно отобразить отношения между частями сложного контента, действуя лишь в терминах "это идет за этим" и "это стоит рядом с тем". Соответственно, любая маломальски нетривиальная задача по работе с информацией в Вебе не может быть выполнена автоматизированным средством анализа, а только - человеком, отличающим оформление от контента, существенную информацию от факультативной, определяющим значимость ссылок "на глаз".

Тим Бернерс-Ли и его коллеги осознали эти проблемы уже довольно давно и, в общем и целом, сделали вывод, что "с самого начала надо было не так".

Вот это самое "не так", которое одно время казалось будущей заменой нынешнего Веба, и получило название Semantic Web - Семантической Паутины.

Прыжок: Прекрасный новый веб

В чем же радикальное отличие Прекрасного Нового Веба, каким он видится тем, кто "знает, как надо"?

Разберемся для начала формально, по спецификациям и стандартам W3C.

Итак, предполагается, что Семантический Веб состоит из ресурсов, информация на которых описана на языке RDF (Resource Description Framework).

Грубо говоря, в каждом случае составляется нечто вроде анкеты. В случае порнокартинки[Этан Цукерман (Ethan Zuckerman) утверждает, что любая востребованная среда привлекает порнографию и социальных активистов;если нет порнографии - среда не работает, нет активистов - работает, но плохо.См. www.ethanzuckerman.com/blog/2008/03/08/the-cutecattheory-talk-at-etech.], например, будут описаны характеристики самого изображения, изображенных личностей и их занятий в достаточно строгом, иерархическом формате, который может быть однозначно разобран алгоритмом.[Вообще говоря, распространено мнение, что RDF - подмножество языка разметки данных XML. На самом деле это не так: XML лишь один из форматов, в котором может быть сохранено RDFописание; другой, например, формат - Notation 3.Модель данных RDF, в отличие от XML, является не иерархической ("автор" является частью "картинки", являющейся частью "набора картинок"), а предикатной (автор и картинка находятся в отношениях "является автором", картинка и галерея - в отношениях "входит в"); графически данные, описанные в RDF, представляются графом, а не деревом.] Ресурс, информация на котором описана таким образом, гораздо более гибок в использовании, нежели традиционный HTML-сайт: например, в гипотетическом примере с порнокартинкой можно одним движением запросить у ресурса его данные, отсортированные и отобранные по любому из свойств этих картинок, - причем в отборе и сортировке пользователь будет полагаться не на создателей ресурса и его встроенный поисковик, а только на своего интеллектуального (программного) агента, который переберет все доступные данные, проанализирует их описания и выберет/отсортирует в соответствии с запросом пользователя.

Но главная цель и сущность Семантического Веба не в том, чтобы информация с отдельного ресурса была представлена в логичном, машиночитаемом виде, а в синергическом эффекте, происходящем от наличия глобальной сети ресурсов, "говорящих" на общем формальном языке. Переходя от уровня отдельного ресурса на уровень всеобщей Сети, наш гипотетический любитель клубнички может получить от своего интеллектуального агента биографии понравившихся моделей (включая сразу и ссыл ки на покупку соответствующей продукции) или, скажем, описания по применению заинтересовавших подходов к проблеме, - и все это не потому, что авторы единственного сайта сочли нужным проставить соответствующие ссылки, а потому, что мы оперируем в рамках сети данных (формально описанных в терминах общих языков и словарей) вместо нынешней сети страниц.

Чтобы все это работало, понадобятся еще некоторые компоненты, кроме собственно языка описания данных. Нужны общие термины-предикаты допустимые разделы и "поля" для "анкет" разных типов. Например, если в RDF-документе записано, что он использует схему данных[Описанную, к примеру, в формате RDF Schema. Форматов существует несколько, но главное не формат, а декларация намерений: схема может быть вообще никак не описана, а только определяться уникальным идентификатором. Например, схема дополнительных полей для описания блога от Яндекса не имеет публичного описания, но любой документ, в котором есть URL-идентификатор этой схемы - "http://blogs.yandex.ru/schema/foaf/", - декларирует, какое значение он придает предикатам вроде "blogActivity" или "bio".], обозначаемую таким-то уникальным идентификатором (как правило, таким идентификатором служит адрес в Вебе, где выложена сама схема или документация по ней), это сразу говорит интеллектуальному агенту, какие поля он может встретить (и позволяет агенту определить, знает ли он способ обработки таких типов документов).

Следующий компонент, позволяющий интеллектуальному агенту уверенно чувствовать себя в сети данных, - это онтологии (классификации и описания свойств) общих понятий и отношений между ними.

Ссылки на онтологии позволяют интеллектуальным агентам понимать, что если рассматриваемые данные описывают "страну", то у нее может быть ссылка на ровно одно данное типа "столица", несколько ссылок на "граничащие страны" и т. п. Другой пример (возвращаясь к нашей клубнике): если разные ресурсы используют в качестве названий… хм… жанров не просто текстовые строки, а ссылки на термины одной общей онтологии порножанров, лежащей где-то в Сети, то программный интеллектуальный агент сможет на всех этих ресурсах выполнять едино образные запросы с гарантированным результатом, независимо от того, какими словесами обозначены жанры в пользовательском интерфейсе. Самый известный и "официальный" (в смысле наличия W3C-стандарта), хотя и не единственный язык описания онтологий называется OWL (Web Ontology Language)[Один из создателей языка о несоответствии названия аббревиатуре: "Ну, может же язык, созданный ради логичности и последовательности, быть хоть в чем-то непоследовательным?"]. В более ранних описаниях Семантического Веба OWL фигурирует как "единственно верный" язык описания онтологий, но реальность часто корректирует стандарты, делая их более вариативными, - сегодняшний FAQ на сайте W3C (www.w3.org/2001/sw/SW-FAQ) указывает лишь, что "необходим язык описания онтологий, например OWL". Другие более-менее распространенные языки - SKOS, созданный европейским семантическим сообществом, и DAML+OIL, выращенный в недрах DARPA.

Наконец, очевидно, что нужны и стандартные средства обработки RDF-данных - описания запросоввыборок[Эту роль берет на себя язык SPARQL (во многом подобный языку SQL, используемому для запросов к обычным реляционным базам данных).] и систем логических выводов[Существует предложенный, но пока не принятый стандарт Rule Interchange Format (RIF).].

Итак, сводим воедино прекрасную картину Семантического Веба: все ресурсы Сети выглядят как "анкеты" на языке RDF, излагающие смысл, а не внешний вид; во всех имеются ссылки на схемы-описания полей этих анкет и словари общих терминов. Пользователь же вооружен не пассивным "браузером"просмотрщиком[ Кстати, для установки аналогий в головах читателей - на официальном языке стандартов W3C браузер тоже называется "пользовательским агентом".], а активным интеллектуальным агентом, работающим на уровне данных (независимо от их источника), а не страниц. То есть: из онтологии популярных фотосайтов вытащил порносайты, отобрал с них изображения по восьмидесяти критериям вкуса пользователя и вывел аккуратным списочком, доступным для дальнейшей сортировки, фильтрации и вду-у-у-умчивого просмотра.

Вот почему сэр Тимоти считает, что "Гуглу капец": буде все "интересненькое" в мире опишется формальными RDF-описаниями, методы взаимодействия с Вебом станут (могут стать) принципиально другими. Изменятся (могут измениться) даже самые что ни на есть базовые вещи: единица "браузинга" по Семантическому Вебу уже не имеет ничего общего со "страницей" (единственным документом в каком бы то ни было формате, определяемым своим адресом-URL) - она может быть как маленькой частичкой огромного "документа", так и, наоборот, огромным описанием, составленным из фрагментов десятков документов-описаний со всей Сети. По сути (в экстремуме, в идеальной сети данных), загнуться или сильно изменить бизнес-модель придется не только поисковикам, но и блоговым платформам, онлайн-магазинам, фотохостингам… Останутся лишь "голые" производители, потребители и хостеры "голых" же данных и шустрые интеллектуальные агенты между ними.

Однако основным идеям Семантического Веба уже немало лет, а не то чтобы "экстремума", но даже стремительного роста не видать (сравните хотя бы с куда более молодым термином-вирусом "Web 2.0", знакомым любой домохозяйке). В чем же дело?

Подача в прыжке

Если попытаться дать простой ответ на прямой вопрос - побеждают ли идеи Семантического Веба? - то мы окажемся перед серьезным затруднением.

С одной стороны, разработанные инструменты - RDF как универсальный способ машиночитаемого описания данных, OWL как способ построения онтологий, SPARQL как способ запроса к этим данным и онтологиям - вполне себе заняли место в научных и смежных областях и стали стандартом де-факто. С другой стороны, в "мэйнстрим" эти технологии не спешат - а когда и прорываются, редко обходится без конфуза. Например, всем известный RSS - формат для описания обновлений сайтов и блогов, вполне себе семантическая штука, - изначально расшифровывался именно как RDF SiteSummary; завоевание им всеобщего признания казалось началом триумфального шествия Semantic Web по планете. Однако в результате некоторых противоречий и недопониманий на данный момент существует несколько разных RSS’ов (0.90, 0.91, 1.0,2.0), которые, даром что отличаются только номерами версий, имеют совершенно разную внутреннюю структуру и даже разную расшифровку аббревиатуры. Из этих форматов только 0.90 и 1.0 по-прежнему основаны на RDF. А RSS 0.91 (Rich Site Summary) и RSS 2.0 (Really Simple Syndication) - более простые форматы, не связанные с ключевыми технологиями Semantic Web. (Вдобавок существует еще и альтернативный и популярный формат Atom, тоже не имеющий с RDF ничего общего.)

Вообще говоря, превалирующим "сторонним взглядом" на перспективы идей Семантического Веба долгое время был абсолютный пессимизм и неприятие[Еще полтора года назад автор писал колонки на тему "почему Семан- тического Веба нет, не было, и не надо" - см.www.webplanet.ru/column/ service/shepelev/2006/08/22/ semanticweb.html.]. Причины, в общем, можно легко предпо ложить: среди всего разнообразия сайтов, созданных разнообразнейшими методами, руками авторов с разнообразнейшей квалификацией, трудно ожидать вспышки интереса к "правильной", осмысленной выдаче данных - тем более что выгоды каждого конкретного сайта/сервиса от собственной семантичности малоочевидны, а квалификации создателей не всегда хватает на семантически правильное использование элементов простого HTML, вроде заголовков и списков. Да и сама идея полной (или, по крайней мере, существенной) замены современного Веба Новым Вебом казалась утопией - при полном отсутствии так называемого killer app, привлекательного и общеполезного приложения (не гипотетического, а работающего "здесь и сейчас"), которое делало бы преимущества Нового Веба очевидными любому.

Но в новейшее время в семантичности Веба определенно происходят положительные сдвиги - хотя "семантические" технологии W3C играют в этих сдвигах далеко не первую роль. Killer app’ом, чья популярность только зарождается, оказались, вопервых, поиск, а во-вторых - переносимость данных.

Средством и основной технологией - микроформаты и простые API популярных сервисов. Средством структурирования - (контролируемые) фолксономии.

Результатом - не новая "сеть данных", но и не старая "сеть страниц", а гибридная "сеть страниц с (мета) данными".

Итак, семантическая информация в сегодняшнем Вебе-не-только-для-ученых преимущественно записывается в виде микроформатов - стандартов, позволяющих к существующей HTML-странице добавить информацию о смысле данных. Например, <a href=''http://vasya.com''> - это "какая-то ссылка"; а <a href=''http://vasya.com'' rel=''colleague''>[Помните "малоиспользуемый и забытый атрибут rel" из первого раздела? ] это та же ссылка, но семантически описывающая мои отношения с блогом-по-ссылке в формате XFN (XHTML Friends Network - натурально, формат задания информации о френдах), - при этом, с точки зрения простого браузера, страница выглядит все так же, но "понимающие" XFN боты[Или браузеры со специальным плагином, например Operator для Firefox.]"увидят" дополнительную информацию и смогут ее использовать. Существуют микроформаты для описания, например, контактной информации (hCard), календарной (hCalendar), информации о "Creative Commons"-лицензировании данного контента и множество других.

Смежный способ "придания дополнительной информации" обычной странице - задание "альтернативных представлений этой страницы" в ее заголовке.

Именно так в блогах указывают их RSS-потоки (тоже ведь - ссылка на "семантическое изложение" того же, что мы видим в HTML); именно так на страницах профилей в разно образных социальных сетях (в том же ЖЖ, например) указывают ссылки на FOAF документы[ FOAF (Friend of a Friend) - схема RDFдокументов, указывающих, опять же, информацию о френдах и ссылки на них. То есть FOAF и XFN - это конкурирующие технологии.].

Хорошо, допустим, кто-то решил описать таким образом часть контента на странице. Возникает закономерный вопрос (точнее - даже два): какая обычному инфопутешественнику[Это автор так предпочитает называть веб-серферов. И красивше, и семантичнее.] польза и радость с этой семантики? и даже если она есть, много ли страниц, в которых заложена такая информация?

Действительно, даже Firefox+Operator, честно показывающий "в этой странице заложена контактная информация, хотите ее экспортировать?" или "здесь используются такие-то теги", кажется скорее "вспомогательной фенькой для гика", нежели "признаком качественно другого веба"[Впрочем, есть мнение, что скрытый потенциал семантических микроформатов еще раскроет себя в интеграции виртуальной и физической реальности на мобильных устройствах. Самыми простыми и очевидными примерами представляются мобильник, умеющий одним кликом позвонить по записанному на веб-странице телефону, или КПК, по геоинформации описания достопримечательности в путеводителе немедленно запускающий навигатор.]. Но - вспомним, что было сказано выше о killer app’ах Настоящего Семантического Веба["Настоящего" - не в смысле "истинного", а в смысле существующего здесь и сейчас (в отличие от утопического Полностью Семантического Веба).]: поиск и перенос данных.

Где деньги, Зин?

Вот вопрос: а где же, собственно, во всем этом благолепии деньги (которые, как известно, правят миром), - то есть что может завлечь сильных мира сего в Сети Семантики? Ответы есть и у W3C[www.w3.org/DesignIssues/Business.], и лично у сэра Тимоти[blogs.zdnet.com/semanticweb/?p=105.], но, в общем-то, не слишком убедительные: дескать, информационные потоки любой корпорации могут быть организованы существенно эффективнее (читай - выгоднее), если будут основываться на семантически описанных данных. Но вопрос-то не в том, что Семантический Веб намного проще, а в том, где деньги для поставщиков контента? С какой стати мой непосильнымтрудом-нажитый контент должен участвовать в сети-без-сайтов, где потребитель информации не"зайдет ко мне" (и посмотрит Рек ламу!), а получит от меня лишь нужный ему кусочек данных посредством своего интеллектуального агента?

Существует интересный прагматический ответ на этот непростой вопрос, известный под названием MashupAds[dapper.wordpress.com/2008/04/12/mashupads-advertising-on-asemantic-web.]. Идея в том, что пользовательским "интеллектуальным агентом", интерфейсом к миру семантических данных, должен являться обычный сайт, аггрегирующий информацию с семантических сервисов и предоставляющий пользователю дружественный интерфейс для навигации по этой информации и выполнения сложнейших запросов. Именно этот сайт (точнее - множество сайтов, для каждой отрасли - свой интеллектуальный агент) и будет показывать пользователю рекламу - да не свою, а полученную из "семантической базы рекламы" и семантически же привязанную к текущему контенту. При этом деньги из кармана рекламодателя (минус процент "интеллектуального агента") будут переходить в карман поставщиков того контента, к которому семантически привязалась реклама. Не правда ли, похоже на модель Гугла с его AdWords и AdSense?

В таком разрезе Семантическая Паутина простому пользователю представляется немногочисленным набором сайтов-аггрегаторов специализированных поисковиков, выполняющих посредническую роль не только между пользователем и информацией, но и между поставщиком контента и рекламодателем. Условный пример: на сайте-"интеллектуальном агенте" географической направленности пользователь может максимально быстрым и удобным путем найти любую информацию об интересующей его местности - от туристической до краеведческой; и при этом он увидит максимально релевантную своим поискам рекламу: человеку, просматривающему информацию об отелях, будет предложено несколько соблазнительных туров, а взыскующему исторических сведений скорее выпадет реклама книжных магазинов и обучающих фильмов. При этом, напомним, сам сайтсервис является просто универсальным интерфейсом к туче баз данных (находящихся на других серверах, принадлежащих другим хозяевам).

Выводы о преимуществах и недостатках описанного подхода, а равно и перспективах его внедрения, оставим читателю в качестве домашнего задания.

(Редактор попытался начать выполнять "домашнее задание" и сразу столкнулся с вопросом: с чего бы агенту что-то отстегивать поставщику контента, если только мы не планируем вступать на шаткую землю "технологий защиты от копирования"?)

Семантическим поиском (то есть поиском, учитывающим свойства данных, а не только встречаемость слов в документе) многие из нас пользуются ежедневно. Это, например, Яндекс-поиск по блогам, индексирующий RSS-потоки блогов и форумов и позволяющий находить отдельные посты (независимо от того, как они сгруппированы в HTML-страницы), причем вести поиск можно не только по встречающимся словам, но и по "семантическим" (смысловым) атрибутам записи - заголовку, имени автора, тегам и пр. Другой пример - множество сторонних сервисов для "сложного" поиска по Flickr или del. icio.us: здесь играет большую роль открытый и простой API, ставший одним из почти обязательных признаков Web2.0-сервиса. И породивший новую разновидность сервисов: машапы (mash-ups, помеси сервисов), извлекающие семантически описанную информацию из нескольких популярных сервисов и объединяющие ее по этим самым семантическим признакам[Навязший в зубах пример - показать чтонибудь, снабженное геоинформацией (например, записи-статусы Twitter), на картах Гугла.], - при этом, заметим, смешиваемым сервисам достаточно описать свою информацию в рамках своей области и вовсе не нужно договариваться об общем языке данных и общей онтологии допустимых значений.

Вот, кстати, и слово сказано - ответ на вопрос "кто вообще будет этим заниматься?" (в смысле - добавлением/экспортом семантической информации). Отдельный пользователь-автор - вряд ли (точнее - не стоит рассчитывать на всех и каждого). Но если наш пользователь-автор - участник крупной Web2.0-системы - будь то блог-хостинг, фотохостинг, голая "социальная сеть", энциклопедия, - создатель сервиса может озаботиться тем, чтобы ПО самой системы экспортировало метаинформацию (описание блоговых записей, фотографий на хостинге и т. п.).

Зачем? Чтобы потрафить семантическим поисковым системам, настоящим и будущим, и в конечном счете увеличить посещаемость и прибыли (чувствуете разницу с целями Идеального Семантического Веба - изничтожить само понятие "посещаемости отдельного сайта"?). Завтра создавать новый блог-хостинг/социальную сеть (или автономный движок для личного блога, например), не представляющую информацию о френдах в общеизвестном формате (FOAF или XFN), будет такой же глупостью, как сегодня - блог-хостинг без RSS-лент.

К вопросу "экспорта ради поиска" примыкает вопрос "экспорта ради миграции и интеграции", все больше волнующий пользователей - они жаждут возможности единожды записанные данные переносить между разными сервисами - для чего, опять-таки, все эти сервисы должны поддерживать общепонятные стандарты "описания данных по смыслу". Наиболее объемлющая инициатива такого рода - проект DataPortability, ставящий своей целью описать, какие открытые стандарты, микроформаты и протоколы (hCard, FOAF, OpenID, RSS, RDF…) должен "понимать" уважающий себя современный сервис, чтобы пользователю легко было "прийти" и "уйти" со своими данными. Учитывая, что этот молодой (основан в ноябре 2007-го) проект уже получил широчайшую поддержку рынка (по крайней мере, на словах) - от Google и Microsoft до Facebook и Twitter, - можно ожидать постепенного нарастания массы семантической информации, экспортируемой и импортируемой популярными сервисами. А вслед за "грандами" подтянутся и стандарты "хорошего тона" индустрии. Так победим!

Наконец, нельзя не упомянуть о двух последних громких проектах Настоящего Семантического Веба: OpenSocial от Google (стандарт интеграции социальных сетей - как раз через экспорт социальной информации в общепонятных форматах) и недавно анонсированном будущем семантическом поиске от Yahoo (поисковик, понимающий и индексирующий микроформаты и другую семантическую информацию, который наконец-то обобщит проблему поиска "контактов человека по имени Вася Пупкин и людей, его знающих"). Так, пока автор идеи Семантического Веба рассуждает о том, как он (Semantic Web, а не автор) убьет современные поисковики, эти самые поисковики находятся впереди планеты всей в задаче введения семантических элементов в Веб обыкновенный. Такие вот дела.

Вслед за уходящим паровозом

У читателя могло сложиться превратное впечатление о том, что идеологии и технологии, которые W3C и лично Бернерс-Ли понимают под Semantic Web, не имеют ничего общего с Настоящим Семантическим Вебом. Вообще говоря, это не совсем так. Во-первых, восемь лет разработок дали как минимум общую терминологию и "повестку дня". Во-вторых, сами технологии - RDF, OWL и иже с ними - вполне используются где-то напрямую (FOAF, как уже было сказано, - это таки RDF, точнее - OWLонтология, которую можно использовать в RDF, описывающем френдов).

В-третьих, в "семантических" комитетах W3C тоже стараются не отставать от веяний времени (не идиоты же и там): и приложения к RDF существуют[Например - eRDF, то есть embedded (встроенный) RDF.], позволяющие вставлять его элементы как микроформат (то есть дополнительными свойствами к тегам существующей HTML-странички), да и все цели Веба Семантического переформулированы нынче как "семантическое приложение к некоторым частям Веба".

Кроме того, процесс "наведения мостов" между двумя мирами зачастую дает крайне интересные и общественно полезные результаты, вроде проекта SIMILE[Semantic Interoperability of Metadata and Information in unLike En vi ronments - семантическое взаимодействие метаданных в разнообразных (непохожих) окружениях.], в рамках которого создан,к примеру, Piggy Bank - расширение для Firefox, позволяющее создавать (и использовать созданные другими) "превращалки" страниц некоторых сервисов в RDF - с получением всех "плюшек" семантического веба - просмотра, фильтрации и сортировки данных по смыслу, а не "по дизайну". Кстати, именно этот метод - Screen scrapping или Web scrapping, сайтоспецифичные алгоритмы "насильственного вытаскивания важной информации из страниц", - является одним из значимых звеньев нарастания семантичности веба.

Но вот чем Настоящий Семантический Веб радикально отличается от идей W3C - это способами структурирования данных и границами объектов, к которым прилагается "семантичность". Что до способов структурирования - тщательно разработанным, разветвленным и детальным онтологиям Web 2.0 противопоставил "фолксономии" - классификации на тегах, составляемые пользователями на лету (то есть если какой-то пользователь к своим данным добавил какой-то новый тег - сразу же пополнилась и "общественная" копилка тегов).

А чтобы разобраться с "границами применимости", возьмем для примера какую-нибудь ужасно прогрессивную блог-платформу, экспортирующую всю возможную информацию о записях пользователя и о нем самом. Заметим, что на уровне текста самой записи у нас попрежнему остается голый HTML, да зачастую еще и плохо отформатированный (вместо заголовков - просто строкиполужирным шрифтом, вместо списков - просто звездочка в начале строки). Возможно, ситуацию когда-нибудь исправят специальные "семантические" редакторы, мощные, удобные и требовательные (в смысле, вообще не позволяющие "просто изменить шрифт" без указания семантики форматируемой области). Но даже и в этом случае мало надежды, что каждый блоггер, журналист или автор Википедии станет заморачиваться "семантическим" указанием: например, "вот эти слова в кавычках - название книги, которую я цитирую" (хотя если это добавит записям "красивости" - вроде вставления обложки книги и ссылки на ее описание…). И в этом смысле идеи Семантического Веба (который, напомню, в первую очередь требует семантичности внутри контента, а не "вокруг" него, в метаданных) - скорее всего утопия