Метачушь
АрхивМненияМир исчерпывающих, надежных метаданных - утопия. Это наркотический бред, порожденный самообманом, занудным высокомерием и истерически раздутыми рыночными возможностями.
1. Введение
Метаданные - это "данные о данных" - такая информация, как ключевые слова, размер страницы, заголовок, количество слов, краткое описание, местоположение, штрих-код, номер в международной стандартной классификации и т.п. Подробные, созданные людьми метаданные переживают в последнее время период бурного расцвета, особенно в мире XML. Типичный сценарий таков: несколько поставщиков совместными усилиями вырабатывают стандарт метаданных - определение типа документации или схему - для определенной области, допустим, для стиральных машин. Они договариваются об общем вокабуляре, использующемся для описания стиральных машин: их размеров, вместимости, энергопотребления, потребления воды, стоимости. Создаются обрабатываемые машинами базы данных всего оборудования, которые полностью или частично доступны для поисковых систем и других баз данных. Таким образом, потребитель может ввести параметры требуемой стиральной машины и, сделав одновременный запрос сразу на множестве сайтов, получить внушительный список стиральных машин, отвечающих заданных критериям.
Если бы на такую систему подписались все, указав подробные метаданные для описания своих товаров, услуг и информации, стало бы легче легкого получать в интернете высококачественные контекстно-ориентированные результаты поиска. Меломан смог бы отыскать всю доступную для скачивания музыку интересующего его направления, производитель эффективно находил бы нужных поставщиков, путешественники запросто выбирали бы себе гостиничный номер для предстоящей поездки.
Мир исчерпывающих, надежных метаданных - утопия. Это наркотический бред, порожденный самообманом, занудным высокомерием и истерически раздутыми рыночными возможностями.
2. Проблемы
Есть, по меньшей мере, семь непреодолимых препятствий между миром, который мы знаем, и метаутопией. Я перечислю их:
2.1 Люди врут
Метаданные существуют в мире конкуренции. Поставщики состязаются в умении продавать товары, фантазеры соревнуются в продвижении своих чудаковатых теорий (mea culpa), художники бьются за аудиторию. Объем внимания и содержимое бумажников, может быть, и не сбалансированы на нулевом уровне, но чертовски близки к этому значению.
Поэтому:
- в таких поисковых системах, как Altavista, запрос по любому общеупотребительному термину зачастую выдает в первой десятке результатов хотя бы одну ссылку на порносайт
- ваш почтовый ящик забит спамовыми сообщениями с темами примерно такого содержания: "Re: ответ на ваш запрос"
- издательский клиринг-хауз рассылает кричащие рекламные объявления: "Вы уже выиграли!"
- в пресс-релизах содержится колоссальное количество бессмысленных модных словечек
Метаутопия - это мир достоверных метаданных. Если отравление колодца сулит преимущества отравителям, метаводы незамедлительно становятся чрезвычайно токсичными.
2.2 Люди ленивы
Вы и я вовлечены в невероятно серьезный процесс создания информации. Здесь, в Информационной Заоблачной Обители, мы понимаем важность составления и сохранения прекрасных метаданных для нашей информации.
Но информационные миряне удивительно бесцеремонны по отношению к своим данным. Ваша невежественная тетка шлет вам электронные письма без темы, половина страниц на Geocities называются "Пожалуйста, назовите эту страницу", а ваш начальник хранит все свои файлы на рабочем столе под такими полезными именами, как UNTITLED.DOC.
Эта лень не имеет границ. И никаким количеством усовершенствований ее не искоренить. Чтобы осознать истинные масштабы металени, загрузите наугад из пиринговой сети десять любых МР3-файлов. Можете быть уверены, что, по меньшей мере, один из этих файлов не будет содержать вовсе никакой сопутствующей информации - названия, имени исполнителя, других данных о записи - и все это, несмотря на то, что добавление подобной информации требует всего-навсего одного нажатия на кнопку с надписью "Загрузить информацию о записи из базы данных CD". Такая функция имеется в каждой программе для записи МР3-файлов.
При отсутствии карательных мер, вроде ломания пальцев, и без посылки отрядов мстительных инфониндзя для дописывания метаданных в файлы среднего пользователя нам никогда не исправить положения.
2.3 Люди глупы
Даже в тех случаях, когда от составления хороших метаданных польза очевидна, люди упрямо отказываются упражняться в старательности и прилежании, создавая метаданные.
Возьмем, к примеру, eBay. Каждый продавец на этом аукционе более чем заинтересован в том, чтобы дважды перепроверить свои предложения на предмет вылавливания всех ошибок и опечаток. Попробуйте поискать на eBay по слову "plam". Сейчас в ответ на этот запрос выдаются девять предложений о продаже Plam Pilots. Аукционные лоты с опечатками не выводятся при поиске по правильно написанным запросам, и, следовательно, собирают меньше ставок и продаются дешевле. На eBay почти всегда можно выгодно приобрести Plam Pilot.
Прелести (и ужасы) грамотности - правописание, пунктуация, грамматика - не ведомы подавляющему большинству интернет-пользователей. А вера в то, что все Васи Пупкины внезапно и сразу научатся правильно писать и расставлять запятые (не говоря уже об аккуратной организации своих данных в соответствии с хоть какой-нибудь иерархической системой, которой следует пользоваться) – это самообман чистейшей воды.
2.4 Миссия: невыполнима - знай себя
В метаутопии всякий, кто вовлечен в безрассудный бизнес описания всего, тщательно оценивает рассматриваемую им информацию и точно предугадывает свойства данных, записывая результат.
Простое наблюдение демонстрирует ошибочность этого предположения. Когда исследовательское агентство Nielsen вело журналы записи для сбора информации о зрительских предпочтениях семей, участвовавших в опросе, результаты сильно отклонялись в сторону "Театра шедевров" и "Улицы Сезам". Заменив журналы телеприставками, передававшими информацию о том, на что настроены телевизоры в каждый конкретный момент, агентство обнаружило, что средняя американская семья смотрит в действительности: борцовские поединки обнаженных карликов, самые забавные в Америке случаи неудачно сделанных пластических операций и откровения Джерри Спрингера: "Моя дочь одевается как шлюха!"
Спросите у программиста, сколько времени займет написание данного модуля, или у строителя - о том, сколько нужно времени, чтобы починить вам крышу. Спросите лаконичного южанина, далеко ли еще до реки. А еще лучше, поиграйте в дартс - ответ, вероятно, будет столь же заслуживающим доверия.
Люди чертовски плохо фиксируют собственное поведение. Целые вероучения сформировались с целью помочь людям лучше понять самих себя, миллиард психотерапевтов вспахивают эту же ниву.
Откуда же взялась вера в то, что использование метаданных поможет Васе Пупкину найти общий язык с собственной богоподобной природой?
2.5 Схемы не нейтральны
В метаутопии облаченные в лабораторные халаты хранители эпистемологии сидят и корпят над рациональной иерархической схемой идей, чем-то вроде этого:
Ничто:
Черные дыры
Все:
Материя:
Земля:
Планеты
Стиральные машины
Ветер:
Кислород
Кишечные газы
Огонь:
Ядерный распад
Ядерный синтез
Луизианский острый соус "Злобная Дьяволица"
В каждой конкретной подкатегории, скажем в "Стиральных машинах", специалисты договариваются о подразделах, классах надежности, энергопотребления, цвета, размера и т.д.
Это предполагает, что существует "верный" способ организации понятий, и что здравомыслящие люди, имея достаточно времени и желания, могут договориться о подходящих средствах выстраивания иерархии.
Ничто так не противоречит истине. Любая иерархия понятий непременно означает превосходство одних осей восприятия над другими. Производитель небольших, экономичных стиральных машин выстроит иерархию следующим образом:
Энергопотребление:
Потребление воды:
Размер:
Вместимость:
Надежность:
В то время как производитель стильных, нашпигованных разными функциями стиральных агрегатов расставит все не так:
Цвет:
Размер:
Программируемость:
Надежность:
Идея о том, что конкурирующие интересы могут легко прийти к соглашению о взятии на вооружение общего вокабуляра, совершенно игнорирует силу организационных принципов рыночной экономики.
2.6 Метрика влияет на результат
Договариваясь об общем мериле важных вещей в любой области, невозможно не наделить привилегиями те элементы, показатели которых высоки в принятой системе измерений, несмотря на пригодность этих элементов в целом. Тесты на IQ дают преимущество тем, кто их хорошо выполняет, по рейтингам Nielsen тридцати- и шестидесятиминутные телешоу предпочтительнее (поэтому MTV больше не показывает видео - Nielsen не удалось создать рейтинг для трехминутных минипрограмм, поэтому MTV не сумело продемонстрировать ценность рекламы в своей сети вещания), грубый подсчет мегагерцев дает преимущество CISC-чипам Intel перед процессорами Motorola c RISC-архитектурой.
Шкалы ценностей взаимоисключающи. Программное обеспечение с высоким уровнем безопасности слабовато в вопросах удобства. Вкусные декадентские десерты не выдерживают критики с точки зрения здорового питания. Каждый игрок на поле стандартов метаданных желает подчеркнуть свои выигрышные стороны и преуменьшить (даже, если можно, вовсе игнорировать) проигрышные.
Мы принимаем желаемое за действительное, полагая, что группа людей, состязающаяся в продвижении собственных идей или продуктов, будет неизменно довольна любой жесткой иерархией ценностей. Лучшее, на что мы можем надеяться в данном случае - это разрядка, в условиях которой все одинаково ничтожны.
2.7 Существует более одного способа описать что угодно
"Нет, я не мультики смотрю! Это культурная антропология!"
"Это не порно, это искусство".
"Это не проплешина, это солнечная батарея для секс-машины".
Рассудительные люди могут до бесконечности спорить о принципах описания чего-либо. Есть основания считать, что ваше собственное "я" является набором ассоциаций и идентификаторов, которые вы приписываете понятиям. Требовать от кого-либо использовать тот же вокабуляр для описания своих сущностей, значит, размывать когнитивную панораму, множить однообразие идей.
А это просто неправильно.
3. Надежные метаданные
Так что же нам тогда? Отправить метаданные на свалку?
Разумеется, нет. Метаданные могут быть очень полезны, если относиться к ним с изрядной долей недоверия. Метаутопия никогда не настанет, но метаданные зачастую очень хороши, для того чтобы делать на их основе грубые выводы относительно информации, кочующей в интернете.
В действительности, некоторые виды неявных метаданных чрезвычайно полезны. Google использует метаданные, описывающие структуру World Wide Web: рассматривая количество ссылок, ведущих на конкретную страницу (и число ссылок, указывающих на ссылающийся сайт), Google способен вывести статистические данные о том, сколько сетевых авторов считают рассматриваемую страницу достаточно важной, чтобы помещать на нее ссылку. Отсюда получаются крайне достоверные предположения о том, насколько информация на данной странице достойна внимания.
Такой вид наблюдательных метаданных намного более надежен, чем та ерунда, которую люди сами изобретают с целью облегчить обнаружение своих документов. Ему ни по чем маркетинговая чепуха, самообман и вокабулярные коллизии.
Если брать еще шире, этот вид метаданных можно считать родословной. Кому этот документ представляется ценным? Насколько близко в данный момент соотносятся ценные суждения этого человека с моими? Этот вид неявного подтверждения информации - намного лучший кандидат в панацеи информационного поиска, нежели все схемы мира, вместе взятые.
- Перевод Олега Данилова