Архивы: по дате | по разделам | по авторам

Фонтаны рая

Архив

автор : Лев Никитин 23.03.2004

В последнее время технологии поиска в Интернете привлекают к себе немало внимания. Не так давно Yahoo! отказалась от использования движка Google в пользу разработок приобретенных за прошедшие полтора года компаний Inktomi и Overture.

Вездесущая Microsoft, в свою очередь, объявила о планах перевода службы MSN на собственную технологию (в данный момент в основе поисковика MSN тоже лежит движок от Inktomi). Однако за громкими сообщениями о перестановках в стане «пользовательских» поисковиков информация о гораздо более интересной разработке под названием WebFountain осталась практически незамеченной.

Между тем эта технология, уже четыре с половиной года разрабатываемая в исследовательском центре IBM Almaden Research Center командой из более чем сотни человек, демонстрирует принципиально иной подход к поиску и обработке информации.

Технология

Большинство Интернет-поисковиков базируется на ранжировании документов, которое производится на основании анализа двух основных параметров: релевантности и индекса цитируемости. Первый из них отражает, насколько часто в документе встречается искомое слово или фраза; второй — какое количество ссылок ведет на данную страницу. Таким образом, высший ранг присваивается документу, на который ведет больше всего ссылок с других релевантных страниц и набор слов в котором формально больше всего похож на запрос, введенный пользователем в строке поиска. Как видим, действие такого алгоритма довольно легко обратить себе на пользу¹. Ведь чтобы при поиске по заданной фразе тот или иной документ появлялся первым, достаточно всего-навсего увеличить релевантность и значение индекса цитируемости, а для этого — «спрятать» в документе нужную фразу (в последнее время поисковые спамеры уже научились обходиться и без нее), что обеспечит высокую релевантность. Второй шаг — создание на различных сайтах множества страничек, которые будут содержать ссылки на наш документ (последняя мера призвана увеличить индекс цитируемости). Эта нехитрая, но действенная технология в совершенстве освоена поисковыми спамерами, которые предоставляют «услуги» по выведению сайта заказчика на первые места в списке результатов, выдаваемом поисковиком. Одним из нашумевших примеров такого рода «творчества» стал недавний курьез с выражением «miserable failure»², поиск по которой в системе Google приводил на сайт, посвященный предвыборной кампании одного из кандидатов в президенты США. Самое печальное, что бороться с подобными «шутками» можно пока лишь вручную и только после того, как весть о них облетит весь свет.

Разработка IBM ориентирована на анализ слабоструктурированных и неструктурированных данных и базируется на принципиально иной схеме. В системе WebFountain выделяется три уровня оперирования информацией:

- сбор из Интернета;
- контент-анализ и структурирование документов;
- поиск по индексированным документам и вывод результатов.

На первом уровне происходит первичный отбор информации, подобно тому, как это делают роботы обыкновенных поисковиков. Заслуга разработчиков в том, что WebFountain обрабатывает не только статические страницы, но и доступные корпоративные базы e-mail, каналы IRC, веблоги, электронные доски объявлений, специализированные хранилища бизнес-информации, а также новостные ленты и периодику. Причем данные наиболее часто обновляющихся источников отслеживаются ежедневно.

Однако ноу-хау IBM сосредоточены на втором уровне — в технологиях контент-анализа и структурирования информации, заслуживающих более пристального рассмотрения.

Прежде всего следует обратить внимание на использование языка XML в качестве средства построения внутренней структуры документа. В общих чертах процесс выглядит так. Получив на входе документ, найденный роботом на первом уровне, модуль контент-анализа (так называемый аннотатор), запрограммированный на поиск определенной тематической информации, ищет слова, так или иначе связанные с темой. Аннотаторы могут разрабатываться сторонними компаниями и не являются неизменной частью системы WebFountain. В зависимости от того, какую информацию необходимо найти, к системе могут подключаться те или иные модули. Например, модуль поиска сведений о музыкальных коллективах XX века находит в тексте все соответствующие упоминания и помечает их для дальнейшей обработки. Вот здесь-то и начинается самое интересное. Рассмотрим дальнейшую работу с текстом на простом примере. Выделив все упоминания, на следующем шаге аннотатор дополняет их XML-тегами, содержащими, к примеру, информацию о годе создания и распада группы, а также ее участниках. В итоге текст приобретает следующий вид:

<mus-ref Yfound=1975 Yend=1995 NameVocalist=Mercury>Queen</mus-ref>.

Именно в этой процедуре и заключается основное отличие WebFountain от алгоритмов, используемых большинством поисковиков. Если последние пытаются определить, о чем тот или иной текст, то WebFountain аннотирует его, добавляя к отдельным словам дополнительную информацию.

Вместе с тем и у этой технологии есть слабые места. Рассмотрим, как аннотатор различает британскую королеву и группу Queen. Здесь, на мой взгляд, кроется одна из самых серьезных уязвимостей системы. Дабы определить, о ком именно идет речь, аннотатор просматривает весь текст и ищет в нем упоминания либо членов королевской семьи, либо других музыкальных групп. Если преобладают слова из первой категории, аннотатор принимает решение считать Queen королевой, иначе — группой. Нетрудно представить себе текст, в котором говорится о присутствовавших на концерте Queen членах королевской фамилии. Как будет вести себя программа в подобных случаях, сказать трудно. Но то, что ошибок не избежать, — очевидно. В идеальной же ситуации аннотатор связывает значение отдельных слов с некоторой дополнительной релевантной информацией. Все это делается для того, чтобы последующая обработка текста велась уже с учетом дополнительных сведений о словах, которые в нем встречаются.

Далее текст, «потолстевший» за счет добавления тегов-аннотаций примерно в десять раз, переходит во власть инструментов третьего уровня — анализаторов. По принципу действия они тоже аналогичны поисковым роботам, однако если последние работают с первичными документами, не содержащим пояснительных XML-тегов, то анализаторы получают на входе уже аннотированный текст с дополнительными сведениями. Соответственно поиск групп, существовавших, например, в 1984 году, из задачи, практически непосильной сегодняшним поисковикам, становится лишь делом техники.

Кстати, о технике. Аппаратную составляющую WebFountain условно можно разбить на две части. Кластер, ответственный за хранение данных, состоит из 32 модулей по восемь двухпроцессорных станций на базе Intel Xeon 2,4 ГГц в каждом, соединенных друг с другом посредством Gigabit Ethernet. Возможности системы впечатляют: общая емкость хранилища аннотированных документов, сжатых примерно втрое относительно первоначального объема, достигает 160 Тбайт, суммарная скорость записи составляет 10 Гбайт/с. Центральный кластер, на который возложены задачи индексации и поиска в аннотированных документах, построен на базе пары систем по 64 двухпроцессорных модуля в каждой. Первая система отвечает за сбор данных в Интернете и их аннотирование, вторая обрабатывает запросы. Всё в целом работает под управлением Linux, что уже становится традицией для решений IBM. Ежедневно комплекс, состоящий суммарно из 768 процессоров, анализирует объем информации, эквивалентный 25 миллионам Интернет-страниц. По словам разработчиков, это не предел: после миграции на блэйд-серверы центральный кластер будет состоять из 896 процессоров, а подсистема хранения данных — из 256. В итоге производительность комплекса достигнет невероятной цифры — 8 миллиардов страниц в сутки! Это намного превышает возможности движков Google или Inktomi, обрабатывающих несколько сотен миллионов страниц в сутки.

Однако прямое сравнение здесь не вполне корректно, поскольку для платформы WebFountain речь идет лишь о вычислительной мощности без учета пропускной способности Интернет-каналов. Если предположить, что одна страничка «весит» хотя бы 20 Кбайт, суммарный поток информации для заявленных 8 миллиардов страниц составит 1,6х1011 байт в сутки. Нетрудно убедиться, что это потребует каналов общей пропускной способностью около 1,72 Гбайт/с, причем постоянно. Таким образом, самым узким местом WebFountain станет ширина каналов связи.

Как бы то ни было, следует признать, что разработка IBM выглядит многообещающей, способной существенно потеснить привычные нам поисковики. Если бы не одно «но».

1 Подробнее см. статью Сергея Петренко «Оптимизация сайта для поисковых систем» в «КТ» #497 (www.computerra.ru/offline/2003/497/27600 ). — Прим. ред.
2 Жалкий неудачник (англ.).

Позиционирование

После знакомства с технологией и основными параметрами WebFountain складывается впечатление, что IBM решила сыграть на поле систем Интернет-поиска. Однако представители корпорации упорно заявляют, что это не так. По словам Роберта Карлсона (Robert Carlson), вице-президента IBM, курирующего WebFountain, новая технология призвана обрабатывать большие объемы неструктурированной информации и выявлять в них дополнительные сведения, которые могут быть использованы при ведении бизнеса. Официальный пресс-релиз IBM гласит, что данные, собранные при помощи WebFountain, позволяют глубже проанализировать репутацию той или иной компании, отношение потребителей к ее брэнду, а также дать дополнительную информацию для выработки стратегии, более точно соответствующей состоянию внешней среды организации.

Иными словами, использовать новую систему IBM предлагает в первую очередь бизнес-клиентам, желающим узнать, что же пишут об их компаниях в Интернете. Эта услуга уже предоставляется фирмой Factiva (принадлежит Dow Jones и Reuters), которая приобрела у IBM право на использование WebFountain. Клэр Харт (Clare Hart), CEO Factiva, утверждает: «Это следующий логический шаг к предоставлению людям информации, на основании которой можно действовать. Мы ожидаем, что наш сервис будет пользоваться популярностью и станет одним из ключевых инструментов наиболее амбициозных компаний». Услуги Factiva по мониторингу Сети на предмет «репутации» и «отношения потребителей» обойдутся «наиболее амбициозным» в 150–300 тысяч долларов в год.

Еще более фантастические применения WebFountain видит сама IBM. Роберт Карлсон предлагает «скармливать» системе базу отчетов, презентаций и внутренних e-mail, отправляемых сотрудниками компании друг другу. По мнению вице-президента IBM, это позволит руководству получить список технологий, которые больше других обсуждаются сотрудниками, и сопоставить их с теми, которые считаются самыми перспективными и прибыльными. Следующим шагом должен стать анализ полученной информации и изменение приоритетов в работе. Очевидно, что такая услуга должна быть гораздо дешевле, нежели сервис Factiva, поскольку сомнительно, что компания, руководство которой вынуждено прибегать к таким нетрадиционным методам, дабы выяснить, чем же заняты ее сотрудники, сможет уплатить хотя бы 150 тысяч долларов в год.

Вопросы вызывает также действенность WebFountain в качестве инструмента маркетингового анализа. Дело в том, что мнение и настроение потребителей, приходящих в магазины и совершающих покупки, далеко не всегда соответствует их высказываниям в форумах, чатах и IRC. Безусловно, нельзя отрицать, что такой канал информации может быть полезен в принятии управленческих решений. Однако абсолютизировать его и ставить выше старых добрых маркетинговых исследований (как офлайновых, так и онлайновых), по-видимому, не стоит.

Что дальше?

Таким образом, официальные заявления IBM, что «WebFountain способна превратить пассивные организации-последователи в активные, живые бизнесы, быстро реагирующие на внутренние и внешние вызовы»³, нельзя назвать даже просто маркетинговыми перегибами. Очевидно, что существующие системы машинного интеллекта все еще не в состоянии ни принимать решения, ни адекватно работать со слабо- и неструктурированными данными⁴. Поэтому никакого прорыва в менеджменте от WebFountain ждать не стоит. Управлять бизнесом способны только люди, и это ни в коем случае не критика технологий IBM. Дело в общем методологическом несовершенстве систем машинного интеллекта. Но — дорогу осилит идущий, и изыскания разработчиков WebFountain на пути достижения амбициозной цели создания интеллектуального поисковика рано или поздно приблизят нас к идеалу — компьютерной системе, способной находить в терабайтах неструктурированных данных именно ту информацию, которая нужна. А уж как ею распорядиться, управленцы решат сами.

На мой взгляд, алгоритмы, лежащие в основе WebFountain, могут быть востребованы и в движках для обыкновенного Интернет-поиска. При этом перспективы перепозиционированной технологии WebFountain выглядят весьма обнадеживающе. Нынешние поисковые системы, действующие по одной и той же схеме с непринципиальными вариациями, трудно назвать идеальными. И найти необходимую информацию в Сети становится все труднее. Более ресурсоемкий, но и более эффективный с методологической точки зрения подход IBM может дать импульс развитию всей отрасли, поскольку мощность вычислительных ресурсов растет достаточно быстро и этот процесс пока не сталкивается с существенными ограничениями. Хуже обстоит дело с алгоритмами поисковиков, которые уже несколько лет не претерпевают принципиальных изменений. И если IBM все же разработает поисковый движок с использованием ключевых технологий WebFountain, это наверняка станет важным событием для всего рынка.

Скорее всего, именно так и произойдет. Несмотря на уверения руководителей проекта WebFountain об ориентации на нишу анализа бизнес-данных, очевидно, что потенциал технологии гораздо шире. К тому же рынок Интернет-поиска по объемам и темпам роста не намного уступает рынку data-mining’а, объем которого на сегодняшний день IDC оценивает в 6,46 млрд. долларов в год. Все эти аргументы позволяют ожидать адаптации технологий WebFountain для поиска в Интернете.

3 Цитата из официального описания WebFountain (www.almaden.ibm.com/WebFountain ).
4 См. тему номера в «КТ» #512 (www.computerra.ru/offline/2003/512/29641 ). — Прим. ред.