Киборги
АрхивЯ еще в жизни не слыхивал, чтобы собака могла писать.
Правильно писать может только дворянин.
Н. В. Гоголь. «Записки сумасшедшего»
Эволюция поисковых систем привела к появлению гибридных конструкций - еще не людей, но уже и не машин. Киборги стали реальностью, перейдя из фантастических боевиков в Интернет.
В первых поисковых машинах, так называемых автоматических индексах, не было ничего человеческого. Они тупо старались обойти весь Интернет и, как гигантские пылесосы, засасывали все, что встречали на своем пути. Все добытое заносилось в специальную базу данных, где можно было искать слова или фразы, получая в ответ адреса документов. Эти адреса машина пыталась сортировать, то есть на основе анализа текста странички определять ее «важность» и соответствие запросу. Естественно, сразу нашлись желающие обманным путем занять первые места в результатах поиска 1, и война между поисковыми системами и хозяевами сайтов затянулась на долгие годы.
Сейчас алгоритмы сортировки «поумнели», их уже не обмануть буквами, которые сливаются с фоном, или повторением ключевых слов в метатегах. Но машина по-прежнему не может мыслить, и ей невдомек, что фраза «to be or not to be» имеет отношение к Шекспиру, она не имеет понятия о различных значениях слов, и «queen» для нее - всего лишь пять идущих подряд чисел.
Правильно мыслить может только человек. Но оказывается, некое подобие мыслящего существа можно сконструировать на основе автоматического анализа миллионов запросов к поисковым системам. Во-первых, можно отслеживать, какие сайты, найденные по определенному набору слов, чаще всего посещаются. Эта идея давно реализована в рейтингах. Но можно пойти дальше и следить за тем, сколько времени проводит ищущий на сайте 2. Более того, следя за поведением ищущих, можно связать одни ключевые слова с другими, и получится постоянно меняющаяся сеть ключевых слов, в которой и заключен коллективный разум.
Посмотрим, как реагирует на запросы Direct Hit - одна из самых известных систем нового поколения. Поискав в ней фразу «to be or not to be», получим странный набор адресов, в котором, правда, уже на третьей позиции окажется страничка, связанная с Шекспиром (см. рис. 1). Но что самое удивительное, в разделе «Related Searches» вместе с упоминанием сотовых телефонов (Cellular Phones) появятся и слова «William Shakespeare». То есть система обладает пусть примитивным, но разумом. И пусть ее ответ на фразу «to be or not to be» недостаточно четок. Важно то, что слов «Shakespeare» и «Cellular Phones» не было в первоначальном запросе.
Методы, используемые в системах, подобных Direct Hit, можно назвать цифровой демократией, здесь большинство определяет, какие сайты показывать в ответ на те или иные запросы, и оно же формирует «Related Searches» - свой собственный образ. Многие Related Searches сильно помогли бы социологам в анализе психологии толпы и ее скрытых желаний. Посмотрим, например, как реагирует другая, похожая на Direct Hit, система NBCI на невинное слово «pictures». Тут (см. рис. 2) не только «funny pictures» и «humorous pictures», но и «sexy actresses» и даже «sexy pictures of jennifer lopez». То есть люди ищут совершенно определенные картинки, но стесняются прямо об этом сказать.
Системы, аналогичные Direct Hit и NBCI, называются Popularity Engines, потому что они показывают первыми те сайты, которые нравятся большинству. Но в этой игре могут участвовать только первые 50-60 сайтов. Остальные никто не выберет, и если их искусственно не ставить на первые места, так и пропадут в безвестности. Получается, что цифровая демократия касается лишь тонкой аристократической прослойки сайтов.
Но уж если сайту удается каким-то образом всплыть и оказаться на первых местах, он получает огромное преимущество и, даже перестав работать, может месяцами оставаться в первой десятке. Например, в системе NBCI по слову «FAQ» на первом месте в результатах поиска стоит сайт www.faqs.org - очень известное хранилище часто задаваемых вопросов. А вот сайт ps.superb.net/FAQ, который вот уже два месяца «временно закрыт на обновление ссылок и переиндексацию», переместился за это время с первого места всего на третье.
Понимая все недостатки цифровой демократии, некоторые поисковые системы предпочитают «правление экспертов». Самыми древними системами такого рода были тематические каталоги вроде Yahoo, где специальные редакторы отбирали «самые лучшие» сайты и помещали их в соответствующий раздел. Но скоро выяснилось, что новых сайтов слишком много и редакторы не в состоянии пропустить через себя их бесконечный поток.
Тогда решили, что редакторы могут составить «каталог понятий», и выработали правила, по которым найденный сайт будет отнесен к одному из них. Такой подход используется в системе Northern Light, где найденные сайты динамически раскладываются по папкам. Выбирая какую-то папку, мы получаем новое деление - и так до тех пор, пока не будет найден нужный сайт (или станет ясно, что зашли в тупик). Слабая сторона такого подхода в том, что не только машинный алгоритм, но и мы сами часто не знаем, к какому разделу отнести тот или иной сайт. Многие философские документы можно отнести к разделу «религия».
Другое очевидное применение экспертов - составление словаря значений слов. Когда обычная поисковая система ищет слово «queen», она не знает, что имеется в виду - королева или же популярная рок-группа. В системе Oingo можно выбрать определенное значение слова или нескольких слов и искать только сайты, отвечающие этому значению (рис. 3).
Можно привлечь экспертов и к составлению некоего рафинированного варианта «Related Searches», то есть системы связанных понятий. Такой подход реализован в метапоисковой системе SurfWax, где есть специальная кнопка «Focus», нажав которую, можно получить понятия (более общие и частные), связанные с введенным словом (рис. 4). Систему таких понятий можно использовать не только при поиске, но и как предельно краткое учебное пособие по всем областям знаний.
Нечто подобное реализовано и в другой популярной системе - AskJeeves. В ней понятия, разработанные экспертами, соединены с ответами на более чем 7 млн. вопросов, которые тоже готовят эксперты. Несколько десятков экспертов, работающих в AskJeeves, постоянно пополняют коллекцию вопросов и ответов на них, естественно, с учетом задаваемых вопросов.
AskJeeves способна понимать как отдельные слова, так и фразы. Если ввести в поле поиска слово «beatles», появятся ответы на самые популярные (с точки зрения экспертов) вопросы, связанные с этим словом. Но можно ввести в поле поиска настоящий вопрос, например, «Who is Mr Putin?» - и вам покажут адрес сайта с биографией российского президента.
Эксперты, работающие в AskJeeves, делают вручную то, что автоматически выполняет Direct Hit. Система понятий нуждается в постоянной починке. Интенсивность связей между понятиями будет со временем меняться, некоторые связи будут укрепляться, некоторые - ослабевать, некоторые - возникать вновь. Например, фраза «kenneth starr» связана со словами «monica lewinsky» и «bill clinton». Но со временем эти связи будут слабеть, и редакторы в конце концов удалят из базы данных слова «kenneth starr» и «monica lewinsky». Останется только «bill clinton».
И наконец, еще один демократический принцип, который все чаще применяется поисковыми системами нового поколения. В качестве «голоса» здесь используется ссылка, и первыми показываются те сайты, на которые больше всего ссылок. Правда, самая известная система этого типа Google отошла от чисто демократического принципа «одна ссылка - один голос». При учете голосов Google использует избирательный ценз: ссылка с Yahoo ценится гораздо выше, чем ссылка с домашней странички Васи Пупкина. Подход Google очень хорошо зарекомендовал себя, и уже многие поисковые системы начинают учитывать число ссылок при формировании результатов поиска. Из наиболее известных упомянем Excite и AltaVista.
Цифровую демократию, реализованную в поисковых машинах нового поколения, многие эксперты по информационным технологиям называют «тиранией большинства» за то, что ищущий имеет дело с неким виртуальным интеллектом - коллективным разумом толпы, то есть с существом, которое глупее и примитивнее любого человека из этой самой толпы. Коллективный разум предлагает нам уже готовые, одобренные большинством решения, он предлагает нам тропы, протоптанные слонами, и не дает свернуть на узкие тропинки, где нас ждут, быть может, немыслимые богатства.
Все это так. Но поисковые системы нового поколения предназначены не для самостоятельных путешествий. Они созданы, чтобы помочь подавляющему большинству населения Интернета быстро решить простые, всем понятные задачи: найти тексты Шекспира или Beatles, сайты, где есть прогнозы погоды или информация о банковских услугах.
Более сложные задачи нужно решать самостоятельно и другими средствами. На мой взгляд, для этого больше всего подходят AltaVista, метапоисковая система IxQuick и (для поиска документов на русском языке) - Yandex.
Литература
[1] Lisa Guernsey. «The Search Engine as Cyborg».
[2] Dale J. Vidmar. «Darwin on the Web: The Evolution of Search Tools».
[3] Laura Cohen. «Second Generation Searching on the Web».
[i37944]
1 (обратно к тексту) - На первых порах помогала простая подстановка: нужно было скопировать первый документ, найденный по заданному слову или фразе, чуточку изменить его и затем представить поисковой системе как свой собственный. Как только документ осел в памяти поисковой машины, его можно заменить на любой другой - и первое место в результатах поиска обеспечено (до того момента, пока ваши действия не повторят конкуренты).
2 (обратно к тексту) - Можно изменять промежуток времени между входом на сайт и выбором следующего адреса.