Ищите и обрящете
АрхивТехнологииПоиск в Сети был и остается наиболее динамично развивающимся типом онлайн-сервисов. Молодые поисковики пока неспособны составить конкуренцию именитым "старикам".
Поиск в Сети был и остается наиболее динамично развивающимся типом онлайн-сервисов. Об этом свидетельствуют как частые презентации новых функций мэтрами индустрии, прежде всего Google, так и обилие оригинальных проектов от молодых доткомов, многие из которых появились в прошлом году. Попытки последних вписать свое имя в историю поисковой эволюции и, разумеется, отщипнуть кусок рыночного пирога пока нельзя назвать сверхуспешными. Пользователи из любопытства пробуют вводить запросы простым человеческим языком или рассматривают красивые картинки кластеризированных результатов поиска, однако по делу обращаются все больше к "классическим" Google, Yahoo, MSN Search, ну или Ask, на худой конец (а обитатели Рунета еще и к Яндексу).
Однако стартапы не унывают и упорно продвигают свои разработки, справедливо полагая, что если добиться всенародной популярности под своим брэндом не удастся, то всегда можно попробовать продать себя подороже какой-нибудь из вышеперечисленных акул бизнеса. Впрочем, коммерческие перспективы "новичков" интересны постольку поскольку, чего не скажешь о собственно поисковых возможностях таких проектов, по которым можно уже сегодня попробовать угадать, во что превратится интернет-поиск в обозримом будущем.
Абсолютное большинство продвигаемых стартапами сервисов можно разбить на три категории. Одни пытаются привлечь внимание улучшенным интерфейсом, демонстрируя результаты поиска в более наглядном и привлекательном виде. Вторые делают ставку на улучшенные или просто альтернативные технологии поиска, не ограничиваясь простым вычислением степени соответствия (релевантности) той или иной веб-страницы запросу или вовсе отказываясь от подобного метода. Третьи развивают различные направления вертикального поиска, то есть оптимизируют свои сервисы под нахождение определенного видаконтента — например, записей в блогах, музыкальных файлов, вакансий и резюме и т. д.
Красота и порядок
Среди сайтов, пытающихся подходить к визуализации результатов нестандартно, относительно широкую известность получили проекты Snap, Kartoo и Quintura.
Разработчики Snap использовали модный нынче AJAX для вывода в результатах поиска скриншотов найденных веб-страниц. Спору нет, беглое ознакомление с внешним видом и основными заголовками сайта нередко позволяет сразу сделать вывод о том, насколько он соответствует сделанному запросу, и, по всей видимости, наличие превью может сократить время, затрачиваемое на поиск. Но только если качество поиска будет оставаться на должном уровне. В случае со Snap этого пока не наблюдается. Релевантность и количество выдаваемых ссылок нельзя назвать удовлетворительными даже для англоязычных запросов. Компенсировать убогость движка создатели попытались, введя в поиск социальный элемент, который выражается в том, что пользователи имеют возможность влиять на рейтинг выдаваемых результатов. Для голосования необходимо под скриншотом кликнуть на "Perfect" или "Junk". Как бы то ни было, идея с предварительным просмотром результатов в виде изображений не только при поиске картинок, но и текста вызвала определенный интерес, и в Сети уже появилось несколько сайтов-клонов. Так что вполне возможно, что со временем скриншоты сайтов станут привычным атрибутом поисковиков.
Сервисы Kartoo и Quintura весьма похожи и эксплуатируют одну и ту же популярную идею графического представления связей между результатами поиска, что должно существенно упростить отбор нужных ссылок. Своих баз эти ресурсы не имеют и импортируют данные из других поисковиков. Kartoo — уже не молодой сайт, особенно по сравнению с другими экспериментаторами от поиска. Он был запущен почти пять лет назад одноименной компанией, специализировавшейся на интерактивной картографии, но по сей день сервис, несмотря на многочисленные почетные титулы и на дифирамбы компьютерной прессы, не завоевал широкой популярности. Суть его работы состоит в следующем. Когда пользователь вводит запрос, система анализирует ключевые слова, пересылает их подходящим поисковикам, выбирает из полученных результатов наиболее релевантные и помещает эти ссылки на экран в виде интерактивной карты, выстраиваемой по собственному алгоритму Kartoo. Узлами на карте являются найденные сайты, а соединительные линии представляют собой связи с ключевыми словами. При наведении курсора сайты и ключевые слова подсвечиваются, а на боковой панели появляется аннотация по заинтересовавшему ресурсу. Для визуализации была использована Flash-технология.
Для русскоязычной аудитории Kartoo особой ценности не представляет, чего не скажешь о его аналоге Quintura, созданном отечественными разработчиками. Помимо работы с сайтом через браузер, программный клиент Quintura Search можно загрузить на компьютер. Результаты поиска в этом сервисе наряду с перечнем ссылок содержат "облако" слов, по смыслу близких к запросу. Пользователь может уточнить, какая именно часть результатов (кластер) его интересует, удаляя не относящиеся к теме слова. Параллельно система будет удалять из списка соответствующие ссылки. Чтобы случайное удаление не привело к потере значимой части найденной информации предусмотрена возможность восстановления кластера. Также в Quintura предусмотрены такие функции, как сохранение результатов поиска в отдельном файле, управление точностью поиска и настройка показываемого на карте количества слов.
По умолчанию система загружает результаты с Google, Яндекса и Рамблера, но для зарубежных пользователей и отечественных "гурманов" предусмотрены плагины для поддержки Yahoo, MSN Search, блоговых поисковиков Google Blog и Technorati, а также Google Desktop. Недавно в Quintura появился поиск по картинкам. Правда, в облаке изображения не "витают", просто в списке результатов помимо ссылок теперь присутствуют и превью.
Совсем недавно получило признание еще одно нововведение, известное под названием Intent driven search, которое должно позволить поисковикам лучше понять цели и задачи пользовательских запросов без глобальных преобразований структуры работы, таких как внедрение полномасштабного семантического анализа или перехода на "человеческую" основу. Идея была взята на вооружение Yahoo, которая воплотила ее на практике в сервисе Yahoo! Mindset. Суть работы сервиса проще объяснить на примере. Допустим, пользователь вводит запрос "Rolex watches", но при этом его может интересовать как покупка часов, так и информация о компании-производителе. С помощью специального регулятора он может помочь поисковику сориентироваться, перемещая ползунок между "shopping" и "researching". Наверное, всем уже набило оскомину обилие не относящихся к интересующей теме результатов с коммерческими предложениями на каждый второй запрос, а то и чаще. Intent driven search позволяет существенно снизить остроту этой проблемы без лишних ухищрений с уточняющими запросами, использованием операторов поискового языка и т. п.
Наряду с кластеризацией результатов этот сервис, по всей видимости, вскоре станет привычным для большинства пользователей. Интересно, что прецедент с внедрением Intent driven search уже есть и в Рунете. Соответствующей возможностью обзавелся молодой поисковик Webalta, на котором релевантность регулируется сразу по двум шкалам: "внешние факторы - контент' и "текст на сайте - текст ссылок".
Разделяй и властвуй
Следующий проект - SearchMash выглядит менее красочным, но гораздо более жизнеспособным, особенно если учесть, что этот ресурс, по сути, представляет собой не что иное, как испытательный полигон Google, на котором дотком оттачивает свои текущие разработки. В основном это мелкие улучшения интерфейса, вроде возможности скрыть/показать аннотации к выдаваемым в результатах линкам или вывести весь список в одну страницу. Но есть и более оригинальные новшества - например, кликом правой кнопки мыши по ссылке вызывается контекстное меню, в котором пользователь может выбрать: открыть ему страницу в этом или новом окне, загрузить сохраненную копию, получить больше результатов с этого сайта или больше похожих страниц. Имеется и другая интересная "фишка" - при выводе результатов поиска, наряду с общим списком ссылок, в боковой панели появляется перечень найденных по заданным ключевым словам картинок, блоговых записей, видеороликов и статей в Википедии. Причем грузится все это великолепие моментально. Не обошлось и без обратной связи с пользователями, которых спрашивают, удовлетворили ли их результаты по каждому типу контента.
Ресурс Clusty можно назвать, пожалуй, самым продвинутым поисковиком, использующим кластеризацию результатов. Особых графических изысков там нет, но ограничить круг выдаваемых ссылок необходимым и достаточным минимумом этот сервис позволяет на раз. Интерфейс во многом напоминает SearchMash - в частности, сбоку от списка результатов располагается панель с разделами. В отличие от "гугловского" детища там расположены не фиксированные фильтры по виду контента, а динамически генерируемые названия кластеров, содержащих ссылки на тематически схожие документы с указанием количества результатов. Так, на запрос "Bush" система предлагает подборки под грифами "Iraq, Troops", "Family", "White House", "Anti-Bush", "Impeach" и т. д. Помимо кластеров составляются подборки по источникам информации и их доменным зонам (com, gov, uk и пр.).
Среди других "кластерных" проектов, получивших известность, можно отметить сервис Vivisimo и соответствующую возможность в достаточно крупном поисковике Ask. Схожая функциональность имеется и у отечественного поисковика Nigma.ru. Сервис позволяет искать одновременно через Google, Yahoo, MSN, AltaVista, Яндекс, Рамблер, Апорт, а также по собственной технологии. Поисковики, которыми вы не хотите пользоваться, можно отключить, а ненужные результаты поиска отсеять, отметив галочками нежелательные кластеры и нажав на кнопку "Применить фильтр".
Как видно, немалая часть новых проектов в сфере интернет-поиска опирается именно на идею кластеризации выдаваемых результатов в той или иной форме. В то же время для того, чтобы такой сервис получился действительно качественным и востребованным, явно недостаточно простой сортировки чужих результатов поиска. Возможностей для анализа импортированных данных гораздо меньше, чем при классификации "собственноручно" проиндексированных веб-страниц. Так что нынешние опыты стартапов вернее расценивать в качестве имиджевых решений, разработанных для привлечения внимания инвесторов, а для дальнейшего развития таким доткомам придется развивать собственный поисковый движок или уступить место под солнцем крупнейшим поисковикам, которые рано или поздно сами обзаведутся соответствующей функциональностью.
Очевидно, что поиск видеороликов, аудиоконтента и изображений в Сети на основе анализа сопроводительного текста нельзя назвать особенно эффективным. Над проблемой более адекватных методов индексирования мультимедийного контента уже несколько лет бьются и крупные доткомы со стажем, и стартапы, так что определенный прогресс в этой сфере имеется. В основном задача решается за счет преобразования речи в аудиодорожке в текст, который и добавляется в индексную базу.
А вот с картинками все сложнее. Относительно успешными можно назвать лишь опыты команды Riya (фотохотсинг). Над решением работала группа программистов, ученых и инженеров, специализирующихся на технологиях распознавания изображений. В основе алгоритма поиска Riya лежит принципиально новая система, способная распознавать на фотографиях текст и лица людей. Для работы с сервисом нужно скачать с сайта специальный софт, который проиндексирует все фотографии, хранящиеся на жестком диске. Приложение нужно "обучить", выделив лица на нескольких фотографиях и введя имена изображенных на снимках людей. После этого программа самостоятельно распознает оставшиеся изображения, подпишет их и проиндексирует.
Осмысленный поиск
Среди многочисленных подходов к улучшению качества поиска фаворитами у разработчиков и, что важнее, инвесторов считаются "интеллектуальные" системы, которые стараются "понять", что хочет найти пользователь. К этой группе иногда причисляют и сервисы, принимающие запросы на "натуральном" языке. В той или иной мере такие вопросы умеют распознавать и традиционные поисковики. Так, Яндекс с недавних пор рекомендует посетителям начинать запрос со слов "что такое", если они хотят получить в первую очередь определение введенного слова. Однако интерес вызывают попытки создать более глобальные решения, понимающие не отдельные вопросы фиксированной формы, подборка которых заранее обозначена разработчиками, а достаточно широкий и неопределенный круг пользовательских высказываний.
И здесь в качестве самого нашумевшего проекта можно назвать сервис Hakia, работа над которым еще не закончена, но который уже успел засветиться в авторитетных источниках как один из первых ресурсов эпохи семантического веба. Hakia выдает ответы на самые разные вопросы, заданные натуральным (хотя пока и только английским) языком. Результаты выводятся в следующем виде. В верхней части располагается прямой ответ, а также оценка понятности вопроса, ниже следует список прочих результатов поиска. В частности, на вопрос "Who is Mr. Putin?" система ответила, что все о президенте, его жизни и карьере со множеством картинок найдется по прилагаемой ссылке (нашлось, кстати), а сам вопрос оценила, как "великолепный". В менее простых случаях сервис выдает перлы вроде "Надеюсь, мы на верном пути". Спросив, какая погода в Москве, я получил информеры с прогнозами, а также предложение сделать запрос "Moscow Russia", по которому система выводит список ссылок разбитых на кластеры "Новости", "Описание города", "Как добраться", "Местный транспорт", "Путеводители по отелям" и т. д.
Описывать все "фишки" Hakia можно долго, но вместе с тем хотелось бы отметить, что многие пользователи уже обзавелись новым хобби - ставить своими вопросами систему в тупик, что сделать пока не так трудно. Однако внушает уважение сама идея семантического анализа веб-страниц при индексировании, попытка оценить смысловое значение вопроса и сделать что-то большее, нежели банально отыскать ключевые слова в базе сохраненных веб-страниц с учетом их положения в тексте и "авторитетности" сайта. Проекту уже удалось привлечь более $30 млн.
Во многом напоминает Hakia другой стартап, Powerset, разработчики которого презентовали свой поисковый движок в октябре прошлого года и пока собрали только $12,5 млн. Об алгоритме работы Powerset известно немного. Создатели говорят лишь о том, что при анализе запросов система учитывает пропускаемые обычными поисковиками слова, в первую очередь предлоги. Это позволяет существенно повысить качество выдаваемых результатов. Например, пользователь получит совершенно разные ответы, введя "books by children" и "books for children".
Live.com, не так давно выбравшийся из бета-статуса, можно назвать очередной попыткой Microsoft поколебать позиции Google. Сайт стал достижением для самой вермонтской корпорации, но пользователей персонализированным поиском уже не удивишь, и примечательным ресурс оказался исключительно в плане поиска изображений (image.live. com).
Количество и размеры картинок, отображаемых в списке результатов, можно менять динамически (без перезагрузки страницы), просто перемещая соответствующий бегунок. При наведении курсора на одну из превью изображение увеличивается, и пользователю показываются название файла, ссылка на источник, разрешение и объем. Ну и в рамках общей увлеченности интерактивом там же имеется предложение отправить в службу техподдержки Live.com отзыв на картинку. Зачем им эти отзывы и на какого рода сообщения они рассчитывают, остается загадкой. Однако в целом подход Live.com к демонстрации результатов графического поиска выглядит весьма привлекательным, и, хоть и с какими-то модификациями, но наверняка будет взят на вооружение конкурентами.
Кадры решают все
Еще одной альтернативой нынешнему поиску в Сети считается привлечение человеческого ресурса. Самой яркой картинкой удачного использования социальных возможностей является небезызвестный del.icio.us1. Ресурс изначально задумывался как собрание подборок ссылок, снабженных тегами. Однако по мере расширения базы сайта становился очевидным поисковый потенциал сервиса. В системе хранятся данные по каждой ссылке, в том числе количество пользователей, хранящих линк в своем "Избранном". Такой показатель является как минимум не менее адекватным отражением "качества" сайта, нежели PageRank от Google, так как поисковая оптимизация в данном случае бессильна. И кроме того, социальная ориентированность сервиса открывает новые возможности, позволяя, например, посмотреть, какие еще сайты по выбранной тематике пользуются популярностью у пользователей. По сути, речь идет о возвращении поиска в каталогах, который постепенно утратил симпатии пользователей, поскольку автоматически составляемые поисковиками подборки ссылок и методика вычисления рейтингов нередко мало соответствуют реальной популярности ресурсов.
Учитывать общественное мнение при определении рейтинга того или иного сайта планирует и создатель Википедии Джимми Уэльс (Jimmy Wales). Он обещает в нынешнем году запустить новый поисковик Wikiasari, который составит конкуренцию Google. Уэльс считает, что сервис «доткома №1» не свободен от критически серьезных недостатков, что им фактически манипулируют спамеры и получить адекватный результат на запрос зачастую невозможно. Мнение "отца" Википедии по поводу корня проблемы не оригинально - алгоритм, основанный на "машинном интеллекте", в принципе не способен отвечать пользовательским потребностям. Компьютер не может принять решение, хорош сайт или нет, но человек разберется в этом с первого взгляда. Новый проект останется верен wiki-принципам. Результаты поиска в системе будут базироваться на сведениях, предоставляемых пользователями. Первые три ссылки в результатах поиска Wikiasari приведут на страницы онлайн-энциклопедии. Сам же движок поисковика обещают сделать общедоступным в рамках GFDL-лицензии. Однако до конца преданным идеалам open source поисковик все же не останется. На Wikiasari будет размещаться реклама.
Другой вариант с использованием человеческого ресурса предлагается в рамках проекта ChaCha, перспективы которого, впрочем, туманны. Разработчики надеются на то, что нуждающимся в онлайновом поиске придется по вкусу помощь десяти тысяч их "продвинутых" коллег, которые через IM-клиент будут консультировать посетителя и вместе с ним выискивать необходимую информацию. Но очевидно, что это весьма не дешевый вариант ("эксператм" платят по $5 в час), и к тому же работает сервис пока торопливо.
Вряд ли кто-нибудь решится предположить, что будущее поиска в Сети принадлежит сервисам, специализирующимся на нахождении специфического контента или информации определенной тематики. Однако свою часть рынка вертикальные решения в обозримом будущем вполне могут увеличить, поскольку сервисы "общей направленности" не очень хорошо справляются с такими задачами. Не случайно все тот же Google обзавелся отдельным проектом по поиску в блогах, что, однако, не смогло сильно поколебать позиции соответствующего независимого сервиса Technorati и ряда других ресурсов, специализирующихся на RSS-контенте. Также довольно уверенно чувствуют себя на рынке вертикального поиска сайты, посвященные вакансиям и резюме (SimplyHired, Indeed - в мире; Jobs.ru, HeadHunter - в Рунете), предложениям туроператоров (Sidestep, Kayak и Travel.ru, Turist.ru соответственно), объявлениям (Edgeio, Oodle) и исходным кодам программ (Koders.com, Krugle и, кстати, Google Code).
- Из журнала "Компьютерра"