Архивы: по дате | по разделам | по авторам

Обозреватель

автор : Евгений Золотов 24.03.2003

Современные поисковые машины не поспевают за ростом Сети: через Yahoo!, Google или AltaVista доступна в лучшем случае треть документов, хранящихся в интернете. Но способ исправить это есть - и работа над поисковиком, способным отслеживать всю Сеть в реальном времени, уже идет.

Оценки количества документов в сегодняшней Сети разнятся, но с цифрой 10 миллиардов согласны многие: да, число страничек в Интернет уже давно превысило численность населения планеты Земля. И рост неутомим - каждый день здесь появляется или обновляется ещё около миллиона страничек. Охватить всё это великолепие не в силах ни одна поисковая машина. Посмотрите на Google, в базе которой всего лишь три с небольшим миллиарда документов и добрая половина из них не соответствует действительности, поскольку давно не проверялась на предмет изменений. Есть ли выход из этой ситуации? Есть. Нужно позвать на помощь рядовых сетян, добровольцев, которые помогут привести базы данных поисковиков в нормальный вид, пожертвовав своё время или ресурсы своих машин.

Идея не новая - впервые она была воплощена в код почти два года назад. Сделали это четверо энтузиастов, объединившихся в рамках проекта Grub. По сути своей, Grub - распределённая поисковая система (часть её кода, кстати, опубликована под лицензией GPL), в которой основная роль отводится не владельцам, а пользователям. Если в обычных поисковых машинах "рытьём" Интернет-контента занимаются программы, работающие на серверах, принадлежащих владельцам машин (такие программы зовутся роботами или пауками - начав с одной странички, они переходят по всем обнаруженным на ней ссылкам, индексируя контент в базе данных поисковика), то в Grub этим занимается программа-клиент, работающая на компьютерах пользователей-добровольцев. Регистрируясь в системе, юзер устанавливает себе программу, которая время от времени связывается с центральным сервером Grub, получает список URL-адресов, требующих индексации или проверки, делает всю необходимую работу (естественно, через Интернет-канал пользователя) и отсылает конечные результаты на сервер. Экономия вычислительных мощностей огромная, но много важней экономия времени: теоретически, таким образом можно в реальном масштабе времени отслеживать состояние всей Сети. Идеальная поисковая машина, иначе говоря. Но что же мешает её развитию - ведь два года спустя после рождения в ней всего 18 миллионов документов и сотня с небольшим активных пользователей?

Популярные распределённые системы вроде SETI@Home, RC5 и им подобные изначально обладают очень важным свойством - т.н. фактором гика, делающим их привлекательными для типичных компьютерных пользователей: поиск инопланетян, лекарства от рака или тайного криптоключа интересны миллионам человек. Задача рутинной индексации Сети, увы, этого достоинства лишена. Grub может быть действительно интересен лишь владельцам сайтов или серверов (где размещено множество сайтов) - жаждущих скорейшей индексации их виртуальных территорий поисковой системой. Чтобы популяризовать Grub среди рядовых пользователей, нужны деньги. К счастью, время Grub пришло. Как выяснилось на днях, в январе компания LookSmart (известная по поисковикам LookSmart и WiseNut) приобрела Grub за 1.3 млн. долл. в акциях. В апреле технология и база Grub будут подключены к двум поисковым машинам LookSmart, после чего, наверняка, придёт и известность: достаточно известные в деловой среде поисковики LookSmart популяризуют идею, а общим результатом станет появление идеальной поисковой машины - которую мы построим своими руками. Получится? Подключайтесь к дискуссии, обсудим!