Архивы: по дате | по разделам | по авторам

Ищите и найдете

Архив
автор : Сергей Голубицкий   08.02.2000



Еть неистощимые темы, и поиск информации - одна из них. В девяти письмах из десяти читатели спрашивают меня, где найти то-то и то-то в Интернете. Если абстрагироваться от низменности страстей (спрашивают почти исключительно о крэках и пиратских копиях программ, которые я описал в "Голубятнях"), тема никогда не теряет актуальности: как же все-таки перелопачивать массивы информации в мировой компьютерной сети?


Существует несколько софтверных решений, которые я выстрадал методом тыка и бессмысленного засорения реестра своих форточек, и теперь готов поделиться ими.

Почему-то во всех самоучителях всякие рекомендации начинаются и заканчиваются на поисковых машинах (search engines). На самом деле использование всяких там хотботов, ях, гуглов и рамблеров - это лишь пубертатный период всякого серьезного поиска. Обычно отчаяние наступает уже после первой попытки, когда даже самый распрекрасный поисковый сервер выплевывает на экран сотни тысяч, а то и миллионы вебстраниц в ответ на ваш скромный запрос. Делать с этими страницами ровным счетом нечего. Еще отец семиотики, так сильно опопсовевший в 90-е годы Умберто Эко, заметил, что десятки тысяч референций обессмысливают всякий поиск уже по определению.

И тут на помощь приходят софтверные решения. Первым шагом вашего возмужания должны стать так называемые searchbots, программы, сканирующие сразу несколько поисковых машин. На самом простом уровне идея синтеза поисковых систем реализована в самом Интернете на сайте a href="http://www.metacrawler.com" target="_blank">www.metacrawler.com. "Метакроулер" рассылает запросы сразу на десять поисковых машин (AltaVista, Excite, Infoseek, Lycos, WebCrawler, LookSmart, Thunderstone, GoTo.com, About.com, DirectHit). Зачем он это делает, я не очень понимаю, ну да ладно.

Настоящие серчботы не просто механически множат поисковые системы, но и пытаются как-то обработать полученную информацию, придать ей хоть какую-то практическую ценность.

Простых серчботов, согласно "Депо Давида" (www.davecentral.com), - бессмысленная прорва. Я назову, на мой взгляд, самый интересный - это Copernic 2000 Pro (www.copernic.com).

Как и положено серчботу, "Коперник" посылает запросы не на одну поисковую машину, а на несколько. "Коперник" делит запросы на категории: веб, конференции новостей, почтовые адреса, бизнес и финансы, покупка книг, компьютерного железа и софта, покупка машин, энциклопедии, игры, фильмы, здоровье, юмор, картинки, файлы, mp3 и мультимедиа. Всего категорий - 50, а для поиска используются 400 поисковых систем. Любители "Метакроулера", как говорится, - почувствуйте разницу!

Очень полезная примочка "Коперника" - это tracking, возможность динамического отслеживания и обновления запросов с последующим уведомлением пользователя по электронной почте в случае, когда появляются новые результаты поиска.

Как и всякий уважающий себя серчбот, "Коперник" предоставляет джентльменский набор:

- автоматическое удаление дубликатов поиска;

- отбрасывание недоступных и неправильных линков;

- использование простых булеановых операторов (AND, OR, EXCEPT, NEAR);

- генерирование отчетов с результатами поиска в html;

- количественное измерение релевантности результата (scoring).

Короче говоря, "Коперник" - неплохая машинка "младшего среднего класса" (типа "Вектры"). Однако для серьезного поиска "Коперник" (и, само собой разумеется, обычные поисковые машины), конечно же, не подойдет.

Неудачную попытку преодолеть примитивность простых серчботов мы находим в Mata Hari Pro 2.0 (www.thewebtools.com). "Мата Хари" гордо извещает о шестистах поисковых системах, которые она обрабатывает, но, видимо, на них она и надорвалась, поскольку ни один поисковый процесс японская шпионка так и не довела до конца - либо сама зависала, либо подвешивала компьютер, либо давала тайм-аут по запросам. Короче, упаси вас бог!

Но не расстраивайтесь, есть тут и настоящий "Бугатти" - уникальный поисковик-тяжеловес - программа WebSleuth [1] (www.promptsoftware.com).

WebSleuth изготавливает образцовая "норная" компания [2/a>] Prompt Software. Ее нет ни на "Двух Коровах", ни на "Страуде". В "Депо" она есть, но на то оно и "Депо". Prompt Software по делу и без оного постоянно намекает на свое цээрушное происхождение. Судя по тому, на что способен WebSleuth, я склонен поверить.

WebSleuth не простой серчбот, а серьезный аналитический инструмент, годящийся не только для поиска, но и для анализа (в том числе, и эвристического) смыслового контента. В отличие от рядовых поисковиков, он берет не числом, а умением (обрабатывает "только" 36 engines). Это и естественно: ведь основной акцент делается на обработку полученной информации, а не поставку угля на-гора.

Что же делает WebSleuth? Он не только выдает список линков по ключевому слову, но и производит полную индексацию всех слов и словосочетаний (с указанием кросс-референций на их местоположение на вебстраницах), которые затем можно просматривать, как энциклопедию. Насколько полезным оказывается результат поиска, невозможно описать в короткой колонке - стоит обязательно самому попробовать.

Чрезвычайно полезным оказывается не индекс слов, а именно индекс словосочетаний и фраз. В результате такого подхода осмысленность поиска получает иное качественное звучание. Следует заметить, что на индексацию у WebSleuth уходит порядочно времени (минимум 10-15 минут), однако выдаваемые результаты практически сразу позволяют выйти именно на ту информацию, которая вам нужна.

В заключении добавлю, что WebSleuth позволяет динамически сужать зоны поиска, уточнять запросы (с помощью полного набора булеановых операторов), обрабатывать информацию на всех европейских языках, работать через прокси-серверы, а также сайты, закрытые паролем.





1 (обратно к тексту) - Я слышал такие страшные варианты произнесения "WebSleuth", что, от греха подальше, сразу укажу правильный: "вебслус".

2/a> (обратно к тексту) - О "норушках" я писал в предыдущей "Голубятне" (см. "КТ" #328).



© ООО "Компьютерра-Онлайн", 1997-2024
При цитировании и использовании любых материалов ссылка на "Компьютерру" обязательна.