Архивы: по дате | по разделам | по авторам

Ищут пожарные, ищет милиция...

Архив

автор : Михаил Брауде-Золотарев 22.06.1999

Поделитесь секретами мастерства! Как вы ищете в Сети? Как выбираете поисковую машину? Как находите ключевые слова? Как сортируете тот поток, который она на вас в ответ обрушивает?

Справиться с объемом исключительно трудно. Считается, что в день к имеющимся в Сети трем-четырем сотням миллионов страничек добавляется около миллиона новых общим объемом около 20 Гбайт. За пару лет информационный объем Сети возрос на несколько порядков, и несчастные пользователи в буквальном смысле перегружены информацией.

Бросая через плечо, - "воспользуйся любой поисковой машиной" (которые, кстати, индексируют лишь около 30-40 процентов ресурсов Интернета), - на вопрос неопытного приятеля: "а где об этом и о том можно узнать?", - ловишь себя на мысли, что не очень-то красиво так небрежно отмахиваться от человека. Легко сказать "воспользуйся", ведь иной раз иголку в стоге сена найти проще (которую, кстати, можно пытаться магнитом поискать, а вот попробуйте найти магнитом нужную соломку в стоге сена).

Образовалась целая культура - как искать, как сортировать, как отбрасывать лишнее, осталось только проводить "поисковые" соревнования по сетевому ориентированию по аналогии с ориентированием спортивным. Нечто подобное, кстати, имеет место по адресу... впрочем, вы и сами легко его найдете.

А ведь за ставшими привычными словами об информационном росте Интернета скрывается смена концепции: вместо поиска способов доступа к нужной информации постепенно и подспудно цифровой мир переходит на отбраковку, фильтрацию ненужной. Грубый и примитивный шпионаж все больше замещается аналитикой, работающей преимущественно с открытыми источниками, - что у любознательных фирм, что у государств. Дешевизна копирования и практическая трудность привязки информации к носителю резко увеличивают вероятность наличия любого ресурса в открытом доступе...

В свое время было предпринято несколько попыток спроектировать "машины" полностью ручного поиска, в которых интеллектуальную часть работы выполняли бы спорые руки человека. На вопрос, можно ли таких на все руки мастеров отыскать, да еще чтобы на всех хватило, я вам отвечу: конечно, нет, хотя о паре попыток слышал, а одной (студенты какого-то американского университета вручную обрабатывали запросы и делали по ним сводки; видимо, то была курсовая или дипломная работа, так как после выпуска проект благополучно закрылся, и я потерял его следы) несколько лет назад даже пытался воспользоваться. Пример самой популярной в Сети искалки-рубрикатора - Yahoo, каталог ресурсов в которой поддерживается вручную несколькими десятками операторов, тем не менее, свидетельствует в пользу "ручных" или "полуручных" методов.

Вчера, потратив около пяти минут, я нашел целых три ручных поисковых ресурса, из которых один на запросы не откликался, другой больше ничего не ищет и продает свое доменное имя, а третий всего лишь предлагает посетителям отвечать на запросы друг друга, поддерживая своеобразный рейтинг наиболее успешных ищеек-активистов. Среди самых популярных вопросов - о смысле жизни и как приворожить полюбившуюся особу...

Затем, просматривая научные публикации об автоматизированной интеллектуальной обработке больших объемов информации, я обнаружил, что в статьях в каждой второй строчке содержится заветная цель-лозунг, похожая на заклинание: "avoid irrelevant" ("избегать нерезонного"). Ядро поисковой системы Clever (не единственный, но наиболее известный среди проектов интеллектуальной обработки, ведомый, кстати, IBM) непосредственно оперирует этой идеей, упрощенно состоящей в разбиении операции поиска на две части: начальный сбор ресурсов по заданным пользователем ключам (вполне стандартная процедура) и - на втором этапе - их анализ на резонность и сортировка на две группы - "авторитетных" ресурсов и "мусора". Опять-таки упрощая (ухищрений придумано довольно много, и их реальная полезность выявится только в процессе эксплуатации), можно сказать, что для отнесения ресурса к авторитетным сайты первого круга должны "голосовать" за него своими гиперссылками. Затем отобранные таким образом "авторитеты" собственными гиперссылками становятся источниками новых, потенциально резонных ресурсов. В качестве математического аппарата используются стохастические методы, моделирование Сети в качестве многоузлового графа и многое другое... На бумаге и экране идея смотрится красиво и просто... Если заинтересовались - ищите в Сети подробности (а также см. новость в этом номере "Продажный каталог").

Кстати, ключевая идея описанной методики очень напоминает принятый в научном мире способ вычисления "авторитета" ученого путем подсчета числа обсуждающих его публикации статей (заметьте, числа обсуждений публикаций, а не самих публикаций!).

А у нас (как и у вас, вероятно) лето в разгаре, жарко (очень!), редакция разъезжается - никакая искалка найти не поможет. Не успел один "турист" вернуться из Тайваня, а другой из Калифорнии, как очередной путешественник отправился в Тунис... И ведь, что самое обидное, уверяют, будто едут в командировки, то есть работать. Но фотоаппараты с собою берут, а потому ждите в ближайших номерах фото- и иных отчетов из дальних стран. Начиная прямо со следующего.

Несколько интересных ссылок:

searchenginewatch.com/facts/index.html

www.humansearch.com

www.almaden.ibm.com/cs/k53/clever.html

http://cuiwww.unige.ch/meta-index.html