Архивы: по дате | по разделам | по авторам

Как найти дерево в лесу

Архив
автор : Игорь Бубенко   16.11.2000

Вероятно, каждый пользователь Интернета сталкивался с ситуацией, когда отыскать нужный ресурс затруднительно не потому, что ссылок по данной тематике не находится вовсе, а потому, что их слишком много. Предложить пользователю несколько тысяч сайтов по интересующей его теме - все равно, что не предложить вовсе ничего. С точки зрения разработчика поисковых систем, из этой ситуации существует, как и положено, два выхода.

  • Более подробная классификация сайтов. То есть можно попытаться определить, какой именно класс ресурсов интересует пользователя, и предложить ему более точную подборку.

  • Отбраковка малоинформативных ресурсов.

Большинство каталогов, предлагаемых поисковыми машинами сегодня, построены по традиционному принципу знаменитого Yahoo. Тем не менее, появились системы, предлагающие более интеллектуальный механизм ориентации в море ресурсов.

Новый каталог «Яндекса» основан на использовании обоих вышеуказанных способов, причем подход разработчиков к проблеме классификации принципиально отличен от традиционных решений.

Беда любой классификации в том, что чем она подробнее (чем лучше отражает многообразие классифицируемого материала), тем труднее в ней разобраться пользователю. Ибо классификатор превращается в древо с таким множеством ветвей, что угадать, на какую из них попадет нужный листик, практически невозможно. С увеличением числа рубрик в каталоге возрастает и число пограничных ситуаций, когда листик можно отнести и на одну ветку, и на другую, а в каком-то отношении и на третью. В результате проблема принадлежности ресурса к рубрике встает не только перед разработчиками каталога, но и - что гораздо хуже - перед пользователем.

Каталог «Яндекса» - первая попытка справиться с этой проблемой. Тематическое древо каталога сделано максимально простым. На первом уровне в нем всего десять тем, а число уровней в глубину не превышает четырех. Зато помимо тем в каталоге имеется ряд дополнительных признаков (фасет), позволяющих уточнить характер ресурсов, которые пользователь хочет увидеть в тематических категориях. Эти нетематические признаки характеризуют ресурсы по региону, сектору экономики, степени достоверности (источнику) информации, ее потенциальной аудитории (адресату информации) и т. д. Таким образом, во всех рубриках каталога выделены как бы стандартные подразделы, причем одинаковые во всех рубриках.

Уточнить по таким признакам свой запрос можно с любого уровня каталога, и в этом состоит его принципиальное отличие от других каталогов, где для уточнения запроса пользователь должен идти до конца по ветвистому древу тематических рубрик и преодолевать один уровень за другим, не ведая, какие именно подразделы ему предложат на следующем.

Сайты для каталога «Яндекс» отбираются по их информативности (то есть объему) и популярности, наиболее взвешенным показателем которой разработчики сочли индекс цитирования (количества ссылок на них с других ресурсов). Основу каталога составляют самые «толстые» и цитируемые сайты российского Интернета. Их список составляется с помощью базы данных поискового робота «Яндекса» (ресурсы, присылаемые для внесения в каталог владельцами сайтов, публикуются лишь выборочно - на основе тех же критериев). В рубриках ресурсы расположены в порядке убывания их индекса цитирования. Так как этот индекс не является распространенным показателем популярности сайтов, на нем стоит остановиться подробнее. Обычный показатель - посещаемость сайта - очень подвержен влиянию момента. Та же банерная реклама может дать быстрый прирост посещаемости, что приведет к перемещению сайта на первые места в каталогах, а это, в свою очередь, вызовет дальнейший рост посещаемости, причем вне зависимости от качества ресурса, ибо даже однократного посещения каждым пользователем некоего ресурса (чтобы убедиться в его бесполезности) достаточно для роста показателя. Ссылки же - показатель менее зависимый от случайных всплесков посещаемости.

И не забывайте, что ничто не мешает пользователю обратиться к контекстному поиску с любого уровня каталога, чтобы не разгребать гору мусора, не относящегося к выбранной категории.

[i36936]

© ООО "Компьютерра-Онлайн", 1997-2024
При цитировании и использовании любых материалов ссылка на "Компьютерру" обязательна.