Как найти дерево в лесу
АрхивВероятно, каждый пользователь Интернета сталкивался с ситуацией, когда отыскать нужный ресурс затруднительно не потому, что ссылок по данной тематике не находится вовсе, а потому, что их слишком много. Предложить пользователю несколько тысяч сайтов по интересующей его теме - все равно, что не предложить вовсе ничего. С точки зрения разработчика поисковых систем, из этой ситуации существует, как и положено, два выхода.
-
Более подробная классификация сайтов. То есть можно попытаться определить, какой именно класс ресурсов интересует пользователя, и предложить ему более точную подборку.
-
Отбраковка малоинформативных ресурсов.
Большинство каталогов, предлагаемых поисковыми машинами сегодня, построены по традиционному принципу знаменитого Yahoo. Тем не менее, появились системы, предлагающие более интеллектуальный механизм ориентации в море ресурсов.
Новый каталог «Яндекса» основан на использовании обоих вышеуказанных способов, причем подход разработчиков к проблеме классификации принципиально отличен от традиционных решений.
Беда любой классификации в том, что чем она подробнее (чем лучше отражает многообразие классифицируемого материала), тем труднее в ней разобраться пользователю. Ибо классификатор превращается в древо с таким множеством ветвей, что угадать, на какую из них попадет нужный листик, практически невозможно. С увеличением числа рубрик в каталоге возрастает и число пограничных ситуаций, когда листик можно отнести и на одну ветку, и на другую, а в каком-то отношении и на третью. В результате проблема принадлежности ресурса к рубрике встает не только перед разработчиками каталога, но и - что гораздо хуже - перед пользователем.
Каталог «Яндекса» - первая попытка справиться с этой проблемой. Тематическое древо каталога сделано максимально простым. На первом уровне в нем всего десять тем, а число уровней в глубину не превышает четырех. Зато помимо тем в каталоге имеется ряд дополнительных признаков (фасет), позволяющих уточнить характер ресурсов, которые пользователь хочет увидеть в тематических категориях. Эти нетематические признаки характеризуют ресурсы по региону, сектору экономики, степени достоверности (источнику) информации, ее потенциальной аудитории (адресату информации) и т. д. Таким образом, во всех рубриках каталога выделены как бы стандартные подразделы, причем одинаковые во всех рубриках.
Уточнить по таким признакам свой запрос можно с любого уровня каталога, и в этом состоит его принципиальное отличие от других каталогов, где для уточнения запроса пользователь должен идти до конца по ветвистому древу тематических рубрик и преодолевать один уровень за другим, не ведая, какие именно подразделы ему предложат на следующем.
Сайты для каталога «Яндекс» отбираются по их информативности (то есть объему) и популярности, наиболее взвешенным показателем которой разработчики сочли индекс цитирования (количества ссылок на них с других ресурсов). Основу каталога составляют самые «толстые» и цитируемые сайты российского Интернета. Их список составляется с помощью базы данных поискового робота «Яндекса» (ресурсы, присылаемые для внесения в каталог владельцами сайтов, публикуются лишь выборочно - на основе тех же критериев). В рубриках ресурсы расположены в порядке убывания их индекса цитирования. Так как этот индекс не является распространенным показателем популярности сайтов, на нем стоит остановиться подробнее. Обычный показатель - посещаемость сайта - очень подвержен влиянию момента. Та же банерная реклама может дать быстрый прирост посещаемости, что приведет к перемещению сайта на первые места в каталогах, а это, в свою очередь, вызовет дальнейший рост посещаемости, причем вне зависимости от качества ресурса, ибо даже однократного посещения каждым пользователем некоего ресурса (чтобы убедиться в его бесполезности) достаточно для роста показателя. Ссылки же - показатель менее зависимый от случайных всплесков посещаемости.
И не забывайте, что ничто не мешает пользователю обратиться к контекстному поиску с любого уровня каталога, чтобы не разгребать гору мусора, не относящегося к выбранной категории.
[i36936]