Архивы: по дате | по разделам | по авторам

Тирания количества

автор : Роман Георгиев 22.03.2006

Полки интернет-магазинов бесконечны, но на бесконечных полках, знаете ли, непросто что-то отыскать. Никому не известные произведения таковыми и останутся, если их никто не найдёт.

Продолжение статьи "Тирания пространства".

Смысл понятия "длинный хвост" состоит в том, что, сколько бы ни были малопопулярными какие-либо произведения, на них всё равно найдутся покупатели. Вообразите себе график степенного закона и особенно на тот самый "хвост", вытянутый по оси Х. А теперь давайте представим совокупную прибыль со всей этой линии...

В предыдущей статье упоминались колоссальные цифры: дескать, онлайновые магазины способны получать прибыль с произведений, находящихся далеко за пределами первой сотни тысяч предложений, а самих этих произведений могут быть миллионы. Самое главное - сориентировать пользователя в этой немеряной куче.

Конечно, виртуальные полки интернет-магазинов могут быть бесконечными, но это решает только одну проблему. На бесконечных полках, знаете ли, непросто что-то отыскать. Никому не известные произведения так и останутся никому не известными, если их никто не найдёт. Какая разница, затерялось ли это произведение среди миллионов других в интернет-магазине или не попало в тысячу избранных, которыми торгует магазин обычный? Результат-то один.

Нужен путеводитель или, если хотите, фильтр, сквозь который просочится только то, что на самом деле нужно конкретному человеку, и хотелось бы, чтобы это не был тот же самый набор хитов, что и повсюду.

Технические возможности для этого теперь уже есть, хотя они, возможно, не так совершенны, как хотелось. Если вдуматься, в своей основе, борьба со спамом и стремление минимизировать время поиска, например, нужной композиции в онлайновом магазине - примерно одного порядка явления. Усилия, затрачиваемые на то и на другое, - это усилия по возведению заслона, через который может проникнуть только нужная информация.

На самом деле за последнее десятилетие (а это примерно тот самый период, в который существует интернет в его, грубо говоря, нынешнем виде - ориентированном, в первую очередь, на электронную почту, браузеры и интернет-пейджеры) проблема фильтрации контента росла, росла и выросла до совершенно космических масштабов.

Чем дальше развивается (а точнее, чем плотнее нашпиговывается контентом) Сеть, тем острее встаёт проблема информационной перегрузки. Такие явления, как "коллаборативные фильтры" и агрегаторы, - это и есть ответ на информационную перегрузку. Инструменты подобного рода - очередной "костыль" для человеческого разума, сконфуженного уровнем "информационного шума" и потому с трудом различающего полезный сигнал.

Во всевозможных онлайновых магазинах проблема фильтрации часто решается с помощью следующего механизма: когда вы покупаете что-то, вам аккуратно подсовывают некий товар из серии "вместе с <наименование товара> часто покупают <другое наименование>". Правда, веры подобным вещам маловато. Случается, таким образом покупателям пытаются всучить то, что надо поскорее сбыть.

Например, в случае с российским "Озоном" подобный опыт дал не очень интересные результаты. На главной странице в списке бестселлеров, естественно, свежепереведённый "Гарри Поттер". В поле "С этим товаром часто покупают..." значились только другие "Гарри Поттеры". Ниже в списке "Книжная полка. Зарубежные писатели. Бестселлеры" (тоже рекомендация своего рода), кроме всех "поттеровских чтений", видим Ганса Христиана Андерсена и Алана Александра Милна, а с них... А с них больше никуда дороги нет - всё тот же список бестселлеров, и даже поле "с этим товаром часто покупают..." отсутствует. Это называется: "Ищите сами". Кстати, прошлый опыт дал всё-таки более забавные результаты: по ссылкам "бестселлеры" получился вот такой ряд: "Гарри Поттер" - "Мэри Поппинс" - Гюнтер Грасс - Дж. Кутзее - Умберто Эко - Филипп Пулман... Но с последнего читателя снова выруливали на "Гарри Поттера".

В западных музыкальных онлайновых магазинах, впрочем, всё интереснее: через тот же Rhapsody, например, через несколько ссылок на "похожих исполнителей" можно с самых, что ни на есть, "трендовых" выскочить на редких и малоизвестных музыкантов.

Вокруг iTunes и других музыкальных онлайновых сервисов возводится некий вавилонский столп из сервисов по обмену (следите за руками!) готовыми плейлистами. Вот тут, например, даётся сравнительная таблица по целому ряду таких сервисов: здесь вам и система рейтингов на целые списки, и отдельные песни, и комментарии на плейлисты друг друга, и возможность размещения их в блогах, и так далее, и так далее.

Зачем? Ну, во-первых, как уже сказано, многие из этих сервисов так или иначе завязаны на музыкальные магазины, то есть рядом с почти любой песней стоит ссылка "buy". "Просим милостиво, дамы с джентльменами, двадцать центов и уйдёте обалденными..."

А во-вторых, эти сервисы как раз и предназначены для того, чтобы было проще находить редкий материал, причём не только и не столько по "схожести звучания". Коллаборативные фильтры, помогающие выделять интересное из общей колоссальной массы, потому так и называются, что опираются они (по меньшей мере, некоторые из них) на данные о привычках и обыкновениях других слушателей (если речь о музыке, естественно).

Иначе говоря, предполагается, что, если один человек приобрёл композиции A, B, C и D, то другому человеку, купившему A, B и C, ко двору придётся и D, и последнее будет ненавязчиво так рекомендовано к прослушиванию. Но это самый простой вариант.

В этом смысле показателен пример Last.fm, о котором мы недавно писали. Там система мало-помалу накапливает информацию о привычках и вкусах нового пользователя, и, опираясь на них и на данные по тому, что слушают люди с (предположительно) сходными вкусами, начинает предлагать потенциально интересные произведения, причём чем дальше, тем больше "в кассу", как свидетельствуют пользователи этой интернет-радиостанции.

Таким образом, системы подобного рода подстраиваются под вкусы своих пользователей. Вроде бы.

Но частенько остаются вопросы к эффективности этих коллаборативных фильтров. Причин тому несколько: во-первых, предсказать, будет ли интересна какая-нибудь только что появившаяся песня для тех или иных слушателей, невозможно именно потому, что никто ещё не присвоил ей никакого рейтинга. Что делать бедному коллаборативному фильтру, кроме как тихой сапой эту песню обойти и не вспоминать, пока не найдутся какие-то люди, кому она случайно попадётся?

Во-вторых, чем обширнее массив информации (чем больше, грубо говоря, база данных по музыкальным композициям), тем менее надёжной, так сказать, оказывается выборка: в сутках только 24 часа, а спать иногда тоже хочется, как ни странно. Естественно, фильтр выберет только несколько отдельных композиций, но шансы на надёжность и точность этого автоматизированного выбора тем меньше, чем больше выбор.

В общем и целом, наблюдаем всевозможные автоматизированные усилия по адаптации к частным вкусам. Онлайновые ресурсы, в отличие от оффлайновых с их неизбежным дефицитом физического пространства, не только могут, но и должны себе это позволять, поскольку с "длинного хвоста" частностей в сумме состригаются купоны о многих нулях.

Предположим, что из коллаборативной фильтрации и тому подобных механизмов, которые сейчас, по правде говоря, не слишком совершенны, всё-таки что-то получится. Останется одна, последняя проблема - люди. Не выйдет ли так, что в конце концов они придут к той же тысяче хитов, что и сейчас, только с другого края?

Читайте продолжение в статье Тирания толпы.