Андрей Плахов ("Яндекс") о поисковой технологии "Спектр"
АрхивИнтерактивСтарший разработчик в компании "Яндекс" рассказывает о том, до какой степени нынче можно улучшать поисковые средства в Сети и как бороться с накрутками.
- Расскажите, пожалуйста, как появилась технология "Спектр" и для чего предназначена? На кого в первую очередь она ориентирована?
- Как появилась? Мы в какой-то момент заметили, что люди чем дальше, тем больше задают запросов, сформулированных не до конца и неконкретно. Например, запрос "Ягуар" или "МГУ". Когда человек назвал какую-то организацию, или явление, или объект, но непонятно, что за объект и что именно он ищет про него. Про МГУ можно искать просто информацию, условия поступления, можно искать список факультетов, и так далее.
- Тем более "МГУ" сейчас себя норовит называть каждый заштатный институт.
- Да, и это отдельная проблема. Под "Ягуаром" может подразумеваться автомобиль, животное, напиток – всё, что угодно. Люди привыкли, что поисковые системы всё точнее угадывают, что имелось в виду, поэтому таких запросов со временем становится больше, и нам нужно учиться обрабатывать их лучше.
Проблема была в том, что традиционные методы оценки не очень хорошо работают с такими запросами. Качество поиска оценивается рядом метрик, цифр. Есть много разных методик, но большинство из них не учитывают проблемы таких неоднозначных запросов – если все десять результатов примерно про одно и то же, это считается хорошим результатом. Нужно было придумать способ измерять насущность этой проблемы и сделать такое ранжирование, которое бы с ней справлялось. Чтобы в выдаче были результаты и про то и про это, чтобы люди, ищущие разные вещи, находили для себя то, что нужно, и получали полный обзор по этому запросу. Так и появился «Спектр».
- Насколько я понимаю, полный обзор – это 100 страниц результатов. Как человеку ориентироваться?
- Всё равно нужно каким-то образом вместить наиболее актуальную информацию в первый десяток результатов. Без некоторой потери смысла не обойтись. Мы работаем над тем, чтобы смысл терялся как можно меньше.
- Как давно задействована технология?
- Она запущена в конце прошлого года.
- И как вы оцениваете её результаты на данный момент?
- Мы измеряем количество людей, которые не удовлетворены результатами поиска. Как мы это понимаем? Бывает, что человек задал свой запрос, увидел какие-то результаты, посмотрел на них, почитал и никуда не кликнул, а вместо этого закрыл браузер или задал другой запрос с целью всё-таки что-то найти. Если такое происходит, то обычно это плохо. Число таких запросов с введением нового ранжирования уменьшилось.
- А какие-то средства противодействия манипуляциям результатами поиска задействованы?
- Да, они, конечно, нужны. Более того, они обязательны. "Яндексу" есть на ком тренироваться, как отслеживать накрутки и так далее. На практике накрутками занимаются, чтобы подвинуть в выдаче не какой-то специфический результат, а свой собственный магазин, свой сайт. Если научиться такие стандартные накрутки отлавливать и с ними бороться, а мы это делаем постоянно, то те же методы могут быть использованы для более экзотических случаев.
На самом деле за этим стоит некая этическая концепция. Хорошо всё, чем хорошо пользоваться. Если люди ищут какой-то натуральный феномен и результат сам по себе действительно набирает популярность, то мы не судим, хорошо это или плохо. Нашим пользователям это интересно, значит, нужно найти и показать. Но мы должны бороться с накрутками, когда кто-то при помощи ботов или просто ручного труда низкооплачиваемых «роботоподобных» людей делает вид, что этот результат набирает популярность. Вот это то, с чем нужно бороться, и нужно отличать друг от друга эти вещи. Это чисто техническая задача.
- То есть даже "ботоподобных" людей можно отбивать программой-антиботом?
- Конечно. Они же по инструкции работают, всё равно у них есть неестественные паттерны в поведении.
- Вот вы говорите про стандартные случаи накрутки, а нестандартные в техническом плане что могут из себя представлять?
- В техническом? Ну, я, во-первых, сейчас не смогу ничего реалистичного предположить, потому что если мы об этом знаем, то оно уже не является чем-то нестандартным. Во-вторых, даже если я сейчас что-нибудь такое придумаю, то не хочется подавать идеи. Но, например, можно как-то более "материально" использовать таких "роботоподобных" людей. Или можно начать что-то вроде вирусной рекламы, которая будет рекламировать не товар, не сайт, а что-то другое. Но мы все равно научимся с этим справляться, как уже справились с другим хорошим примером нестандартной концепции – линк-бомбингом, когда на сайт ссылаются несколько разных людей по ссылкам, содержащим всякие нехорошие слова. Затем в социальных сетях появляются сообщения: смотрите, по этим нехорошим словам находится вот этот сайт, прикольно! И все начинают ретвитить такие ссылки или кидать их друг другу.
- Как вы оцениваете, скажем так, конкурентные преимущества "Яндекса", по сравнению с другими поисковиками, действующими в России? Правда, насколько я понимаю, их осталось совсем немного...
- В России основных игроков сейчас три: есть "Яндекс", есть русский Google и есть Mail.ru. По крайней мере с точки зрения бренда.
Насколько большим конкурентным преимуществом является качество поиска? Это не так очевидно, как запуск, условно говоря, новых сервисов, но есть точная корреляция между долей и качеством поиска, и она вполне понятна, потому что если человек задаёт запрос в поисковике и чего-то не находит, он легко ищет в другом.
Большинство людей знает, что поисковики бывают разные, и очень многие пользуются браузерами, где можно легко переключаться между разными поисковиками. И если вы хороший ответ не нашли, а конкурент нашёл, то это серьёзный сигнал для пользователя к более частому переключению. Поэтому любое улучшение ранжирования помогает держать марку.
Сейчас вообще уже нет таких улучшений, которые бы сразу и однозначно поставили поисковик на первое место. Разве что кто-то создаст искусственный интеллект, который будет отвечать на все запросы. Поисковики почти все примерно одинаково хороши. Основная борьба сейчас разворачивается в отношении отдельных классов запросов, которые, может быть, не так часто встречаются, но зато очень важны для людей. Например, запросы о том, что только что случилось. Поисковики пытаются достичь такого уровня, чтобы отвечать в течение следующих пяти минут после события. Условно говоря, если что-то где-то взорвалось, в идеале нужно, чтобы через пять минут в поиске по запросу «взрыв» уже было что-то релевантное, хоть какие-то записи из Твиттера например.
- Ну, это означает, что "паук" должен очень оперативно работать.
- Да-да, конечно. Но не только. Это означает изменения в ранжировании, потому что понятно, что у записей, посвящённых тому, что только что появилось, нет никакого ТИЦ, никаких ссылок, ничего. Но тем не менее нужно понять, что это запись о чём-то важном. Такой подход требует изменений в антиспамерских инструментах, потому что, если мы начинаем показывать больше нового, только появившегося, очевидно, что спамеры это поймут и подхватят. Роботу несложно в час создать миллион страничек со словами "взрыв там", "взрыв сям", "авария там" на любой географический объект.
- Кстати, не было ли таких случаев, когда подкладывалась именно такая информационная бомба?
- Это сделать очень сложно. Фактически способ, которым можно воздействовать на поисковик извне, автоматически должен воздействовать и на весь интернет тоже. То есть, грубо говоря, очень трудно "придумать" новость таким способом, чтобы она стала известна поисковику, но при этом не стала моментально известна людям. Вполне возможно, что взрыв в блогосфере иногда имеет в том числе и такую цель: привлечь людей дополнительно на новостной сайт. Пусть я фантазирую, я не уверен, что такое реально случалось, но вариант выгодный: пусть какая-то конкретная новость потом окажется фальшивкой, зато людей удалось завлечь на сайт, на котором могут быть ещё какие-то завлекалочки...