Проблема 12 тысяч, или Какие страны собирается посетить Папа Римский до конца текущего года?
Архив21 и 22 мая прошла конференция «Проблемы обработки больших массивов неструктурированных текстовых документов». Так получилось, что «КТ» оказалась единственным СМИ, попавшим на это мероприятие. Его организатор - Фонд эффективной политики, известный такими проектами, как Gazeta.ru, Strana.ru, а также тем, что одним из его директоров является Глеб Павловский.
21 и 22 мая в «Александр Хаус» прошла конференция «Проблемы обработки больших массивов неструктурированных текстовых документов». Так получилось, что «КТ» оказалась единственным СМИ, попавшим на это мероприятие. Его организатор - Фонд эффективной политики, известный такими проектами, как Gazeta.ru, Strana.ru, а также тем, что одним из его директоров является Глеб Павловский 1.
В фонд ежедневно поступает около 12 тыс. документов, включая районные газеты и заводские многотиражки. Кроме того, как считают в фонде, ему принадлежит самая крупная непубличная библиотека в России, где собрано более 10 млн. документов. Понятно, что обработка такого объема информации - крайне трудоемкий процесс. По словам руководителя Департамента информации ФЭПа Александра Шпунта, квалифицированный редактор может обработать за день порядка трехсот документов. Редактор высшего класса, работая на износ, в состоянии справиться с 450 документами. Таким образом, при потоке в 12 тыс. документов в день для их анализа потребуется 30-50 человек, а сводить воедино полсотни отчетов еще труднее, чем их создавать. Лексические поисковые запросы с использованием булевых операторов нельзя увеличивать до бесконечности, уже сейчас они иногда занимают по 2,5 Кбайт текста.
Так вот, с тем, чтобы решить «проблему 12 тысяч», то есть автоматизировать и повысить релевантность поиска и анализа информации, фэповцы решили созвать одиннадцать команд разработчиков соответствующего программного обеспечения 2. Подобное мероприятие проходит впервые, и многие из специалистов познакомились лишь во время конференции 3.
В кондиционированном зале с мягкими креслами чувствовалась некоторая напряженность, что неудивительно: сидящий напротив мог через десять минут оказаться конкурентом. Конечно же, собрать перспективные команды вместе - интересное решение, это позволило оперативно выявить слабые места в представленных программных продуктах: очевидно, что конкурентам ловить блох и более крупную живность у своих коллег гораздо проще (и приятнее), чем потенциальным заказчикам.
Сегодня продемонстрированные программы могут гораздо больше, чем традиционные Yahoo-образные поисковые машины. Так, они способны формировать при запросе тематические деревья, состоящие из нескольких категорий, в которые движок программы автоматически раскладывает найденную информацию, или даже двухмерные карты, напоминающие звездное небо (правда, чтобы пользоваться последними, нужна тренировка). Интересная возможность - составление портрета какого-нибудь политического деятеля или создание тематического досье, некоторые системы претендуют даже на вскрытие взаимосвязей между различными событиями или персонами. Кроме того, большинство участников подчеркнуло, что индексирование баз при нынешнем темпе новых поступлений в ФЭП производится «почти» в реальном времени и редко занимает больше часа.
Представленные системы поиска и анализа текстов пока сложно назвать совершенными. В каждой из них нашлось немало недостатков - здесь уж коллеги постарались. А самые яростные стычки происходили при попытке определить термины. Так, выяснить, что же такое «семантика», не удалось даже на дискуссионном клубе.
Помимо этого, на дискуссионный клуб были вынесены проблемы визуализации информации. В целом дискуссия протекала очень живо, после двух дней работы специалисты немного расслабились и начали шутить. Так, на посылку одного из участников, что «эксперт не сможет абсолютно правильно сформулировать запрос на естественном языке», немедленно последовала реплика из зала: «Это будет скомпенсировано ошибками при выдаче результата». Не обошлось и без афоризмов: когда речь зашла об обучаемости машин, Владимир Заикин, координатор направления ФЭПа заявил: «Нам не нужна думающая машина, нам нужен умный молоток!» 4
Концентрация идей на квадратный метр в зале «Александр Хаус» была необычайно высока. Возможно, представленные на следующей конференции программы смогут дать внятный ответ на запрос «Какие страны собирается посетить Папа Римский до конца текущего года», не раз приводившийся в качестве непосильного для современных систем поиска.
[i39816]
1 (обратно к тексту) - Хорошо знакомый читателям по программе «Куклы» прежнего НТВ и имеющий репутацию «политтехнолога», действующего по принципу «цель оправдывает средства».
2 (обратно к тексту) - Иногда с довольно-таки замысловатым и неочевидным названием, например, «Информационно-поисковый тезаурус по общественно-политической тематике для автоматического концептуального индексирования».
3 (обратно к тексту) - Вообще, это интересная форма работы - не то «публичный тендер», не то «закрытая конференция». Я впервые сталкиваюсь с такой практикой.- М.Б-З.
4 (обратно к тексту) - Учитывая зловещую репутацию ФЭПа, звучит по меньшей мере двусмысленно… - М.Б-З.