Архивы: по дате | по разделам | по авторам

Лабораторные работы

АрхивИнтерактив
автор : Александр Бумагин   08.08.2009

После открытия в СПбГУ учебно-научного центра "Технологий HP" было резонно посетить и собственную Лабораторию HP в России, ведущую разработки в области information management - поиска и анализа информации, её структурирования, хранения и защиты.

=+=+=+=

Так вышло, что этим летом в Санкт-Петербурге я гость частый, и, увы, каждый раз - по работе. Нынешняя - третья - поездка стала следствием второй: после открытия в СПбГУ учебно-научного центра "Технологий HP" (см. новости прошлого номера) было резонно посетить и собственную Лабораторию HP в России, ведущую разработки в области information management. Точного аналога этому английскому термину в русском языке нет, а понимается под ним поиск и анализ информации, структурирование и хранение, а также защита. Для этих целей могут применяться и программные, и аппаратные средства, а потому их разработка, настройка и использование - это тоже часть information management. Директор HP Labs в России Владимир Полутин ответил на вопросы о питерской лаборатории, а заодно рассказал об организации работы Лабораторий HP по всему миру и о том, как компания находит идеи для своих научных исследований.

Почему для HP Labs в качестве сферы исследований выбран именно information management?

Выбирая исследовательскую тематику, сотрудники компании и я (уже в качестве директора будущего представительства Лабораторий) тщательно продумывали все возможные направления. Некоторые из них мы отвергли ввиду сложности их реализации именно в России: например, исследования в области физики и химии. Для них нужны дорогостоящее оборудование, реактивы и материалы, которые пришлось бы везти из-за рубежа. Вдобавок нужно подыскивать подходящее помещение - не разместишь же химическую лабораторию в офисном центре. Естественным образом возникла идея сделать основой для нашего выбора математику.

В последние годы Hewlett-Packard заинтересована в предоставлении своим заказчикам решений под ключ, то есть не только оборудования, но и многофункционального программного обеспечения. Многие из наших клиентов нуждаются в структурировании тех данных, которыми они владеют, в их обработке с целью извлечения дополнительных знаний, которые могут дать конкурентное преимущество. Кроме того, проблемой стал нескончаемый и постоянно растущий поток новой информации. Даже в рамках одной крупной компании объем новой информации сейчас сравним с тем объёмом, с которым в середине девяностых годов должна была иметь дело Google, разрабатывая свои поисковые технологии. Учитывая всё сказанное, можно констатировать, что мы были прагматичны в определении тематики для России.

А почему, собственно, Россия? До открытия вашего центра Лаборатории HP работали всего в шести странах, и (давайте не станем скрывать) Россия - не самая простая страна для организации серьёзной долгосрочной деятельности.

Выбор местоположения Лабораторий HP определяется наличием или отсутствием в той или иной стране (и даже в конкретном городе или университете) сильной научной школы нужного нам направления. В мире не так много стран с развитым образованием и давними научными традициями. Поэтому мы работаем в США, где наука традиционно развита и поддерживается; поэтому выбрана Великобритания, где науке уделяют большое внимание, поэтому - Израиль, где кроме собственной научной школы важную роль играют иммигранты из России и других стран CНГ. Китайское общество и наука были всегда ориентированы на получение знаний, там нормальным считается, если вся семья работает на ребенка, у которого есть склонности к науке. То же - в индийской культуре. Поэтому HP Labs есть и в Китае, и в Индии. Япония очень открыта для новинок в мире технологий, это великолепная страна для опробования всего, что изобретается. Козырь России - это традиционно хорошие высшая и средняя школы. Кроме того, в области управления информацией у HP уже были успешные пилотные проекты с рядом российских университетов. Наконец, учитывался рыночный потенциал России и востребованность исследуемых технологий на этом рынке.

Не сказалась ли на вашем выборе невозможность экспорта некоторых технологий из США в Россию и наоборот?

Действительно, в некоторых центрах HP Labs ведутся разработки, так сказать, двойного назначения. Конечно, на выборе это сказалось. Мы в России не занимаемся разработкой аппаратуры, криптографией и нанотехнологиями. Всё, что нам нужно для работы, может беспрепятственно и законно прийти извне, а всё, что мы здесь можем получить, будет свободно и без всякого нарушения законодательства об экспорте технологий использоваться в других странах.

Кроме тесных контактов с СПбГУ у вас хорошие отношения с московским Институтом системного программирования. В частности, именно группа учёных под руководством Максима Гринева из этого академического института получила грант на исследования в рамках вашей программы открытых инноваций. Почему же для открытия Лабораторий HP выбран Питер, а не Москва или какой-то другой город?

В России есть несколько городов, где можно было бы начинать работу Лабораторий: Москва, Санкт-Петербург, Нижний Новгород, Новосибирск, Томск. Там расположены основные научные центры. Принимая решение, мы исходили из того, что Санкт-Петербург проявил себя как наиболее динамично развивающийся город в России в области software development и offshore software development. Здесь присутствуют Intel, Sun, Motorola, EMC, Google и др., работают крупные российские софтверные компании. Чужой опыт очень важен, если вы что-то начинаете, а Санкт-Петербург, если хотите, был проверен. В нем есть программисты и инженеры, которые образуют хороший "фон" для создания такой организации, как наша. Международный аэропорт позволяет вылететь на совещание с коллегами из Европы и США и в течение одного дня принять решение по его итогам. Логистические вопросы внутри HP тоже важны, и, в том числе, поэтому отпали кандидатуры Новосибирска или Томска. Главное же - замечательная математическая школа в СПбГУ. Наверное, конкурентом могла бы быть Москва, но в столице у талантливых студентов больше искушений, которым они вынуждены поддаваться. Доля математиков, прикладных математиков, программистов в общем количестве студентов и специалистов информационных технологий в Питере больше, чем в Москве. А качество жизни в Москве, на мой взгляд, оставляет желать лучшего.

Какими проектами сейчас занимается представительство Лабораторий в Санкт-Петербурге?

Мы активно работаем над двумя проектами и ведём подготовку к третьему.

Первый проект - сугубо российский. В его рамках мы разрабатываем платформу по доставке контекстуальной информации. Здесь следует учитывать несколько важных аспектов. Прежде всего, информация должна быть точной и содержать как можно меньше "мусора" или так называемого информационного шума. Покрытие источников информации должно быть приближено к полному, чтобы минимизировать шанс упущения важных данных. Получаемая вами информация должна быть привязана к окружению, в котором вы находитесь: нелепо предполагать, что в офисе, в автомобиле или на рыбалке некие сведения полезны в одинаковой степени, неверно ожидать одинаковой реакции человека на поступление той или иной информации в столь разных условиях, а потому неверно и предоставлять эту информацию в одном и том же виде. Наконец, первостепенное значение имеет оперативность доставки информации и её актуальность: прогноз погоды на вчера никому не нужен, кроме ученых-синоптиков. Все эти нюансы мы пытаемся увязать в разрабатываемой нами платформе CIDP - Contextualized Information Delivery Platform, принципы построения которой, на наш взгляд, станут основополагающими, когда существующие поисковые движки себя исчерпают.

Второй проект, у которого пока нет коммерческого названия, находится на этапе технологической передачи результатов исследований, полученных в наших Лабораториях. Эта работа посвящена технологии построения моделей областей знаний. Наличие такой модели позволяет при поиске информации перейти от общего решения вопроса к частному, учитывающему потребности предприятия или индивидуума. Через использование модели области знания мы можем отсечь лишнее информационное пространство, повысить производительность и точность поиска. Повышение производительности поиска экономит время и снижает аппаратные требования к поисковой системе. Разработка проходит пилотное апробирование в нескольких американских компаниях, работающих в разных секторах рынка. Примером гибкости предлагаемого нами подхода может послужить опыт нашего сотрудничества с одной энергетической фирмой, для которой мы сформировали модель области знаний в сфере охраны окружающей среды и условий труда на производстве. Первоначальная модель, которую мы предложили заказчику, оказалась недостаточно детализированной: информация в открытых источниках была довольно скудной для данного специального случая. Заказчик передал нам информацию о специфических терминах и процессах, связанных со своей деятельностью, и в течение 36 часов наши специалисты смогли настроить модель, существенно увеличив полноту модели знаний в этой области.

В какой степени процесс настройки модели автоматизирован? Как проходит первоначальное построение модели под конкретного пользователя: он должен обработать какие-то тексты, пройти тесты?

Мы стараемся сделать процесс построения модели максимально автоматизированным. Первоначально человек формирует поисковые запросы, связанные со своими интересами, и на их основе строится первый вариант модели знаний. Пользователь может оценивать полезность и полноту той или иной информации, которую выдает ему созданная модель, и в ответ на эти действия модель автоматически видоизменяется. Чем больше времени человек или компания "тренирует" свою модель области знаний, тем в большей степени она отвечает требованиям потребителя.

А каков ваш третий проект?

Это совместный проект с тремя другими Лабораториями HP - одной китайской и двумя американскими. Он, как нам кажется, будет иметь гораздо большую научную значимость. Мы хотим эффективнее обрабатывать информацию, в том числе информацию на естественном языке, хотим научиться удалять неоднозначности из текстов, выявлять смысловые отношения между понятиями, которые имеются в тексте. В некоторых из этих технологий преуспели китайские исследователи, в других - российские. Американцы разрабатывали методы и алгоритмы, которые архитектурно расположены ближе к "железу". Мы хотим попытаться объединить эти технологии, чтобы добиться более быстрого и точного поиска информации.

Решением подобных проблем, с тем или иным успехом, в мире занимаются несколько групп и компаний. Чтобы проиллюстрировать сложность этой работы, приведу два примера. Допустим, нужно выяснить, кто знал что-то в такой-то момент времени? Так вот дать однозначный ответ, сформировав его из моря информационных источников, очень непросто. Второй элементарный пример. Слово "платформа" может иметь разное смысловое значение: железнодорожная платформа, программная платформа, туфли на платформе, политическая платформа и т. д. Как автоматически устранить смысловую неоднозначность употребления слова "платформа" в некотором текстовом файле? А как это делать, учитывая разные языки?

Проекты для HP Labs тщательно отбираются. Как это происходит?

У нас есть офис открытых инноваций, который был создан для управления всеми связанными с инновациями программами HP Labs с мировым академическим сообществом. Мы считаем, что наука интернациональна, что учёные должны регулярно обмениваться результатами исследований, обсуждать их. В феврале HP Labs сформулировала более двух десятков исследовательских тем, которые выложены в открытом доступе на портале Лабораторий вместе с приглашением подавать проектные предложения на конкурсной основе. В конкурсе может участвовать любая академическая или исследовательская организация. Российские Лаборатории HP курировали две темы: построение моделей знаний и обработку текстов на естественном языке. Мы получили и проанализировали больше тридцати предложений со всего мира, и в итоге пять из них рекомендовали для финансирования: две темы из России и по одной из Германии (Университет Кобленц-Ландау), США (Wright State University) и Индии (Технологический институт в Бангалоре). Все пять рекомендаций, которые дали российские Лаборатории HP, были приняты финансистами и руководством HP Labs. В дальнейшем мы будем курировать эти проекты (к каждому прикреплен конкретный сотрудник из наших Лабораторий).

Расскажите чуть подробнее о двух российских работах из этой пятерки.

Работа, которую мы проводим совместно с СПбГУ и группой профессора Бориса Новикова, нацелена на повышение скорости обработки поисковых запросов. Группа Новикова занимается семантическим кэшированием. Мы считаем, что при правильном формировании кэша, который в дальнейшем может использоваться при обращении к информационной системе, мы сумеем сократить время получения результатов поиска. Формирование такого кэша - задача нетривиальная. Работа Новикова состоит в исследовании процесса семантического кэширования на более высоких семантических уровнях относительно простых запросов xQuery. Работа с семантикой высокого уровня необходима при выполнении интеллектуального поиска среди слабоструктурированных документов. Грубо говоря, мы должны спрогнозировать и перетащить в кэш-память компьютерной системы данные, которые с наибольшей вероятностью потребуются пользователю для удовлетворения его информационного запроса в кратчайшее время.

У Максима Гринева и его группы есть хорошие наработки и даже продукты, которые разработчики собираются выводить на рынок. Это системы поиска контекстуальной информации, то есть то, что близко нашим Лабораториям в целом. В работе Гринева больший упор делается на обработку текстов на естественном языке (вспомним пример слова "платформа"), извлечение из них сущностей и смысловых отношений между сущностями. Под сущностями понимаются любые существительные с их смысловым описанием. Скажем, название компании, фамилия руководителя компании, профиль деятельности компании, технологический процесс, промышленный образец, финансовая транзакция и т. п.

Остра ли для HP Labs проблема промышленного шпионажа? Сказывается ли открытость ваших программ для учёных разных стран?

- У нас инцидентов не было, и я не знаю о таких случаях в других Лабораториях. Однако мы понимаем, что научные центры HP Labs - своего рода узловые точки, где занимаются самым что ни на есть "новьём". Ради безопасности, конечно, применяются некоторые технические средства, да и вся работа в Лабораториях, не исключая российскую, организована по определённому стандарту, который предусматривает сохранность интеллектуальной собственности. Есть особые тренинги, где наши специалисты получают навыки работы с закрытой информацией, навыки фиксации хода собственных исследований в рабочих тетрадях, чтобы при необходимости можно было доказать свой приоритет в вероятных правовых коллизиях.

Что для вас было самым сложным на стадии организации работы Лабораторий в России?

Я очень волновался, когда соглашался возглавить этот проект. Исследования в России - непростая тема. На ноябрь 2007 года для меня не было очевидным, что мы сумеем достаточно быстро сформировать коллектив талантливых учёных, которые, получая дипломы в своих вузах, не стремились бы работать за границей. Неприятности для российской науки, начавшиеся в девяностых, привели к тому, что учёному у нас трудно рассчитывать на перспективы собственных исследований, особенно в физике, биологии или химии, где требуются большие вложения, главным образом в современное оборудование, высокочистые реактивы и среды. К счастью, последствия 90-х годов не так заметны сейчас в инженерных областях, особенно в ИТ. Опять же к счастью, наши контакты в академической среде позволили найти молодых, но серьёзных сотрудников, которые готовы заниматься наукой и имеют для этого необходимые интеллектуальные способности.

Компания HewlettPackard применяет в собственной деятельности разработки HP Labs в сфере information management?

Мы вообще пытаемся сделать так, чтобы труд учёных имел максимальный коммерческий выход. Если та или иная идея доходит до прототипа технологии, которая на поверку оказывается эффективной, мы стараемся создать коммерческий продукт. Конечно, в первую очередь рассматриваются те продукты, которые могут быть использованы внутри компании. Тем не менее существуют и побочные результаты исследований, которые неинтересны самой HP в практическом смысле, но могут быть полезны другому бизнесу. В таком случае наша интеллектуальная собственность лицензируется для использования другими компаниями.

Оценка эффективности Лабораторий HP как-то увязывается с конечными продуктами?

Перевод разработок и идей в бизнес-подразделение HP - основной показатель. Под переводом подразумевается и пилотирование проектов совместно с заказчиками, и подача патентных заявок, и продажа лицензий на технологии. Также нам важна глубина и качество проводимых учеными исследований. На сегодня научное сообщество не придумало ничего лучшего, чем оценка исследований через выступления на научных конференциях, через публикации в лучших научных изданиях, через индекс цитирования. Третий показатель эффективности - экспертная работа наших сотрудников, использование знаний ученых HP Labs в оценке технологического уровня как самой HP, так и других компаний с точки зрения конкуренции. Оценка учёных, к примеру, может учитываться при определении научного потенциала стартапа, который HP собирается покупать.

Как формируются бюджеты Лабораторий HP?

При формировании бюджета наши финансисты отталкиваются от тех проектов, которые утверждены для исследований в каждом представительстве Лабораторий, с учётом числа и квалификации сотрудников. Это основная статья расходов. Например, наше представительство Лабораторий самое маленькое - под моим началом работает всего одиннадцать человек. Затем рассчитываются затраты на поддержание инфраструктуры Лабораторий. Сюда входит и обеспечение работы оборудования, необходимого для исследований, и решение сложных задач, требующих вычислений на суперкомпьютерах. В физических и химических лабораториях затраты на оборудование, конечно, превалируют. Очень часто крупные американские научные агентства или правительственные организации выделяют для HP Labs собственное оборудование на условиях лизинга.

Легко ли попасть на работу в HP Labs? Например, к вам?

Найм в Лаборатории НР (включая российские) идёт путём открытого размещения вакансий с описанием квалификационных требований на открытом портале НР (www.hpl.hp.com/jobs). Через некоторое время на российском портале НР появится страница нашего представительства Лабораторий, и на ней вакансии будут продублированы. Конечно, мы заинтересованы привлекать к исследованиям сформировавшихся учёных с докторскими и кандидатскими степенями, тем не менее сильные аспиранты нам тоже нужны. Ученая степень - не залог таланта, однако говорит о владении кандидатом методологиями научной деятельности. Процесс найма, как правило, многоэтапный и предполагает первичное знакомство с кандидатом, обсуждение его научных достижений и интересов. Далее - знакомство с его результатами по публикациям, по выступлениям на конференциях, отдельным главам открытых диссертационных работ. Заинтересовавшие нас кандидаты-исследователи, как правило, выступают на внутреннем открытом семинаре Лабораторий НР с выбранным на их усмотрение сообщением. Понятно, что процесс найма подчас растягивается на месяцы. И он практически одинаков во всех странах, где присутствуют HP Labs.

Много ли приходится нанимать менеджеров?

Зачастую менеджер управляет сразу несколькими проектами, так что соотношение между менеджерами и исследователями 1:12–25 вполне нормальное.

А не станет ли для российского учёного сотрудничество с HP или, скажем, с Intel лишь ступенью к тому, чтобы, найдя возможность работать в другой стране, уехать туда?

- У меня есть и опыт работы в крупной инженерной организации (я руководил большим программистским центром в Motorola), и опыт исследовательской деятельности. Я знаком с людьми, которые работают в обеих сферах: видел их становление, мне известно, чем они мотивированы. И я знаю лишь немногочисленные примеры, когда инженер, поработавший на иностранную компанию в России, изъявил бы желание продолжать работу в той же компании, но в другой точке земного шара.

Работа инженера в глобальных компаниях здесь, в России, - это благо для нашей страны. Надо признать, что у нас при хорошем образовании до последнего времени отсутствовало правильное преподавание, вбивание в костный мозг, если угодно, технологий индустриального коммерческого программирования, а большие иностранные компании эти знания приносят с собой. Хотелось бы и для учёных создать столь же благоприятные и интересные условия работы, сократить, а возможно, и обратить вспять процесс оттока интеллекта из страны. Я считаю, что Лаборатории НР в России отчасти выполняют и такую миссию.

Как решался вопрос о том, сколько будут зарабатывать российские учёные в HP Labs?

Вместе с руководством HP Labs мы разработали специальную сетку оплаты труда исследователей. Отчасти мы отталкивались от квалификационной сетки, принятой в Академии Наук, частично приняли на вооружение практику компенсации в индустрии программного обеспечения. При этом, конечно, учёные получают у нас больше, чем программисты, - ведь это уникальные люди.

Как взаимодействуют Лаборатории HP в разных странах? Чего здесь больше - конкуренции или взаимопомощи?

Это смесь конкуренции и сотрудничества. Во многих Лабораториях проводятся регулярные семинары по той или иной тематике, и на такие мероприятия приглашаются коллективы других центров. На семинарах сообщается о проводимых исследованиях, о подходах к решению проблем и об алгоритмах решений. Все учёные могут принять участие в обсуждении. Польза от этого для нас очевидна, ведь мы, решая свои собственные задачи, приняли на вооружение некоторые алгоритмы, которые нашли наши коллеги из американских Лабораторий, работающие над смежными вопросами. Были случаи, когда идеи российских учёных пришлись ко двору в иностранных Лабораториях. При всём при этом авторское право незыблемо: оно останется за тем, кто первым придумал и применил ту или иную новацию. Бывает, что разработка, начавшаяся в одном центре HP Labs, переносится в другой. Но и в этом случае автор проекта продолжает над ним работать, хотя бы в качестве консультанта. Невыгодно дублировать уже имеющуюся научную компетенцию, компетенции выгодно объединять. Конкуренция, таким образом, идет за приоритет. Любому учёному хочется, чтобы его идеи были признаны как обладающие научной новизной, а сам он - как мировой лидер в этой области знаний. Это является одним из сильнейших мотивирующих факторов в занятиях наукой. Для компаний же важна практическая значимость новых идей и решений.

Из еженедельника "Компьютерра" № 27-28 (791-792)

© ООО "Компьютерра-Онлайн", 1997-2024
При цитировании и использовании любых материалов ссылка на "Компьютерру" обязательна.