Индустрия знаний
АрхивСовременные технологииВ России разрабатывается язык программирования, специально предназначенный для ученых
“Путешествия вглубь науки”, о которых писал Станислав Лем, сейчас стали неотъемлемой частью научной деятельности всякого ученого. Открытия в области естественных наук, техники, архивы результатов исследований предстают перед ним необъятным информационным потоком. Так получается, что современный учёный вынужден тратить большую часть своего времени на изучение и анализ чужих работ. А порой, группы учёных осуществляют целые “экспедиции” вглубь какой-нибудь необычайно разросшейся или забытой теории. Относительно недавно математики предприняли “экспедицию” в теорию групп и алгебр Софуса Ли. Эта теория была разработана в конце XIX века, но обнаружила свою актуальность лишь в 60-х годах XX века, когда многие идеи были переоткрыты заново.
Изобретение велосипедов — это не самая большая беда. Изобрести велосипед заново иногда проще, чем найти описание его конструкции в архиве. Проблема в том, что ученые, занимающиеся как будто бы одной проблемой, вдруг обнаруживают, что не понимают друг друга, потому что выросли в разных научных школах.
Можно предположить, что у науки слабая “информационная поддержка” или “недостаток интегрированности”. Но это не так.
С момента возникновения интернета процесс “электронизации” знаний идет и набирает ход [3,4], проводятся интернет-конференции, создаются международные архивы научных работ. Научно-образовательная деятельность, так или иначе, стала занимать свою нишу в WWW (например, xxx.lanl.gov, www.citeseer.com, www.nature.ru, www.mccme.ru). И не смотря на это, проблема целостности науки по-прежнему стоит достаточно остро.
Дело в том, что информационные потоки в науке велики и постоянно растут. Не каждый учёный способен полноценно усваивать то, что делается даже в той, отдельной области науки, которой он занимается. Создается впечатление, что некоторые “науки” уже достигли ситуации "мегабитовой бомбы" или "информационного барьера". Эти термины, введенные Станиславом Лемом, обозначают ситуацию, когда научное сообщество не может справиться с лавиной информации, которую само же создаёт.
Конечно, решения есть, и одно из них предлагает российский проект KML, http://kml.mipt.ru, который занимается вопросами объединения и формализации научных знаний. Основная идея проекта заключена в создании специального языка знаний – Knowledge Markup Language.
Если вспомнить историю науки, то можно обнаружить, что развитие научных теорий (а иногда и рождение) всегда было связано с эволюцией языка. Такова, например, алгебра, которая зародилась оттого, что люди научились кратко и в общем виде записывать уравнения. До возникновения алгебры все уравнения описывались на естественном языке при помощи бытовых или геометрических аналогий. Сегодня математическая теория групп не содержит, пожалуй, и одного процента естественного языка. В этом её удивительная сила и сложность.
Сегодня понятие языка является ключевым во многих областях науках. Проблема формализации знаний, использования компьютера для работы со знаниями и их анализа активно порождала новые задачи и проблемы. Формула
ЯЗЫК + ЗНАНИЯ + КОМПЬЮТЕР =
имеет на выходе много интересных теорий и технологий: теория экспертных систем, интеллектуальных агентов и искусственного интеллекта, теория и технология создания баз знаний, компьютерная лингвистика, общая теория систем, теория компьютерного анализа естественного языка и компьютерного выделения семантики. Есть языки для записи доказательств, архивы этих доказательств и программы, которые могут не только проверять, но и искать доказательства утверждений. Случаи, когда какой-либо этап решения задач, в том числе теоретических, проводят с помощью компьютера, сегодня уже не редкость. Человечество начинает доверять свои знания компьютеру.
Одна из фундаментальных идей, связанных с формулой “ЯЗЫК + ЗНАНИЯ + КОМПЬЮТЕР” заключается в разработке единых стандартов формализации знаний, протоколов обмена знаниями, технологий взаимодействия различных онтологий (см. XML, [5], RDF [6], Web-Ontology, [9]) и связывания объектов в единые сети (Semantic Web, [10]).
Настал момент серьезно поговорить о создании языка и технологии для объединения всех научных знаний.
KML — язык Знаний
KML (Knowledge Markup Language) — это XML [5] язык для создания больших Баз Знаний, как естественнонаучных, так и гуманитарных. Это могут быть строгие теории, описания технологий, материалы по истории науки, фундаментальные работы, статьи о текущих исследованиях, учебники, методические разработки, результаты экспериментов, все, что является рациональным знанием.
Проект KML взял на себя задачу разработку спецификации этого языка, а также различного инструментария для работы со знаниями. Инструментарий — это программы 1) для создания знания и его публикации в WWW – Knowledge Builder; 2) для навигации по Базе Знаний – Knowledge Viewer; 3) для запросов к Базе Знаний – Knowledge Query; 4) для перевода знаний из KML в другие форматы (HTML, TeX, rtf)
Основные идеи проекта по решению проблемы “мегабитовой бомбы” таковы:
I. Стандартизация Языка Знаний
Это означает создание базовой спецификации Универсального Языка Знаний, а скорее даже создание общей технологии формализации элементов знаний в различных областях науки, плюс технологии построения самой Базы Знаний.
В качестве основы был взят язык схема (то есть язык для описания/создания языков) XML (www.xml.org, www.w3.org), который уже хорошо зарекомендовал себя. На основе XML написаны языки для математических (MathML) и химических (CML) формул, логики высказываний, доказательств, языки обмена информацией (XML Query) и много других (http://www.xml.org/xml/resources_cover.shtml).
KML является XML языком, и, кроме того, он содержит в себе возможность включения объектов других XML языков. KML предназначен для формализации структуры знаний, он, в некотором смысле, язык – каркас для объединения в единую сеть знаний, написанных на различных языках.
Эта расширяемость KML позволяет ему эволюционировать, что является неотъемлемым свойством языка знаний, а стандартизация есть обязательное условие построения единой глобальной базы знаний.
Продолжение следует