Архивы: по дате | по разделам | по авторам

Историческая компьютерная лексикография - terra incognita в компьютерном мире

Архив

автор : ЮРИЙ ФИЛИППОВИЧ, МАРГАРИТА ЧЕРНЫШЕВА 09.11.1999

Большинство читателей вряд ли с уверенностью скажет, что означает слово лексикография. Едва ли поможет и интуитивно присущее нам стремление расчленить новое слово на знакомые части, хотя это уже позволяет добраться до его сути. Лексикография (греч. lexikos - 'относящийся к слову' и grajw - 'пишу') - это научная дисциплина, занимающаяся теорией и практикой составления словарей.

Еще в рукописях XI века (на полях или в самом тексте) можно встретить пояснения непонятных слов, чаще всего иноязычных или вышедших из употребления. Эти пояснения назывались глоссами, а собрания глосс, так называемые глоссарии, представляли собой первые небольшие словарики. В древнерусской лексикографии возникло несколько типов словарей: 1) словари собственных имен, содержащие в основном имена, упоминаемые в Библии (ономастиконы); 2) словари, охватывающие слова со сложным символическим смыслом (приточники); 3) словари, толкующие непонятные (церковно-славянские) слова книжной речи - "Толкование неудобь познаваемом речем"; 4) первые переводные словари, например, "Речь тонкословия греческого". Затем в XVI-XVII вв. появляются более полные собрания слов, расположенных в строгом алфавитном порядке, - азбуковники. Первый печатный словарь ("Лексис" Лаврентия Зизания) вышел в Вильно в 1596 году. Постепенно возникает интерес не только к старинным иностранным и старославянским словам, но и к словам современных иностранных языков, - начинают выходить многочисленные переводные словари: русско-иноязычные, иноязычно-русские. К 30-м годам XVIII века уже ощущалась потребность в толковом словаре русского языка, и с учреждением Российской Академии наук началось составление толкового "Словаря Академии Российской". В XIX веке было создано множество словарей самого различного характера, что обеспечило прекрасные предпосылки для развития лексикографии в XX веке - поистине, веке лексикографии, поскольку никогда еще эта дисциплина не развивалась столь успешно [1].

Самая трудная часть работы историка-лексикографа - установление значения (семантики) слова. Для создания словаря необходимо провести отбор источников, анализ текстов, составление словников и словоуказателей, анализ словоупотреблений и т. д. Традиционно основой лексикографической технологии были рукописные картотеки (библиографические описания источников, цитат, словарных статей и т. п.). Благодаря чудовищной трудоемкости этой работы, помноженной на ответственность за ее результаты, словари часто называют по имени их создателя - Словарь Дашковой, Даля, Срезневского, Фасмера и т. д.

Компьютерная лексикография возникла сравнительно недавно, и сейчас это быстро развивающаяся отрасль компьютерной индустрии - ведь "ословаривание" научного знания является одним из основных современных способов его проявления и распространения. Компьютерная лексикография - это также и становящаяся прикладная научная дисциплина в языкознании (лингвистике). Она изучает методы использования компьютерной техники для составления словарей. Это - временная дисциплина периода перехода от ручной и рукописной лексикографической практики к новым безбумажным информационным технологиям. Первые плоды развития этой дисциплины - встроенные в текстовые процессоры орфографические словари, а также многие другие информационно-программные продукты, активно использующиеся как в письменном, так и разговорном языковом творчестве.

В этой статье мы расскажем о применении компьютеров в исторической лексикографии, связанной с изучением истории языка, лексических групп, отдельного слова [2]. Историческая лексикография в основном сложилась к концу XIX века и сейчас находится в самой активной своей форме, однако в компьютерном мире представлена пока очень ограниченно.

Один из самых значительных результатов русской исторической лексикографии - "Словарь русского языка XI-XVII вв." (далее: СлРЯ XI-XVII вв.). Работа над ним началась с создания "Картотеки древнерусского словаря" (так называемой Картотеки ДРС), где на рукописных карточках находятся выписки из памятников письменности русского языка XI-XVII вв. Временем зарождения Картотеки и Словаря принято считать 1925 год, когда на Отделении русского языка и словесности Академии наук выступил академик А. И. Соболевский с докладом о необходимости подготовки материалов для "Словаря древнего и старого русского языка". Тогда же была создана Комиссия по собиранию словарных материалов по древнерусскому языку.

Написание Словаря, то есть лексикографическая обработка материала Картотеки длилась долго. Концепция Словаря менялась, объем его то сокращался, то увеличивался. В конце концов, первый выпуск Словаря (буквы "А" и "Б") появился в 1975 году, ни много ни мало через 50 лет после объявления о начале проекта! В текущем, 1999 году вышел 24-й выпуск (буква "С"). Коллектив Словаря насчитывает сейчас десять человек (главный редактор - Галина Богатова). Этот словарь используется в первую очередь учеными - филологами, изучающими историю русского языка по древним памятникам письменности, и специалистами по истории культуры, нуждающимися в профессиональном академическом справочнике, - но не только ими. Мир полон любознательных людей, которые, употребляя в речи привычные выражения - бить баклуши, камень преткновения и т. д., иногда спрашивают себя: а что это значит? Мало кто знает, что дельфина, например, называли морской свиньей, а привычное наречие восвояси прежде представляло собой не одно, а три слова: во своя си, где своя означало 'дом, родина, место жительства'. Эти и многие другие объяснения содержатся в фундаментальном словаре-справочнике СлРЯ XI-XVII вв.

Лексикограф привык работать с книгами, рукописями, рукописными карточками. Он пишет сначала ручкой, а затем многократно перепечатывает написанное на машинке. Использование компьютеров в области лингвистики прежде не распространялось на сферу истории русского языка. Объяснялось это отсутствием массового интереса как к собственной истории в целом, так и к истории языка в частности, а также ограниченностью числа исследователей, потенциальных заказчиков и создателей исторических лексикографических информационно-программных изделий. Немалое значение имела и сложность работ по созданию этих изделий. Чего стоит, к примеру, проблема разработки шрифтов для "Этимологического словаря славянских языков", где приводятся формы из всех славянских языков. Графика, в том числе набор диакритических знаков, здесь настолько разнообразна, что практически каждый славянский язык нуждается в разработке собственного шрифта! Еще одна причина позднего подключения историков языка к использованию электронных методов обработки лексического материала - это старинная консервативность (впрочем, в хорошем смысле слова).

Первоначально появление компьютера в среде историков русского языка, - людей, которые не только являются носителями классических гуманитарных традиций, но и гордятся этим, а потому не желают от этих традиций отказываться, - вызвало ожесточенное сопротивление. Раздавались голоса, что компьютер "губит всякую духовность" и, главное, "не создает новое знание, а занимается его интерпретацией", в то время как "подлинные ценности создавались и создаются при помощи пера и бумаги". После некоторых колебаний, проб и ошибок, сопровождавшихся раздражением и негодованием ("Зачем нам это нужно?" "Нам это не нужно - мы все равно пишем Словарь по старинке..."), оказалось, что компьютер - отличная ручка, а заодно и пишущая машинка. Чуть позже компьютер стал еще и ножницами, кистью, клеем. А потом - микроиздательством, соединив в себе те функции, которые прежде осуществляли технические редакторы при подготовке рукописи Словаря в набор.

Вскоре выяснилось, что эта же машина может повторить и сохранить нашу бесценную Картотеку, которая, будучи написанной простым пером, простыми чернилами на простой бумаге, постепенно гибнет, а вместе с ней гибнет и многодесятилетний труд сотен людей. Начался процесс сканирования Картотеки, то есть сохранение ее в виде графических файлов. Оказалось, что даже современным машинам не под силу быстро создать электронный дубль Картотеки, массив которой насчитывает около двух миллионов карточек (!). Тем не менее, коллектив Словаря приступил к созданию дубля в 1995 году одновременно с подготовкой к изданию 23-го выпуска Словаря (начало буквы "С"). По замыслу, электронный дубль Картотеки должен совпадать с издающимися выпусками Словаря. Сейчас к изданию готовится 25-й выпуск.

Одновременно с "алфавитным" подходом к созданию электронного дубля Картотеки появилась идея "тематического" подхода, когда для сканирования из Картотеки отбирались те слова, которые представляли интерес для исследователя той или иной темы. Так были созданы тематические словари "Наименование мер длины в русском языке" (автор Г. Я. Романова) и "Человек" (автор Маргарита Чернышева). Композиционно очень сложная тема "Человек", включающая не только картотечные материалы, но и данные всех известных исторических словарей русского и старославянского языков, расширенные контексты (хрестоматию), исследование (представленное в гипертекстовой форме) и др., заслуживает специального разговора [3]. Отметим лишь, что тематический подход оказался очень продуктивным, поскольку он дает возможность использовать полный объем картотечной и другой лексической информации, в отличие от информации, предоставляемой любым, самым исчерпывающим исследованием или словарем (например, в СлРЯ XI-XVII вв. на шести страницах убористой печати в две колонки находится 140 цитат на слово рука, в то время как в Картотеке их 1020).

Но исследователей не могло удовлетворить механическое сканирование, при котором решалась только задача сохранения Картотеки на жестком носителе. Очень важно было связать Картотеку и Словарь через Указатель источников. Это потребовало создания системы баз данных Картотеки, Словаря и Указателя источников. Так возникла единая информационная система на основе программной среды СУБД Paradox for Windows v. 5.0 (rus).

Основной базой данных является база СлРЯ XI-XVII вв., состоящая из двух таблиц, объединенных между собой ключевым полем "заголовочное слово". Первая таблица кроме поля "заголовочное слово" включает поля "часть речи", "род", "число", а также отсылочные поля "сравни" и "смотри". Вторая таблица более сложная. Она содержит следующие поля: "заголовочное слово" (например, сапогъ); "реконструкция" (поле, в которое попадает неопределенная, реконструируемая форма заголовочного слова); "варианты", то есть фонетические варианты заголовочного слова (в нашем случае: запогъ, сабогъ, сопогъ); "часть речи"; "число"; "род"; "падеж" (это поле необходимо при разработке предлога для указания на его управление); "инояз." (название того языка, из которого заимствовано слово, представленное как заголовочное, например, для слова самара это будет араб., то есть арабский язык); "языковая форма" (само слово соответствующего языка - zammara, что в переводе с арабского значит 'свирель, дудка, флейта, рожок'). Есть также поля "связанное сочетание" (например, в словарной статье сало: воронье сало); "семантика", "значение", "оттенок" и другие.

Совершенно неожиданно база данных заставила иначе взглянуть на привычную работу. Прежде всего, оказалось, что многие вспомогательные лексикографические работы можно "перепоручить" машине. Речь идет о проверке алфавитного порядка, составлении разного рода словников и цитатников, проверке орфографии в написанном современным русским языком определении древнерусского слова. В дальнейшем выяснилось, что компьютер способен выполнять различные поисковые операции, прежде неизвестные историку-лексикографу. Это открыло совсем новые возможности для исследований.

Создание Базы данных Словаря, построенной первоначально только на материале 23-го выпуска Словаря (2134 словарных статьи и 184 отсылочных слова), позволило выявить огромный массив словоформ, представленных в цитатном материале (например, для слова свити 'сложить, скатать, свернуть; завернуть, обвернуть; оплести, обмотать; окружить, покрыть со всех сторон' и др. - в порядке цитирования: съвитъ, свиеши, свитъ, свивъ, свит, съвьют, съви, свивъ, свитъ, свило, свиетъ, свить). Однако каждая цитата, приведенная в словарной статье, содержит слова и на другие буквы алфавита, то есть слов, а тем более словоформ, в любом отдельно взятом выпуске Словаря гораздо больше, чем 2134 слова, объявленные в предисловии к выпуску. Например, в первой же цитате из словарной статьи на слово "свити": Сударь, иже б на главЪ его, не съ ризами лежящь, нъ особь съвитъ на единомь мЪстЪ "и плат, который был на главе Его, не с пеленами лежащий, но особо свитый на другом месте" (цитата из Остромирова евангелия 1057 года - Евангелие от Иоанна 20, 7). Таким образом, всего лишь в одной цитате (первой из 13 в этой словарной статье) на слово свити встретилось 16 словоформ: бЪ (от глагола быти), главЪ (от глава), его (от онъ), единомь (от единъ, единыи), иже (современное 'который; тот, который'), лежащь (от лежати), мЪстЪ (от мЪсто), на (два раза), не, нъ (современный союз но), особь (современное 'отдельно, особо'), ризами (от риза, здесь 'кусок ткани, пелена'), сударь (современное 'плат, покрывало'), съ (современный предлог с), съвитъ (от свити). Даже одна цитата дает материал для построения микрословника. А если взять материал целого выпуска (для нас это был первоначально 23-й выпуск Словаря)? Как же увеличится микрословник, если добавить подготовленный в компьютерном варианте 24-й и готовящийся 25-й выпуски Словаря?

Первые же опыты в этом направлении привели к мысли о необходимости создания полного словника, то есть алфавитного перечня заголовочных слов из опубликованных выпусков Словаря от "А" до "С", с тем, чтобы, в первую очередь, идентифицировать встретившиеся словоформы (так называемая лемматизация). Объем введенного словника поразил самих создателей Словаря: выпуски с 1-го по 21-й (а именно в таком варианте сейчас существует словник) содержат 78 тысяч слов! Каков же объем словоформ в этих выпусках? Пока этого не знает никто. Однако можно предположить весьма впечатляющую цифру: более 500 тысяч! Огромные информационные ресурсы налицо. Как можно их использовать? Ответов на этот вопрос предостаточно (например, в системах оптического распознавания древнерусских текстов и рукописных картотек по ним, в информационно-поисковых системах и др.), но до их реализации еще далеко. Пока что хотелось бы на этом массиве проверить комплектность самого словника, то есть определить, все ли словоформы, зафиксированные в Словаре, имеют свое место в словнике.

Так постепенно на материалах Картотеки ДРС и СлРЯ XI-XVII вв. сложилась своеобразная компьютерная лаборатория в сфере исторической лексикографии (и связанной с ней исторической лексикологии) русского языка. И один из важнейших результатов этой работы - постановка в классических гуманитарных областях новых интересных научных задач, решение которых невозможно без компьютерных технологий.

1 (обратно к тексту) - См.: Р. М. Цейтлин. Лексикография // Русский язык. Энциклопедия. - М., 1997. С. 209-210.

2 (обратно к тексту) - См.: Г. А. Богатова. Исторические словари // Русский язык. Энциклопедия. - М., 1997. С. 160-162.

3 (обратно к тексту) - Подробнее см.: М. И. Чернышева, Ю. Н. Филиппович. Историко-лексикологическое (тематическое) исследование: экспериментальный опыт на основе информационной технологии // Вопросы языкознания, .1, 1999 г. С. 56-83.

Юрий Филиппович - кандидат технических наук, доцент кафедры "Автоматизированные системы обработки информации и управления" МГТУ им. Н. Э. Баумана и кафедры "Информационные технологии" Московского государственного университета печати, имеет более шестидесяти публикаций по компьютерной лингвистике, искусственному интеллекту, информатике.

Маргарита Чернышева - доктор филологических наук, ведущий научный сотрудник отдела исторической лексикологии и лексикографии Института русского языка им. В. В. Виноградова РАН, имеет около пятидесяти публикаций в области исторической лексикологии и лексикографии русского языка.