Архивы: по дате | по разделам | по авторам

БД-мания, или Заметки о структурировании информации

Архив
автор : Константин Великов   15.08.2000

Если распознающая машина - персептрон - на рисунок слона отзывается сигналом "мура", на изображение ложки - тоже "мура" и на портрет великого ученого - тоже "мура", то это еще не значит, что она неисправна. Возможно, она просто философски настроена.

Анекдот


Желание искусственным образом восполнить основной недостаток (и одно из главных достоинств) человеческой памяти - способность забывать мелкие и не очень факты - не дает мне покоя уже восемь лет.

Свой первый архив я начал собирать в шестнадцать лет. Правда, тогда мне даже в голову не пришло хранить информацию в цифровом виде: поскольку все листы были одного формата (из тетради со скоросшивателем), те, что были признаны интересными, получали знак "А" в кружочке и отправлялись в специальную папку (бумажную). Со временем к архиву добавились полоски черно-белых негативов, катушки с магнитной лентой, пятидюймовые дискеты с ДВК и "Агата", аудиокассеты с программами для РК86, БК-0010, "Спектрума" и "Вектора".

Уже на этой относительно простой системе я столкнулся с проблемами, которые, как я сейчас покажу, не только не решены по сей день, но могут и вообще не иметь решения.

Попробую сформулировать набор требований к идеальному архиву, делая выводы из недостатков существующих систем.

Возьмем случай с бумажными листами.

Первое, что приходит на ум: как защитить данные от потери (время, огонь, вода, маленькие дети, веселые щенки...).

Второе: как защитить данные от несанкционированного доступа. Для вещественных объектов способ только один - спрятать, и лучше - в сейф.

Третье: как осуществлять поиск нужной информации.

В случае бумаги это - последовательный просмотр, возможна предварительная сортировка по неким группам (подпапкам). Для введения нескольких различных индексов, нужно пронумеровать объекты и при каждом (!) добавлении/удалении объекта перестраивать индексы (как это делают, например, в библиотеках). Для приличного объема исписанной бумаги и одного человека - не подойдет.

Тем не менее, перечисленные требования (кажется) замечательно реализуются, если все оригиналы будут переведены в цифровые образы.

В цифровом виде данные значительно уменьшаются в объеме (физически), легко и дешево копируются без потерь. Некоторое неудобство доставит, правда, постоянный прогресс носителей информации. [1] Бытовое шифрование (aka гражданская криптография) уже вошло в повседневную жизнь (мою, по крайней мере), что позволяет (почти) не волноваться за конфиденциальность. Вариантов индексирования и классификации, реализуемых в цифровом виде, - не перечесть.

Здесь читатель, возможно, подумает: все это уже реализовано в любой базе данных. Да, но не для рукописных страниц (и не для аудио- и видеозаписей). Кроме того, шариковая ручка позволяет еще и рисовать, и чертить схемы и т. д. А вот бы такая система принимала запросы на поиск тоже в виде написанных/начерченных от руки рисунков или их фрагментов, а? Судя по всему, эта задача по силам только нейросетевой системе.

Еще сложнее обстоит дело с графической информацией: остро встает вопрос о том, какую точность сканирования считать достаточной. И несмотря на появление систем, способных искать человека в каталоге изображений (и даже в реальном времени через камеры наблюдения) по фотографии, все еще не представляется возможным задать запрос в виде "Я и, кажется, дядя Ваня на горе Карлштайн".

Про звук в цифре на страницах "КТ" уже было достаточно написано. Обращу внимание лишь на то, что нет возможности автоматически находить музыку под настроение, а также искать по ключевым фразам (особенно сказанным в бурной дискуссии или на фоне музыкального сопровождения).

К чему я это? Похоже, решение на данном этапе одно: необходимо создать систему, способную работать в кооперации с человеком (продукты этой группы обычно называют программным обеспечением, расширяющим возможности человека). На каждого из участников такой системы должны быть возложены функции, которые он выполняет наиболее эффективно. А именно: компьютер занимается сбором и хранением большого количества точных данных и созданием индексов, которые человеку не свойственно запоминать. Человеку же должны быть предоставлены интерфейсные средства, позволяющие наглядно отражать ассоциативные связи и осуществлять по ним достаточно быстрый поиск (aka семантический поиск).

Иными словами, нет никакой пользы в любой сколь угодно точной информации, если отсутствует структура, позволяющая ее (информацию) систематизировать. Выражая очень похожие идеи, профессионалы создания и поддержания разного рода каталогов в информационных системах (Active Directory, в частности), отмечают, что в организациях, недостаточно внимательно относящихся к этому вопросу, информационные каталоги представляют собой бесполезные свалки ресурсов, в которых почти невозможно найти то, что нужно, тогда, когда нужно. К этому мнению присоединяются и руководители отечественных предприятий, полностью или частично перешедших на безбумажный документооборот: несмотря на огромные средства, вложенные в переход, он сам по себе не принес никакого усовершенствования, а значит, и прибыли. То есть для извлечения выгоды из электронного документооборота нужно менять модель функционирования предприятия, по-новому перестраивать бизнес-модель, а это обычно не выгодно никому, кроме руководителя. Пакет построения и оптимизации бизнес-процессов может запросто показать, что несколько человек с нехилой зарплатой просто не нужны. [2] А если смоделировать наш государственный аппарат, то, думаю, результаты будут ошеломительными (могу попробовать угадать).

Интересно, что в такой машинно-человеческой системе всегда будет избыточность, однако это не страшно. Как сегодня архивные системы решают проблему полнотекстового поиска по факс-изображениям? Они распознают с принятого листа всю текстовую информацию, какую можно распознать, из полученного текста создают структуру данных для полнотекстового поиска (исключают предлоги, незначащие слова, повторные и похожие словоформы) и связывают эту структуру с первоначальным изображением.

Далее в контексте "Дома XXI века" и Интернета легко можно представить шкаф XXI века - комбинируя в себе некий трансформер из отделений и сетевой интерфейс, он представит собой новое слово в идеологии мебели (предлагаю торговую марку - SmartFurniture) и когда-нибудь станет темой номера "КТ". Такой подход позволит избавить людей от постоянных циклов возрастания/убывания энтропии домашней утвари. На фразу "Да где же @#$% мой любимый галстук" шкаф мигнет лампочкой и представит искомое на выдвинувшейся полке. Правда, в такой системе сложно отследить перемещение вещей, особенно мелких. Так что, видимо, удаленно распознаваемую печать антихриста получат не только люди, но и все без исключения вещи (вообще-то они и так почти все ее имеют, особенно в крупных магазинах, "...и нельзя будет ни купить, ни продать...", впрочем, об этом - у того же Генона).

Но пробуя решить эту проблему сегодня хотя бы на уровне поиска (и правильной уборки) вещей или разнородных архивных данных [3], несмотря на довольно простые нужные функции, вы все равно столкнетесь с проблемой подбора программного обеспечения.

Требования, на мой взгляд, примитивные. Необходимо представить в виде формализованных данных область, на которую создается каталог. Это может быть сделано даже в текстовом режиме (как древовидная или сетевая структура), но проще и удобнее взять несколько фотографий объекта, а затем - почти как в HTML - выделить области, назначить ссылки на другие подобные фотографии, карточки объектов или их списки. Степень детализации может быть любой по мере надобности (как фрактал). И все! При поиске по ключевым словам система должна подсветить то место, где находится искомое. И ведь таким образом можно представить и географическую карту, и солнечную систему, и план помещения/здания, и кадровую структуру, и...

И такая система была (создана). Почему была? Потому, что умерла она без должного финансирования в раннем возрасте. Родилась в муках в бедной семье. Слишком крута была для своего времени, слишком нова. Только через год после ее первого релиза пошли разговоры о CASE, визуальном программировании [4] и т. д.

Но что уж теперь. Поздно пить "Боржоми". Однако есть задача, что не по зубам и этой системе.

Попробовал я отобразить комплекс ассоциаций между фоно- и видеотекой. Что первым был куплен такой-то альбом и почему; что, дав его послушать одному человеку, получил фильм взамен, что фильм мне этот понравился и я его купил, но на английском и без титров, что в нем мне понравился саундтрек и я купил его; что на нем были произведения двух композиторов и теперь я ищу другие их альбомы и один почти нашел... Короче, после пары часов беснования экран превратился в месиво стрелок и объектов, совершенно не наглядное и бесполезное.

А ведь есть еще библиотека, частично электронная (последняя переживает второе рождение в связи с появлением слова Vortex на страницах "КТ"), аудиокассеты, трехдюймовые дискеты, видеокассеты разных форматов и огромное количество файлов - тексты, программы, рисунки, и (по новому кругу) электронные фотографии, видео в формате MPEG, музыка в формате MP3, CD-ROM'ы. И, наконец, самое трудноописываемое - воспоминания и ощущения, переживания и чувства. [5] Задача практически не решаемая. Одно успокаивает: вся эта структура (и даже гораздо более сложная) уже создана и существует, динамически обновляется и перестраивается. Она у меня. Не знаю, где физически все хранится (и хранится ли вообще), но я имею к этому постоянный доступ. Так, может, и создавать ничего не надо, а только лучше осваивать уже созданное? А настоящий помощник, органайзер, архивариус, как правильно замечали в "КТ", должен быть нейросетевым и воспитываться и расти рядом с хозяином [6] (не правда ли, это верно и для людей?). Эти системы будут обходиться без такого таинства, как обучение в смысле передачи знаний от одного объекта другому [7] (при котором информация видоизменяется). Простое копирование...

Вот до чего доводят мысли об усовершенствовании личного архива. [8]

P. S. Я, кажется, понял, зачем пишут книги, музыку и снимают фильмы (где до конца понять ассоциативный ряд автора невозможно). Это единственный способ хоть как-то передать весь комплекс информации такого рода, как описано выше и как сама эта статья. Как вы считаете, получилось?

P. P. S. Гипотеза на обсуждение: "Формализация означает потерю информации".



1 (обратно к тексту) - Иногда кажется, что пора где-нибудь остановиться и заморозить технологии. Но нет! Эти менеджеры и рекламные агенты сделают так, что у вас не останется другого выхода кроме как купить что-нибудь новое взамен того, что еще не успело устареть. Прямо как коза с подвешенной перед носом морковкой. Динамика этого процесса сильно напоминает динамику взрыва, что ощущается многими людьми и в конце концов приведет к... Остальное можно прочитать у Рене Генона в "Кризисе современного мира". Все это сильно осложняет задачу создания и поддержания полноценного архива и заслуживает разработки специальной теории.

2 (обратно к тексту) - Поэтому переход осуществляется прямо по Жванецкому: "Трудно менять, ничего не меняя, но мы будем!"

3 (обратно к тексту) - Удивительно, насколько похожие действия приходится предпринимать, приводя в порядок материальные и информационные объекты. Вообще, лично я, например, ощущаю свой рабочий компьютер так же интимно, как жилище. И веду себя с ним похоже. И мне не нравится, когда приходят гости, особенно незваные. И на чужих компьютерах вечно нет жизненно необходимых мне программ. И... в общем, это длинная история.

4 (обратно к тексту) - "Программирование без программирования", в терминах создателей системы.

5 (обратно к тексту) - Во времена становления полуподпольного кабельного телевидения в Солнцево мне довелось посмотреть фильм (названия не помню), главный герой которого занимался нелегальной торговлей особыми дисками, позволявшими записывать и воспроизводить весь комплекс переживаний и ощущений. Сам герой собирал архив собственных переживаний. С момента просмотра того фильма меня не покидает мечта заиметь такой аппарат. Он сделал бы практически ненужными большинство остальных средств записи/воспроизведения.

6 (обратно к тексту) - Помните программу "Кит или кот"? А интересно, если прибор, у которого столько же нейронов, сколько у человека, и такие же системы восприятия информации (или больше), воспитывать вместе с обычными детьми, он будет способен чувствовать и мыслить? Или для этого нужно непостижимое начальное состояние?

7 (обратно к тексту) - Александр Мефодиевич Горбань, откликнитесь, пожалуйста. Ваш нерадивый ученик потерял все связи, но все еще помнит Вас.

8 (обратно к тексту) - Один мой товарищ, с которым мы часто дискутируем, уже обещал мне лучшую палату в частной психиатрической клинике, которую он собирается открыть. Мол, там у меня будет возможность подискутировать.



© ООО "Компьютерра-Онлайн", 1997-2022
При цитировании и использовании любых материалов ссылка на "Компьютерру" обязательна.