Архивы: по дате | по разделам | по авторам

Трубные звуки золоченых рогов

Архив
автор : Сергей Голубицкий   18.11.2005

Как обещано - рассказ о программе Евгения Троицкого "Архивариус 3000", стремительно и мощно пульверизировавшей статус-кво Data Mining вослед блистательной ContentSaver’у.

Как обещано - рассказ о программе Евгения Троицкого "Архивариус 3000", стремительно и мощно пульверизировавшей статус-кво Data Mining вослед блистательной ContentSaver’у. Отлавливаю себя на мысли, что из-за осеннего изобилия по-настоящему достойных программ приходится жестоко херить культур-повидло. А жа-а-алко! Вот и сейчас вынужден ограничиться карликовой загогулиной, навеянной письмом читателя.

Написал Максим Белозеров: "Вы неоднократно в своих статьях поддерживали идею свободного и бесплатного распространения программ и нещадно гнобили пропиндосских шареварщиков. Но что-то меня стали посещать нехорошие мысли - а не поразил ли Вас, часом, мучнистый дух Скупого Феликса? Или Вас выкрал Ернар Шамбаев и подменил алчным роботом? Неужели Вам слабо выложить для страждущей публики свои книги в виде халявных ебучков - хоть бы и урезанных ознакомительных демо-версий?"

В этом ироничном крике души столько путаницы и непонимания моей позиции, что я просто обязан дать пояснения. Первое: я никогда в жизни не боролся за идею бесплатного распространения программ! Я боролся за право каждого человека пользоваться интеллектуальным продуктом бесплатно. Capici разницу? Если программист хочет бесплатно раздавать свои программы соотечественникам, ограничивая продажи пиндосским рынком, - флаг ему в руки и народная адорация. Если не хочет - нема проблема! Только не нужно роптать, когда вашу шаревару в один прекрасный день порвут на гербарий. Программист волен продавать, пользователь крякать. Jedem Das Seine.

Второе: про книги. Де-юре "мои книги" принадлежат не мне, а издательствам - "Бестселлеру" и "НК Пресс". Что - мне предлагается скоммуниздить их собственность и выложить на халяву онлайн? Если бы меня с этими издательствами ничего личного не связывало, то никакой морально-этической вломности от сканирования книг и их распространения в Интернете не возникало бы. Однако в конкретной ситуации - меня с ними именно что связывает. В адской иерархии Данте Алигьери подобный поступок называется обманом доверившихся, квалифицируется как наиподлейшее преступление и карается соответственно. Никогда в жизни я не передавал в третьи руки ни единой регистрации программ, полученной от самого автора. Точно так же никогда не написал ни одного плохого слова о программах, авторами же предоставленных. Принципы эти святы.

Третье: в опубликованных книгах мне принадлежат авторские права только на текст, и текст этот давным-давно находится в свободном доступе - либо на internettrading.net, либо на порталах журналов "Инфо-бизнес", "Бизнес-журнал" и "Компьютерра". Ищите внимательно и обрящете. Так что наезд Максима Белозерова смело свожу к претензии: "Почему не поднесли на блюдечке с голубой каемочкой да шоб мед сразу по усам потек?" На что отвечаю: "Приходите вчера!"

Итак, "Архивариус". Эту замечательную программу открыл для меня Илья Шутов, за что ему - чистосердечный спасимбарий! Скачал демо-версию. Понравилась настолько, что сразу же ринулся покупать (редкостный порыв!), а там - засада: ненаглядный "Софткей"! Согласитесь, было бы странно после пламенных призывов к бойкоту этой работорговой лавки самому в ней отовариваться. Написал письмо Евгению Троицкому с просьбой принять оплату через WebMoney. Евгений справедливо рассудил, что добросовестный тестировщик в обойме поважнее будет, чем 295 рублей (стоимость лицензии для соотечественников), и регистрационный ключ мне просто отдарил.

И не прогадал: я гонял "Архивариус" с пристрастием, отлавливал баги и жаловался демиургу на отсутствие важных (на мое скромное имхо) фич. Поразительна оперативность, с которой Евгений Троицкий вносит изменения в программу, дополняя ее не косметическими рюшками, а фундаментальными опциями. Так, прочитав из любопытства последние "Голубятни", посвященные Data Mining, Евгений аки змей-искуситель буквально в течение одного дня усилил "Архивариус" поддержкой формата MyBase (Nyf).

Напомню читателям, которые сегодня первый раз в жизни услышали про "Голубятню": весь октябрь нас основательно клинило на датамайнинге (или инфокопстве) - процессе сбора, обработки и анализа информации. Одним из важнейших аспектов этого процесса является создание реляционных индексируемых баз данных, и именно к этой софтверной группе относится "Архивариус".

Долгие годы эталонной для меня была программа Cros, вознесшаяся на небосклон датамайнинга за счет скорости индексации: огромные информационные массивы, которые "Евфрат" - любимец россиянской бюрократии - был даже не в состоянии обработать (зависая), Cros проглатывал в считанные минуты. Но то, что в 1999 году казалось огромным (300 Мбайт), сегодня играючи отъедается какими-нибудь четырьмя (из шестнадцати) томами "Энциклопедии животных Гржимека" в формате PDF. Сам же книжный мой архив давно перевалил за три гигабайта. Тут-то и нанес "Архивариус" роковую хиза-гери-мовашу в ухо Cros’а: и не просто опередил по скорости индексации былого фаворита, а прямо-таки растерзал его (рис. 1).

32 тысячи документов и 190 миллионов слов: на обработку этого монстра "Архивариус" затратил 53 минуты! Размер созданного индекса - 1,32 Гбайт: меньше половины исходного материала. Феноменальный результат, учитывая, что треть файлов в моей библиотеке упакована в изначально компрессированный формат PDF. А что же Cros? В моей персональной Библии - "Цитадели" Сент-Экзюпери - сказано: "Нельзя унижать тех, кто главенствовал и кому воздавали почести. Нельзя отнимать у царя царство и превращать в нищего подававшего милостыню". Посему не буду придавать огласке ужасающие показатели, продемонстрированные Cros при индексации моего нового книжного архива. Ограничусь щадящей констатацией: цифры моего любимца хуже на порядок.
Наиболее рельефно технологическое отставание Cros проявляется на фоне многообразия настроек, демонстрируемых "Архивариусом" при создании индекса. Начнем с того, что программа Евгения Троицкого умопомрачительно всеядна: кроме файлов, директорий и жестких дисков она индексирует почтовые базы The Bat!, Netscape, Mozila, Thunderbird, Firebird, Firefox, Outlook Express, Outlook и Eхchange всех версий (рис. 2).

Дальше - больше: Cros обрабатывает исходные документы в форматах TXT, MS Word, HTML, RTF, Lexicon, Excel, PDF и ряда архивов (ZIP, ARJ, RAR, IMP и LHA). "Архивариус" же играючи расправляется с сорока (!) форматами - причем такими, что и назвать страшно: Adobe PageMaker, журнал Zinio Reader (ZNO), таблицы Moxcel и внешние отчеты "1С:Предприятия", база данных WinOrganizer (GSO), таблицы Lotus 1-2-3, файл ICQ-chat и т. д. до полного мозгового эклипса (рис. 3).

Следующее потрясение - опция морфологической обработки индекса, которая позволяет формулировать запросы в естественном виде на восемнадцати языках! Казалось бы, дальше некуда, но Троицкий, явно издеваясь над границами пользовательской фантазии, предлагает определиться еще и с расширениями файлов, подлежащих индексации, - аккурат 72 штуки (рис. 4).

Заключительный coup de grace - поддержка 115 кодировок, - и "Архивариус" приступает к индексации вашего информационного архива с крейсерской скоростью 1 мегабайт в секунду. По завершении процедуры мы попадаем в главное окно, которое своей лаконичностью напоминает Cros за вычетом демонстративного недружелюбия последнего (рис. 5, 6).

Без штудирования мануала в интерфейсе Cros ничего понять невозможно, тогда как в "Архивариусе" ничего понимать и не требуется: полная интуитивность на уровне компьютерного неандертальства пиндосской домохозяйки. Особо ценно, что эффект достигается без ударов ниже пояса - всех этих дурашливо скачущих по экрану скрепочек и песиков.

Возьмем, к примеру, закладку "Индекс": название базы данных, количество документов, размер, дата обновления и создания. Тут же под носом - букет расхожих манипуляций: изменение настроек базы данных (типов файлов, расширений, кодировок и т. п.), повторная индексация, компрессия, планировщик. Особо перспективно смотрится последняя функция, позволяющая автоматизировать обновления индексной базы (рис. 7).

Сердцевина любой программы для создания реляционной индексируемой базы данных - ее поисковая система. О том, как она выглядит у "Архивариуса", поговорим через неделю.

Линки, помянутые в "Голубятне", вы найдете на internettrading.net/guru.

© ООО "Компьютерра-Онлайн", 1997-2024
При цитировании и использовании любых материалов ссылка на "Компьютерру" обязательна.