Идеальный формат
АрхивRIAA и иже с ней давно объявили войну музыкальным пиратам и распространению музыки через Интернет и пиринговые сети.
RIAA и иже с ней давно объявили войну музыкальным пиратам и распространению музыки через Интернет и пиринговые сети. Заголовки газет и журналов пестрят сводками с поля боя, на очередную «зачистку» варез-групп те отвечают дефейсом сайтов самой RIAA. Подобное, пусть и в меньших масштабах, происходит и с видео. В то же время проблемы пиратства и законного распространения электронных книг практически не обсуждаются (У нас в стране проблемы распространения электронных книг обсуждаются более чем активно (см., например, «КТ» #539), но мы тут впереди планеты всей: представить англоязычный веб-ресурс уровня Библиотеки Мошкова попросту невозможно. При этом нельзя сказать, что американцы или британцы, занимающиеся сканированием и вычиткой текста, работают хуже или меньше своих российских коллег. Просто отсканированные книги распространяются не через веб, а в IRC, что, с одной стороны, осложняет жизнь борцам с пиратством, а с другой — на порядки уменьшает количество интернет-пользователей, способных загрузить электронную версию книги, с IRC умеют работать далеко не все. Да что там работать — даже о его существовании среднестатистический пользователь Интернета не знает). Да и существуют ли они?..
Электронная книга, в отличие от оцифрованной музыки, явление все еще довольно экзотическое. Попытки их продаж оказались не слишком успешными: например, Barnes&Noble.com прекратил торговать электронными книгами в сентябре прошлого года. То, что можно бесплатно скачать из Интернета, в большинстве своем не дотягивает до гордого имени электронной книги: скажем, lib.ru, крупнейшая и самая известная библиотека Рунета, выкладывает произведения в формате txt, то есть без оформления и иллюстраций, а зачастую и без вычитки. К сожалению, хорошо подготовленная электронная книга сейчас скорее исключение, чем правило.
На самом деле, малое распространение электронных книг не столь уж удивительно. Причин тому много. Здесь мы не будем говорить о привязанности людей к бумажным книгам и назовем чисто объективные факторы.
- Беда электронных книг — в отсутствии удобных и дешевых устройств для их чтения. Читать с экрана монитора очень неудобно и утомительно. Кроме того, компьютер в дорогу не возьмешь. Распространенность же специализированных устройств (Rocket Book (Rocket Book уже несколько лет не выпускаются… Несмотря на то что аналогичные устройства разрабатывают и производят такие компании, как Sony, особым успехом они не пользуются. Кроме того, до сих пор специализированные устройства слишком дороги и недостаточно качественны. Электронные книги собираются внедрять в образовательных учреждениях Украины, но и здесь прототипы пока разочаровывают (www.the-ebook.org/e107/content.php?article.67, www.jim.pp.ru/alter/ebook_18.htm )) и т. п.) и КПК крайне мала. Сравните, сколько продается КПК и сколько — обычных персональных компьютеров.
- Производство электронных книг «в домашних условиях» на порядок сложнее, чем оцифровка музыки или видео: каждую страницу надо отсканировать, пропустить через программу распознавания текста, проверить текст, сконвертировать в нужный формат, и только тогда электронная книга будет готова к распространению. Этап вычитки, как правило, отсутствует, так что и качество конечного продукта остается низким.
Однако главное бедствие в том, что до сих пор нет приемлемого средства распространения — общепризнанного формата электронных книг.
Существующие форматы многочисленны, неуниверсальны, подчас мало распространены и зачастую ограничивают права официального владельца электронной книги.
Столь плачевная картина резко контрастирует с высокой востребованностью электронных книг, по крайней мере некоторых из них. Например, пятую часть Гарри Поттера я смог скачать из Сети на следующий день после начала официальных продаж печатной книги. Причем я не искал книгу специально, просто она попалась мне под руку… Что это значит? Что многие фанаты купили эту книгу, отсканировали и распознали свои несколько страниц, потом отправили их координатору, который собрал из фрагментов единый текст и выложил в Сети. Это ли не свидетельство востребованности? В России для многих это был единственный шанс прочесть новинку, не дожидаясь появления официального перевода: заказать и доставить книгу к нам очень тяжело (отсутствие кредитных карточек, время доставки, стоимость, наконец (Все эти факторы действуют не только в России, но и в Европе и США: прочтите статью «In the Virtual Stacks, Pirated Books Find Eager Thumbs» в New York Times (www.nytimes.com/2004/06/03/technology/circuits/03book.html, необходима бесплатная регистрация))), а официальный перевод появился только через несколько месяцев.
Огромным успехом пользуются специализированные книги, посвященные программированию, управлению проектами и т. д.
Давайте попробуем составить перечень параметров, которыми должна обладать электронная книга. Сразу оговоримся, что это взгляд читателя, не учитывающий проблем защиты контента. Такой взгляд тем более правомерен, что в данный момент ни один из закрытых и «защищенных» форматов не обеспечивает действенной защиты. Не верите? Введите в любой поисковик имя Дмитрий Скляров или название маленькой утилитки Convert Lit. Кроме того, наиболее удачные западные магазины (Fictionwise, Baen), торгующие электронными книгами, вообще не защищают свой товар (Очень интересный доклад Кори Доктороу (Cory Doctorow), посвященный проблемам защиты контента, был недавно прочитан на заседании Microsoft’s Research Group. Его полный текст находится здесь: www.dashes.com/anil/stuff/doctorow-drm-ms.html).
Итак:
- открытость формата, что позволяет разрабатывать программы для чтения, создания, преобразования и каталогизации электронных книг;
- возможность адекватного отображения текстов различной направленности (проза, поэзия, техническая литература и т. д.), поддержка таблиц и иллюстраций;
- поддержка языков, не использующих латиницу;
- наличие программ для чтения на максимальном количестве платформ и устройств, в том числе и КПК;
- возможность внешней индексации и поиска по текстам;
- минимальный размер;
- возможность обратной конвертации.
На данный момент существует не меньше десятка распространенных форматов электронных книг, но, к сожалению, нет стандарта де-факто, удовлетворяющего хотя бы большинству вышеупомянутых требований. Еще больше осложняет ситуацию то, что сейчас есть как минимум две активно конкурирующие платформы: Palm OS и Pocket PC (Активно конкурируют сейчас только эти две платформы: Psion’ы давно не производят, их потомки на Symbian не слишком приспособлены для чтения, а Linux так пока и не заняла твердого положения на рынке КПК: реально сейчас распространены только Zaurus — КПК от Sharp), на каждой из которых — свои форматы. И если все форматы палмовских электронных книг так или иначе можно прочитать на Pocket PC, то обратное далеко не всегда справедливо. А кто знает, в каком формате удастся найти желанную книгу…
Можно долго описывать особенности перечисленных форматов или мечтать о появлении нового идеального формата, но в сложившейся ситуации подавляющему большинству пользователей гораздо интереснее узнать, понимает ли его читалка конкретный формат и можно ли сконвертировать скачанный файл в тот формат, который она понимает.
К сожалению, практически все форматы задумывались как конечные и для дальнейшего редактирования и/или конвертации не предназначены…
Итак, есть два варианта решения этой проблемы: найти либо универсальную программу для чтения, либо — универсальный конвертор.
Что ж, рассмотрим первый вариант. К сожалению, пока это кажется утопией. Ни на Palm OS, ни на Pocket PC нет ни одной программы, которая могла бы прочесть все форматы электронных книг, существующие хотя бы в рамках данной платформы. Так что зачастую владельцы КПК вынуждены устанавливать две-три программы, выполняющие одни и те же функции. Хуже всего дело обстоит с чтением iSilo и Microsoft LIT — эти форматы по зубам только программам самих разработчиков. Кроме LIT, на Palm’е невозможно прочитать и один из самых популярных и многообещающих форматов электронных книг — FB2 (Fiction Book 2).
Рассмотрим второй вариант. Здесь ситуация чуть лучше, но все равно далека от идеальной. Почти у каждой программы сейчас свой закрытый формат, так что разработка и распространение конвертеров может оказаться подсудной. Сама попытка вскрытия защищенного формата по Digital Millennium Copyright Act или, скажем, его британской реализации — European Union Copyright Directive — противозаконна. Исходно же создавались с расчетом на возможность дальнейшей конвертации лишь OEB и FB2.
И все же я знаю один почти универсальный конвертор — это BookDesigner 4. Он работает с txt, html, doc, rtf, pdf, prc (MobiPocket), pdb (PalmDoc), rb (Rocket eBook), kml (hiebook), fb2, xml и tcr (Psion). Только учтите, что зачастую полноценный экспорт просто не возможен в силу ограничений конечного формата: ну не поддерживает pdb графику, а txt — даже базовое форматирование текста (Не совсем так. Полноценной поддержки форматирования в txt, конечно, нет, но читатели и писатели давно приспособились к ограничениям формата и тот же курсив, например, зачастую обозначают, заключив выделенное слово в подчерки. Вот так: _слово_) (курсив, полужирное начертание и т. п.). Тем не менее, уверен, что такого солидного набора обрабатываемых форматов хватит для подавляющего большинства случаев. Существует также множество специализированных конверторов, которые понимают один-два формата.
К сожалению, BookDesigner на дух не переносит iSilo-pdb и не всегда корректно обрабатывает форматирование документа. Например, подготовить в BookDesigner FB2-документ, который пройдет валидацию, ой как не просто… С другой стороны, далеко не все будут мучиться и готовить валидный документ, необходимый для библиотек.
С текущей плачевной ситуацией может покончить только появление нового открытого формата электронных книг, который станет стандартом де-факто, общим для Palm, Pocket PC (а значит, и Windows), Symbian и Linux. Именно такую цель ставит перед собой OpenReader Consortium, занимающийся расширением возможностей OEB (Open E-Book). Список участников говорит о радужных перспективах проекта. Пока же наиболее развитым форматом является FB2, который, к сожалению, пока не поддерживается ни одной программой на Palm OS. Проиллюстрировать его универсальность и гибкость можно хотя бы тем, что документ, хранящийся в библиотеке в формате FB2, может быть преобразован в pdb (PalmDoc), iSilo pdb, OEB, RTF, RocketBook.
Распространение принципиально открытого формата не должно смущать издателей: пример того же Microsoft LIT показывает, что документ в открытом формате можно включить в любой контейнер, ограничивающий распространение и копирование. Я считаю, что читатель должен иметь возможность делать с электронной книгой все то же, что и с обычной: отдать, подарить, перепродать, наконец. Но это вопрос для религиозных войн, а не для обзорной статьи.
Форматы для электронных книг
Какие из существующих ныне форматов претендуют на роль лучшего формата для электронных книг?
- PDF и Adobe eBook
- CHM
- RB
- PDB (PalmDoc aka Aportis Doc)
- iSilo PDB
- DjVu
- OEB
- Microsoft LIT
- Обычный TXT
- HTML
Плюс множество мелких проприетарных либо обычных настольных форматов — от Microsoft Word DOC до Quark & LaTeX.
Этот формат вовсе не предназначался для создания электронных книг. Исходная идея состояла в том, чтобы документ, подготовленный к печати на одной машине, можно было бы в том же самом виде распечатать на другой, независимо от ее конфигурации, ПО и настроек. Так что PDF ориентирован в основном на печать. Собственно, это и есть его главный недостаток. Даже несколько лет назад объем такого документа мало кого волновал — зачем, у большинства верстальщиков стояла магнитооптика. Вот и получаются многомегабайтные файлы. Возможность отображения на маленьком экране? Опять-таки зачем, ведь документ создан для печати. Как следствие, Adobe вынуждена изобретать различные уловки, такие как Reflow. Кроме того, это конечный формат, а значит, в принципе не приспособлен к тому, чтобы извлекать из него текст (извлечь, конечно, можно, но какими усилиями…). Adobe eBook еще хуже — ему свойственны все изъяны исходного PDF, вдобавок этот формат читает только Adobe eBook Reader, а его защита ниже всякой критики.
HTML
По открытости, индексируемости, конвертируемости и читаемости на любой платформе к формату нет никаких претензий. Иное дело, что полноценная книга с иллюстрациями будет состоять из нескольких файлов, а это не слишком удобно. К тому же отсутствует сжатие. Возможностями HTML пользуются многие форматы, основанные на нем, например iSilo.
TXT
Противоречивый формат. С одной стороны, он не поддерживает оформление текста, а с другой — нет такой платформы, на которой txt-файл нельзя было бы прочесть.
CHM
Идея формата проста и понятна — вместо множества разрозненных HTML-страниц с сопутствующей графикой сделать один файл, который удобен в работе и занимает мало места благодаря ZIP-сжатию. На самом деле, если бы стандартные или хотя бы распространенные программы для чтения, существующие на Palm и Pocket PC, понимали этот формат, я бы с удовольствием попытался его использовать. А так… приходится писать статьи (www.livejournal.com/community/ru__pda/6493.html) о том, как из него можно добыть информацию для последующей конвертации и чтения на КПК (достать информацию из CHM — не совсем стандартная задача).
OEB
Открытый формат, основанный на XHTML (XML) и созданный в свое время консорциумом компаний под предводительством Microsoft. По сути, OEB-книга представляет собой ZIP-архив xhtml- (xml-), графических файлов и файла с информацией о документе в целом. В своем текущем состоянии формат практически мертв, однако сейчас OpenReader Consortium строит грандиозные планы по расширению возможностей OEB и его превращению в действительно универсальный формат. Что ж, пожелаем удачи…
LIT
Закрытый формат, основанный на OEB. По сути, LIT скорее не независимый формат, а DRM ([Digital Right Management] — технология защиты авторских прав в цифровом пространстве)-контейнер для обычных OEB-документов. Индексации не поддается, читать, насколько я знаю, можно только на Windows и Windows Mobile. Обратная конвертация файлов в этом формате на территории США противозаконна. Такие попытки ограничения прав пользователей через системы DRM не смогли остановить пиратов, но сильно усложнили жизнь легальным читателям.
DjVu
Узкоспециализированный растровый графический формат, предназначенный для передачи текста именно в том виде, в котором он был подготовлен. Прекрасно подходит для хранения рукописей, текстов с рукописными заметками и т. д., однако абсолютно непригоден к обработке, индексированию и чтению на КПК.
iSilo
Очень интересный формат: поддержка иллюстраций, высокая степень сжатия файла, возможность конвертировать страницы сайтов, сохраняя взаимные ссылки, и пр. Жаль только, что читать эти документы могут лишь программы от самой компании iSilo. В свое время на Palm мне большего и не требовалось, но на Pocket PC это уже раздражает.
PDB — Palm Doc (Aportis Doc)
Что сказать? Графика не поддерживается, степень компрессии текста не впечатляет… Зато понимают его практически все КПК-читалки, да и конверторов более чем достаточно.
FB2
Открытый формат, основанный на XML, что (теоретически) позволяет создать программы для чтения на любой платформе; Unicode устраняет проблемы с книгами на любых языках (аксаны, диакритики и т. д. поддерживаются); возможно включение иллюстраций. Для Windows уже есть обширный инструментарий: софт для конвертирования (в FB2 и из него), индексирования, чтения под Windows и Pocket PC. Весь софт, что приятно, бесплатен. Кроме того, существуют библиотеки, поддерживающие FB2 и экспорт из него в различные форматы. Удивляет, однако, что пока нет читалок FB2 под другие платформы, особенно под Palm. Правда, разработчики TiBR’а обещали включить поддержку FB2 в версии 2.х. Уклончиво, но все-таки обещали.
RB
Стремительно умирающий формат: создавался он специально для RocketBook’ов, а их производство давно прекращено.