Архивы: по дате | по разделам | по авторам

PDF по запчастям

автор : Андрей Крупин 23.10.2008

Не так-то просто иногда бывает извлечь текстовую информацию из PDF-документа, даже при использовании Adobe Acrobat. В таких случаях приходится прибегать к различным программным инструментам и онлайновым сервисам.

При работе с документами формата PDF нередко возникает необходимость на скорую руку извлечь хранящуюся в них текстовую информацию. Казалось бы, что может быть проще: открыл Adobe Acrobat, выделил нужный кусок текста и через буфер обмена перенес его в тот же Word, например. Это в теории, а на практике при копировании данных часто возникают различного рода проблемы - от нарушения форматирования текста до порчи шрифтов. В таких случаях не остается иного выхода, как использовать различные другие методы выдергивания текстов из PDF-файлов.

Способ первый - использование почтового сервиса Gmail. Схема предельно простая: убеждаемся, что размер PDF-документа не превышает 20 Мбайт и затем отправляем его на зарегистрированный в Gmail почтовый ящик. Далее дожидаемся прихода письма с вложением, открываем его и жмем по ссылке View as HTML для просмотра содержимого файла в гипертекстовом формате. Вот и все. Согласитесь, очень удобно. К тому же, почтовый сервис Google отлично справляется с задачей преобразования документов, поддерживает кириллицу и не требует денег.

Второй способ - применение разработанного американской компанией Snowtide Informatics онлайнового сервиса PDFTextOnline. Построенный с использованием модной технологии AJAX, он довольно ловко и быстро расправляется с файлами формата PDF прямо в окне браузера. PDFTextOnline является бесплатным инструментом, поддерживающим обработку кириллических шрифтов и не только их.

Третья метода - использование специализированных продуктов, таких, как ABBYY PDF Transformer (1500 рублей), Solid Converter PDF (70 долларов США) или PDF to Text Converter (30 долларов США). Как правило, коммерческие программы имеют широкие возможности и достаточно неплохо справляются со своими должностными обязанностями. Однако, чтобы не выбрасывать деньги на ветер, я советую перед покупкой любого приложения сначала оценить в деле предлагаемые разработчиками бесплатные пробные версии конвертеров и сделать осознанный выбор в пользу того или иного продукта.

Еще вариант - применение альтернативных PDF-редакторов. Опять-таки, коммерческих. Кому лень заниматься поисками, могу порекомендовать программу Infix от английской компании Iceni Technology. Несмотря на заморское происхождение, приложение неплохо работает с кириллицей и умеет извлекать из PDF-файлов тексты как с сохранением форматирования, так и без оного. Стоимость редактора составляет 100 долларов США, школьники и студенты вузов могут получить программу бесплатно.

У кого нет лишних денежных знаков или кто считает, что глупо расставаться с заработанной потом и кровью финансовой наличностью из-за пары-тройки страничек формата PDF, тот может рискнуть воспользоваться бесплатными конвертерами, введя в любом сетевом поисковике фразу free pdf converter. Именно - рискнуть, поскольку результат обработки PDF-файлов подобного рода программами и утилитами не гарантирован, особенно, если в документе фигурируют тексты на русском языке. Да, и еще: если надумаете взять на вооружение данный метод, обязательно проверяйте каждое скачиваемое приложение антивирусом. Так оно спокойнее будет.

Возвращаясь к онлайновым продуктам, поспешу порекомендовать для практического использования универсальный сервис конвертации Zamzar.com. Он тоже умеет обрабатывать файлы PDF и преобразовывать их хоть в обычный текст, хоть в доковский формат. О работе с инструментом Zamzar.com мы рассказывали, повторяться не будем. Скажем только, что преобразованные файлы хранятся на удаленном сервере в течение суток, и за это время нужно не забыть их забрать.

Наконец, при наличии на компьютере офисного пакета Microsoft Office 2007 версии Home and Student или Ultimate можно прибегнуть к седьмому способу, заключающемуся в использовании программы OneNote. Прелесть ее в том, что она имеет распознавать в графических файлах русский текст. Все, что потребуется дополнительно сделать, это перевести PDF-документ в изображение. Каким способом? Да хотя бы при помощи клавиши PrtScr на клавиатуре компьютера и редактора Paint, испокон веков присутствующего в любой версии операционных систем Windows.

Пишите, если есть, что добавить.