Архивы: по дате | по разделам | по авторам

Преобразование документов Word в HTML

АрхивОфис
автор : Петр Каньковски   13.09.2004

При сохранении документа в формате HTML редактор MS Word записывает в файл множество ненужной информации. Существует несколько способов уменьшить размер веб-страниц, созданных в Word.

При сохранении документа в формате HTML редактор MS Word записывает в файл множество ненужной информации. Существует несколько способов уменьшить размер веб-страниц, созданных в Word.

В Word 2002/2003 можно отключить сохранение ключевых слов, лишних стилей и прочих бесполезных тэгов, которые не обрабатываются браузерами. Для этого нажмите "Сервис > Параметры > Общие > Параметры веб-документа", выберите версию браузера Internet Explorer 3.0, а затем сохраните файл ("Файл > Сохранить как веб-страницу"), указав формат "Веб-страница с фильтром (*.htm)". Эта несложная процедура уменьшает размер файла на 5-10 килобайт.


Окно параметров веб-документа

Чтобы сделать веб-страницу еще компактнее, установите Word 97 и сохраните страницу в нем. В результате, вы избавитесь от CSS и атрибута class=MsoNormal у каждого абзаца.

При каждом переключении раскладки Word 97 вставляет в веб-страницу тэг <FONT face>. Если документ содержит как русские, так и английские слова, то таких лишних тэгов накапливается немало. Убрать их помогут программы для группового поиска-замены, например, BK Replace Em (572 кб).


Программа BK Replace Em

Тэг, начинающийся символами <FONT и заканчивающийся закрывающей угловой скобкой >, нужно заменить на пустую строку. В BK Replace Em для этого создайте новую группу (Replace > Add group), щелкните список замен правой кнопкой, выберите Advanced Edit, укажите тип замены Range Search, введите начало и конец тэга (<FONT и >), а поле Replace Text оставьте пустым. Затем добавьте нужные файлы (Replace > Insert files to) и выполните замену (Replace > Start Replacing).

В других программах нужно указать регулярное выражение <FONT *> с "нежадным" (non-greedy) модификатором. Используя поиск-замену, вы можете не только избавиться от ненужных тэгов, но и переоформить текст или установить созданный вами стиль для определенных абзацев.

Можно ли сделать веб-страницу еще меньше, сохранив оформление исходного документа Word? Оказывается, можно. В пакет макросов "Перестройка 2002" (974 кб) входит конвертор документов Word в HTML. Он выдает самый "чистый" HTML-код, не содержащий никаких лишних тэгов.

Конвертор поддерживает CSS, вложенные списки, отступы, таблицы, сохраняет рисунки в GIF, выделяет заголовки обычными тэгами <H1>, <H2>, а не увеличенным размером шрифта, как Word 97. Не обрабатываются лишь объединенные ячейки таблиц и сложное форматирование (вроде двойного подчеркивания, цветных границ таблицы). Обычные же документы конвертор преобразует без каких-либо проблем.


Конвертор из "Перестройки"

Этот макрос незаменим для веб-мастеров, которым приходится иметь дело с файлами Word. На скриншоте показан обработанный им HTML-файл (слева) и тот же файл, сохраненный в Word 2003 в режиме фильтрации (справа).


Слева - страница после конвертора "Перестройки", справа - после Word 2003

Нетрудно заметить, что конвертор генерирует намного более компактный код, который в дальнейшем легче редактировать и вставлять в свои веб-страницы.

© ООО "Компьютерра-Онлайн", 1997-2021
При цитировании и использовании любых материалов ссылка на "Компьютерру" обязательна.