Читать онлайн «Формальные структуры текстовых документов: Курс лекций»

Автор Капустин А. В.

Формальные структуры текстовых документов Курс лекций В. А. Капустин Введение Формальная структура документа – зачем? Зачем беспокоиться о формальной структуре документа? И какого документа? Конечно, есть много видов документов, для которых формальная структура важна: 1. Законодательство 2. Документация на программные средства 3. И вообще разнообразная документация 4. Словари – несколько неожиданно 5. Что ещё? Но выявление формальной структуры и в документах других видов, не исключая деловую и литературную прозу, поэтические и драматургические произведения, также может оказаться небесполезным. Наиболее очевидная польза от явного выявления (разметки) формальной структуры – воз‐ можность автоматической публикации документа в различных визуальных представлениях (конечно, «ручная подгонка» внешнего вида может понадобиться, но выгода от использования разметки может быть весьма значительной). Современный инструментарий для работы с XML‐ документами (XSLT‐преобразования) позволяет преобразовывать XML‐документы в любые мыслимые визуализируемые форматы документов, начиная от простого текста и заканчивая языками описания страниц. Такое применение разметки, между прочим, говорит о том, что для неё следует применять XML, поскольку для других способов разметки подобные инструменты либо совсем отсутствуют, либо далеко не так мощны, как XSLT, либо гораздо более сложны (только представим себе сочетание sed, awk и troff). Но польза разметки может быть и в другом. Представим себе, что в сборнике биографических статей размечены все упоминания о лицах.
Это позволило бы, например, не только получить при публикации указатель лиц, но и организовать поиск текста, в котором упоминается требуемое лицо! Подобные применения разметки могут быть весьма разнообразны: можно выделять грамматические формы, а можно – географические названия... Кроме упомянутых применений, которые сейчас составляют 99% применений разметки формальной структуры документа, можно придумать еще много. В частности, если разметка стандартизована, то возникает возможность обмена размеченными документами между информационными системами. Немного истории Интерес к разметке формальной структуры документов возник с появлением самых первых средств разметки и форматирования текста в конце 50‐х – начале 60‐х годов XX века. Но в этих средствах, как правило, присутствует возможность выделить в документе только наиболее очевидные формальные структуры: разделы, абзацы и т. п. Наследниками этих средств разметки стали современные текстовые процессоры, яркий представитель которых – Microsoft Word. Все подобные средства позволяют смешивать визуальную разметку со структурной, что чрезвычайно затрудняет автоматизацию обработки так размеченных текстов. Другой наследник – TEX, который, в принципе, позволяет полностью отделить структурную разметку от визуальной и выделить в тексте любые структуры. Практика применения TEX, однако, далека от такого идеала. В конце 60‐х – начале 70‐х годов XX века появились языки структурной разметки.