Курс лекций: Информационное обеспечение автоматизированных библиотечных систем. Часть 4 — Технологии создания электронных документов
- Курс лекций: Информационное обеспечение автоматизированных библиотечных систем. Часть 4
- Семантическое кодирование информации
- Две группы методов, используемых в системе кодирования
- Регистрационное кодирование
- Общая технология формирования баз данных АБИС
- Модели данных
- Реляционная база данных
- Процедура проектирования
- Структурирование информации в базах данных
- Операции реляционной алгебры
- Технология формирования документографических баз данных
- Технология формирования фактографических баз данных
- Технологии создания электронных документов
- Технологии создания web-сайтов автоматизированных библиотечно-информационных систем
- Состав и содержание работ по проектированию информационного обеспечения АБИС
- Реально сложившаяся практика проектирования АС
- Нормативно-справочная база проектирования информационного обеспечения АБИС
Сегодня уже неудивительно, когда читатель (пользователь), приходя в библиотеку и проведя в ней определенное количество времени, не только не пользуется ее фондом, но даже и не делает попытки заказать литературу. Многие свои потребности пользователи удовлетворяют на информационном уровне, т.е. вполне довольствуются библиографической, реферативной, справочной и иной электронной информацией, полученной через Интернет, с помощью CD-ROM или иным способом. Более того, развитие электронного ресурса приводит к тому, что многие библиотеки, не имея средств на комплектование зарубежных изданий, находят возможность организовать доступ своим пользователям к полнотекстовым электронным ресурсам, и эти тенденции набирают силу (электронная научная библиотека РФФИ, электронные издания Института "Открытое общество" — Россия и др. предоставили бесплатный доступ многим библиотекам к нескольким тысячам названий зарубежных журналов). Кроме того, получает все большее распространение электронная доставка документов, которая позволяет пользователям библиотек, не приходя в саму библиотеку, заказать со своего рабочего места (или из дома) электронную копию той или иной статьи, брошюры, фрагмента книги и в считанные мгновения получить ее. При этом нельзя не отметить, что уже во многих библиотеках число удаленных обращений (посещений) к Интернет-сайту библиотеки превосходит число обычных физических посещений.
Все вышеизложенное подтверждает, что старые представления о библиотеке рушатся на глазах. Читатель уже далеко не всегда приходит в библиотеку за документом, он приходит за информацией и/или электронным ресурсом. Библиотека постепенно превращается в центр информационных электронных ресурсов, сохраняя, тем не менее, за собой функции обычной библиотеки по обслуживанию пользователей печатными документами. Эта новая функция современной библиотеки не только наглядно иллюстрирует одну из главных тенденций современной библиотечной деятельности, она также должна учитываться как в планировании развития автоматизированных библиотечно-информационных технологий, так и в целом для пересмотра уже устаревшей концепции традиционной библиотеки.
Технологии создания электронного документа
Во — первых, это технологии аналитико — синтетической обработки информации в АБИС.
Аналитико — синтетическая обработка (АСО) — отдельные процессы, включающие операции или группы операций, связанные с анализом документов или данных но не ведущие к существенному изменению их содержания, структуры и вида. В автоматизированных системах АСО может выполняться как в виде ручных, "человеко-машинных", так и чисто "машинных" (т.е. с использованием только автоматизированных средств) операций. Примерами полностью или частично автоматизированной реализации АСО могут служить операции сортировки, записи/перезаписи, кодирования, декодирования, шифрования/дешифрования, конвертирования и др. Обработка данных — обобщенное наименование разнородных процессов, связанных с данными. Можно отметить некоторые термины, связанные с видами обработки данных:
- Интегрированная обработка данных — принцип организации обработки данных в автоматизированной системе, при котором процессы или операции, ранее выполнявшиеся в различных организациях, подразделениях или участках технологической цепи, объединяются или оптимизируются с целью повышения эффективности системы. Одной из возможных целей "интегрированной обработки данных" является создание интегрированных баз данных.
- Распределенная обработка данных — обработка данных, проводимая в распределенной системе, при которой каждый из технологических или функциональных узлов системы может независимо обрабатывать локальные данные и принимать соответствующие решения. При выполнении отдельных процессов узлы распределенной системы могут обмениваться информацией через каналы связи с целью обработки данных или получения результатов анализа, представляющий для них взаимный.
- Автоматизированная обработка (данных/документов) — обработка (данных или документов), выполняемая автоматически, без участия человека или при ограниченном его участии. Техническими средствами реализации "автоматизированной обработки" могут быть ЭВМ или иные устройства, машины.
- Машинная обработка — выполнение операций над данными с помощью ЭВМ или других устройств обработки данных.
- Предмашинная обработка, подготовка данных для ввода — этап аналитико-синтетической переработки или обработки документов, связанный с формализацией итоговых документов и записью их содержания на рабочий лист.
- Сортировка — автоматическое или ручное распределение документов или данных по каким-либо заданным признакам. Совокупность процессов, связанных с приведением записей в файле в соответствие с последними изменениями в предметной области или полученными новыми сведениями (данными). "Обновление файла" предполагает выполнение следующих операций: просмотр записей, добавление новых записей, стирание (удаления) или исправление (редактирование) существующих записей.
Во — вторых, это технологии оцифровки информации.
К технологиям оцифровки информации относят:
1. Сканирование.
Этот способ особенно удобен для тех, кто готовит мультиме¬дийные приложения на основе уже имеющихся печатных мате¬риалов и иллюстраций.
Сканер — это периферийное устройство персонального компьютера, позволяющее вводить в компьютер оригиналы, представленные в виде текстовых документов, рисунков, слайдов, фотографий и так далее. Сканер преобразует подобную информацию в электронную.
На основании обобщенной оценки характеристик сканеров эти устройства можно подразделить на следующие подгруппы:
o Ручные сканеры.
o Страничные (протяжные) сканеры.
o Слайд — сканеры.
o Проекционные сканеры.
o Барабанные сканеры.
2. Ввод данных с клавиатуры.
Ввод данных с клавиатуры — разновидность ручного ввода. Технологическим средством обеспечения клавиатурного ввода является рабочий лист. Ввод текста осуществляется с помощью текстового редактора Word, который входит в пакет программ под общим названием Office, выпущенный корпорацией Microsoft. Он предназначен для работы под управлением операционной системы Windows.
Word — приложение Windows, предназначенное для создания, просмотра, модификации и печати текстовых документов, которое дает возможность выполнять все без исключения традиционные операции над текстом, предусмотренные современными компьютерными технологиями:
o набор и модификация неформатированной алфавитно-цифровой информации;
o форматирование символов с применением множества шрифтов True Type разнообразных начертаний и размеров;
o форматирование страниц (включая колонтитулы и сноски);
o форматирование документа в целом (автоматическое составление оглавления и разнообразные указатели);
o проверка правописания, подбор синонимов и автоматический перенос слов.
В — третьих, это технологии обработки оцифрованных документов.
К технологиям обработки оцифрованных документов относят распознавание символов и их дальнейшее редактирование.
Программные средства оптического распознавания символов — OCR (Optical Character Recognition) предназначены для автоматического ввода в компьютер печатных документов. Чаще всего пользователи применяют на практике систему оптического распознавания текстов FineReader производства ABBYY и систему оптического распознавания символов CuneiForm производства Cognitive Technologies Ltd. Обе системы обладают приблизительно равноценными возможностями и предназначены для распознавания текстов, набранных практически любыми шрифтами (кроме иероглифов и арабских), без предварительного обучения. Особенностью программ является высокая точность распознавания символов и малая чувствительность к дефектам печати.
Программные системы OCR работают следующим образом. Допустим, вы располагаете текстовым бумажным документом со сложной структурой, т.е. помимо текста в документе содержатся таблицы, диаграммы, иллюстрации и т.п. Нужно отредактировать текст средствами текстового процессора. Для решения подобной задачи нужно поместить документ в сканер и создать его электронную копию, представляющую собой графическое изображение документа.
Дальше необходимо преобразовать изображение в текст. Данный этап является очень ответственным, поскольку результатом сканирования является изображение, которое можно сохранить исключительно в файле того или иного графического формата или загрузить для обработки не в текстовый, а в какой-либо графический редактор. Вставить изображение непосредственно в текстовый редактор можно. Вместе с тем для текстовых приложений изображение является неделимым элементом и не может быть идентифицировано. Таким образом, даже если на изображении присутствует текст, средствами текстового редактора его отредактировать невозможно. Поэтому прежде всего необходимо преобразовать изображение символов в текст как таковой, т.е. в последовательность символов, доступную для обработки в текстовых редакторах.
Программные системы FineReader и CuneiForm позволяют решать задачи преобразования изображений в тексты и поставляются в виде комплексов, достаточно мощных для применения в практической деятельности.
Процесс распознавания текста системами OCR состоит в следующем.
Вначале необходимо получить графическое изображение документа, что может быть реализовано двумя путями — сканированием документа либо загрузкой изображения из файла. Программная среда приложений позволяет просматривать изображения в различных масштабах, а также выполнять с ними некоторые преобразования, в частности поворачивать и инвертировать их.
На следующем этапе обработки документов выполняется их разметка. Цель этой операции — указать системе OCR, каким образом текст расположен на изображении.
Результаты автоматической разметки можно корректировать вручную — создавать и удалять блоки текста, перемещать их, задавать их размеры, делить на смежные блоки, делать блоки многоугольными, присоединяя к ним или вырезая из них прямоугольники блоков и т.п. Блокам можно присваивать порядковые номера, что очень удобно, если нужно преобразовать сложно отформатированный текст в простой.
Для текстов, напечатанных расплывчато или на неоднородном фоне, используется адаптивное сканирование, позволяющее за счет некоторого снижения производительности повысить точность определения контуров букв.
При распознавании неконтрастных, бледно напечатанных документов качество распознавания можно улучшить путем регулировки таких параметров, как яркость, контрастность и порог уровня черной и белой точек.
Параметры разметки и распознавания настраиваются для того, чтобы система OCR была способна правильно разбивать текст на блоки и распознавать его. В частности, нужно указать, на каком языке (языках) написан распознаваемый текст.
Для оперативной работы с распознанным текстом в систему OCR интегрирован собственный текстовый редактор, напоминающий встроенное в Windows приложение WordPad. Текстовый редактор способен поддерживать такие основные возможности форматирования текста, как шрифты и начертания, верхние и нижние индексы, таблицы, колонки, рамки, перемещаемые поверх текста. В распознанном тексте определенным фоном выделяются сомнительные слова, причем в текстовом редакторе предусмотрены средства для быстрого поиска сомнительных слов, что существенно упрощает просмотр и правку распознанного текста.
Некоторые версии систем OCR, например ABBYY FineReader Corporate Edition, содержат интегрированные средства для коллективной работы. Для реализации возможности работы в сети на каждом компьютере должна быть установлена отдельная копия программы.
В этом случае может быть организована работа с одним и тем же пакетом на нескольких компьютерах. Сетевые средства системы обладают возможностью отслеживать процесс обработки страниц — кем в данный момент страница открыта, отсканирована, распознана, проверена и т.п. Изменения, производимые со страницей одним пользователем, видны всем, кто работает с этим же пакетом.
Возможностями коллективной работы обладает также система CuneiForm 2000 Master, которая помимо собственно среды CuneiForm 2000 и текстового редактора содержит встроенный программный блок пакетного сканирования и распознавания, а также программные средства для использования сканеров в локальной сети.
В — четвертых, это технологии создания WEB-документов.
Для создания Web — документов чаще используется язык HTML (HyperText Markup Language). Это понятие включает в себя различные способы оформления гипертекстовых документов, дизайн, гипертекстовые редакторы, браузеры и многое другое. Гипертекст как нельзя лучше подходит для включения элементов мультимедиа в традиционные документы. Практически, именно благодаря развитию гипертекста, большинство пользователей получило возможность создавать собственные мультимедийные продукты и распространять их на компакт — дисках. Такие информационные системы, выполненные в виде наборов HTML — страниц, не требуют разработки специальных программных средств, так как все необходимые инструменты для работы с данными стали частью стандартного программного обеспечения большинства персональных компьютеров. При таком подходе от пользователя требуется выполнить только ту работу, которая непосредственно относится к тематике разрабатываемого продукта: подготовить тексты, нарисовать рисунки, создать HTML — страницы и продумать связи между ними.
Электронные издания и электронные библиотеки
Вычислительная техника позволяет сохранять и распространять информацию в электронной форме, что играет революционную роль в истории человечества, аналогичную изобретению книгопечатания. Электронная форма позволяет хранить информацию наиболее надежно и компактно, распространять ее оперативнее и шире и, кроме того, предоставляет возможности ее использования, которых не могло быть при иных формах. Основными средствами для реализации этих возможностей являются электронные издания (ЭИ) и электронные электронные библиотеки (ЭБ).
Естественно, что ЭИ и ЭБ для выполнения своих функций фактически должны реализовываться в виде некоторых информационных систем отличительными свойствами которых являются длительное хранение и использование информации, в частности ее распространение. Информационные системы, работающие с динамической информацией, а также накапливающие информацию, но не предполагающие ее распространять (системы архивного типа), не могут быть отнесены к рассматриваемому классу. Таким образом, ЭИ и ЭБ занимают опреденное положение среди других информационных систем.
Электронное издание — электронный документ (группа документов), прошедший редакционно-издательскую обработку, предназначенный для распространения в неизменном виде, имеющий выходные сведения.
ЭИ состоит из информации и программного обеспечения, позволяющего визуализировать эту информацию, эффективно использовать её, но не изменять. Таким образом, ЭИ представляет собой информационную систему, в которой нет функций коррекции имеющейся информации (удаления, дополнения и др.). Основное назначение информационной системы ЭИ — максимально точное воспроизведение исходной информации и предоставление пользователю средств решения определенного набора функциональных задач.
ЭИ являются тиражируемыми продуктами и могут распространяться на любых машиночитаемых носителях (компактных оптических дисках, магнитных дискетах и т.п.) или через телекоммуникационные сети.
При этом надо иметь в виду, что распространяется именно информационная система, а не только информация. Если же информация ис¬пользуется с помощью иных программных средств, то может теряться некоторая ее часть, не будут реализовываться все ее свойства, может существенно сократиться спектр пользовательских возможностей.
Область деятельности, связанная с электронными библиотеками, является достаточно новой и поэтому еще не имеет устойчивой терминологии. (Безусловно, не следует отождествлять ее с автоматизацией традиционных библиотечных процессов, хотя провести между ними точную границу вряд ли возможно.)
Существенное развитие работы по электронным библиотекам получили на рубеже 1990-х гг., когда появились адекватные средства вычислительной техники и информационные технологии, обеспечивающие надежное сохранение, оперативную обработку и эффективное использование больших массивов разнородной информации, прежде всего текстовой. Именно в то время в ряде стран стали подготавливаться проекты электронных библиотек. Некоторые из них легли в основу соответствующих национальных и международных программ.