Лекции для студентов

Курс лекций: Информационное обеспечение автоматизированных библиотечных систем. Часть 4 — Технология формирования фактографических баз данных

Страница 12 из 17

Технология формирования фактографических баз данных

Фактографические БД — базы данных, содержащие информацию, относящуюся непосредственно к предметной области.
Фактографические БД формируются двумя способами:

на основе накопленных разработчиками больших массивов одно родной информации;
на основе документальных потоков существующих документографических БД.

   К настоящему времени выделились два подхода к созданию фактографических БД. Условно их можно назвать «исследовательским» и «библиотечным».
   Наиболее характерная черта «исследовательских» БД — целенаправленный отбор информации для решения заранее сформулированной исследовательской задачи.
   При «библиотечном» подходе сбор информации, как правило, непосредственно не связан с ее использованием. БД формируются преимущественно в ходе централизованной работы крупных научных и информационных центров и пополняются новыми данными без изменения уже существующей структуры информационного массива.
   Свертывание научной информации, которое связано с функционированием БД, позволяет пользователю в более сжатые сроки и в концентрированном виде получить интересующие его сведения, в большинстве своем прошедшие экспертную проверку на достоверность. Таким образом, разработка и эксплуатация БД в той или иной области науки или техники позволяет значительно увеличить доступную пользователю долю информационных ресурсов и, в конечном итоге, приводит к получению нового знания.
   С распространением персональной техники с современным сервисным обеспечением появляется возможность создания локальных баз данных, необходимых для научных исследований. Информация для таких баз заимствуется из обзоров, справочников, отдельных оригинальных работ и других источников, и значительно реже — из банков данных. Однако качество информации, предлагаемой пользователям банками данных, существенно выше, поскольку эта информация проходит экспертный анализ на достаточно высоком уровне — в среде специалистов по данному вопросу, и оперативно обновляется.
   Появление значительного числа проблемоориентированных локальных БД в различных областях науки, реализованных, как правило, на ПЭВМ, особенно остро ставит задачу координации работ в области информационного обеспечения научных исследований. За последние годы во многих странах возникли специальные организации, деятельность которых направлена, с одной стороны, на сбор, систематизацию и распространение информации о функционирующих или только проектирующихся БД (объеме и содержании информационного массива и комплексе информационных услуг), а с другой стороны, на стимулирование и финансирование проектов, связанных с созданием БД, совершенствованием их программного и лингвистического обеспечения, а также разработкой единых стандартов при переводе данных в машиночитаемую форму.
   При объединении локальных БД в информационную сеть одна из основных задач — обеспечение прямой и надежной связи между банками данных и личными локальными базами данных, оперативное наполнение таких локальных баз информацией из банков данных. Такая связь и поддержка локальных баз данных уже хорошо освоена в США (например, система STN) и Западной Европе. Банки данных, не включенные в сети, имеют возможность оперативно передавать данные по Интернету. В связи с этим необходимо обеспечить организацию современных методов передачи информации банков фактографических данных по сетям. Помимо решения технических проблем это потребует от системной организации банков данных обеспечения возможности формирования передаваемых файлов данных независимо от конкретной СУБД и типа машинной реализации, ведения гибких форматов и соответствующих интерфейсов средств обмена данными в разных форматах.
   База данных может быть централизованной (поддерживается одной ЭВМ) или распределенной. Распределенные базы можно разделить на два типа. В одном случае каждый пользователь имеет почти все данные на своей ЭВМ, в другом случае каждый вид данных находится, в каком — то одном месте и центральная ЭВМ поддерживает только каталог всех данных с указанием местонахождения конкретных данных. По-видимому, наиболее перспективной является последняя система организации.

При проектировании в систему, помимо традиционного хранилища информации, могут входить также следующие подсистемы:

библиотека научных программ для обработки данных (моделирование, вычислительный эксперимент и др.);
библиотека статистической обработки данных (регрессионный анализ, сглаживание, оценка достоверности, получение значений коэффициентов эмпирических и теоретических зависимостей, графический пакет и т.д.);
буфер получаемых данных для их предварительного анализа (возможно и архив результатов);
ряд служебных подсистем, таких, как вводимая коррекция данных, обмен данными между хост-машиной и локальными системами и др.

Особенности проектирования фактографических БД.

Имя каждой проектируемой ФБД и/или её отдельных подмассивов идентифицируется «Именем неявного объекта» — для иерархической и сетевой структуры БД или «Именем отношения» — для реляционной структуры БД.
Основным структурным элементом ФБД является (в разных терминах) «Тип данных» или «Характеристика». Он состоит из «Наименования характеристики (или типа данных)» и «Значения характеристики (или типа данных)» и реализуется в виде записи в конкретном «Поле 95 данных».
Наименование каждой характеристики в ФБД является уникальным (т.е. неповторяющимся). Под «Полем данных» (ПД) понимается специально выделенная область на носителе данных, в которой записываются однородные сведения, соответствующие каждому структурному элементу ФБД, например, «Наименование изделия», «Стоимость в рублях», «Год изготовления» и т.п.

Каждое поле данных имеет внешнее и внутреннее имя:

внешнее имя ПД соответствует наименованию типа данных или характеристике.
внутреннее имя ПД («метка», «идентификатор») — короткий символьный (цифровой, буквенный или буквенно-цифровой) код, присваиваемый каждому ПД.

Поля данных характеризуются:

длиной, ограниченной количеством символов, разрешенным для записи в этом поле, или неограниченной длиной;
структурой записи.

Структура записи может быть:

текстовая (содержит любые буквенно-цифровые символы);
нормированная (содержание записи контролируется словарями системы);
форматированная (системой устанавливается определенная последовательность буквенных, цифровых, например для ПД с именем «Дата …» может быть принята запись со структурой вида 05.06.02, где первые две цифры обозначают день, вторые — месяц, третьи — год или 05 июня 2002, или буквенно-цифровых символов, например для такого же ПД — 05 июня 2002);
числовая — выражающая значащую величину.

Поля данных могут также быть:

элементарными, состоящими из одной однородной записи значения поля для каждого документа;
групповыми, состоящими из двух и более однородных записей, например, поле «Заказчики» может включать записи наименований нескольких физических или юридических лиц;
множественными, состоящими из нескольких элементарных или групповых или других множественных полей, а также их сочетаний, например, поля данных «Технические характеристики» и «Банковские реквизиты» могут включать в себя ряда разнородных ПД;
неповторяющимися в одной записи и повторяющимися. Существуют и другие классификации структур полей данных. Однако в принципе они не противоречат приведенному здесь варианту. В таблице 1 в качестве примера приведен состав типов данных в достаточно популярной в настоящее время СУБД Access.

Таблица 1.
Типы данных в СУБД Access

Тип данных	Описание
Текстовый	Поля этого типа содержат текст, объем которого не должен превышать 255 символов (длина поля устанавливается с помощью параметра Размер поля).
Поле MEMO	Содержат текстовые либо текстовые и числовые данные объемом не более 64000 символов (поля этого типа не индексируются).
Числовой	Поля этого типа содержат числовые значения, диапазон которых определяется параметром Размер поля.
Дата/время	Поля этого типа содержат значения даты и времени.
Денежный	В полях этого типа могут храниться числа, содержащие 15 разрядов слева от десятичной точки и 4 разряда справа от нее.
Счетчик	Поле этого типа содержит число, которое автоматически увеличивается на единицу, когда в таблицу добавляется новая запись.
Логический	В таких полях сохраняются значения Да или Нет (поля этого типа не индексируются).
Поле объекта OLE	В поля данного типа помещаются объекты, обработанные OLE-сервером (такие поля не индексируются, их объем не должен превышать 128 Мб).
Гиперссылка	В полях этого типа хранятся гиперссылки, которые представляют собой путь к файлу на жестком диске либо адрес в сетях Интернет или Интранет.

Проектирование форматов ФБД предполагает подготовку полного описания состава всех полей данных, обеспечивающих решение тех задач, для которых создаётся данная ФБД.
Одновременно производится определение характера связей между данными («Логической структуры модели данных»). Это означает, что проектирование ФБД должно начинаться с разработки подробного перечня (точнее — структуры) задач, которые должны решаться на основе её использования.
Интеграция ФБД АБИС предполагает исключение одинаковых или близких по характеру содержащихся в них сведений полей различных баз данных, уточнение характеристик ПД с учётом требований решения различных служебных и информационных задач. После выполнения указанной работы определяются требования к СУБД, а также технологии её создания и эксплуатации, включая — определение ответственности за ведение ИБД.