link1332 link1333 link1334 link1335 link1336 link1337 link1338 link1339 link1340 link1341 link1342 link1343 link1344 link1345 link1346 link1347 link1348 link1349 link1350 link1351 link1352 link1353 link1354 link1355 link1356 link1357 link1358 link1359 link1360 link1361 link1362 link1363 link1364 link1365 link1366 link1367 link1368 link1369 link1370 link1371 link1372 link1373 link1374 link1375 link1376 link1377 link1378 link1379 link1380 link1381 link1382 link1383 link1384 link1385 link1386 link1387 link1388 link1389 link1390 link1391 link1392 link1393 link1394 link1395 link1396 link1397 link1398 link1399 link1400 link1401 link1402 link1403 link1404 link1405 link1406 link1407 link1408 link1409 link1410 link1411 link1412 link1413 link1414 link1415 link1416 link1417 link1418 link1419 link1420 link1421 link1422 link1423 link1424 link1425 link1426 link1427 link1428 link1429 link1430 link1431 link1432 link1433 link1434 link1435 link1436 link1437 link1438 link1439 link1440 link1441 link1442 link1443 link1444 link1445 link1446 link1447 link1448 link1449 link1450 link1451 link1452 link1453 link1454 link1455 link1456 link1457 link1458 link1459 link1460 link1461 link1462 link1463 link1464 link1465 link1466 link1467 link1468 link1469 link1470 link1471 link1472 link1473 link1474 link1475 link1476 link1477 link1478 link1479

Курс лекций: Информационное обеспечение автоматизированных библиотечных систем. Часть 4 — Технология формирования фактографических баз данных

 Технология формирования фактографических баз данных

Фактографические БД — базы данных, содержащие информацию, относящуюся непосредственно к предметной области.
Фактографические БД формируются двумя способами:

  • на основе накопленных разработчиками больших массивов одно родной информации;
  • на основе документальных потоков существующих документографических БД.

   К настоящему времени выделились два подхода к созданию фактографических БД. Условно их можно назвать «исследовательским» и «библиотечным».
   Наиболее характерная черта «исследовательских» БД — целенаправленный отбор информации для решения заранее сформулированной исследовательской задачи.
   При «библиотечном» подходе сбор информации, как правило, непосредственно не связан с ее использованием. БД формируются преимущественно в ходе централизованной работы крупных научных и информационных центров и пополняются новыми данными без изменения уже существующей структуры информационного массива.
   Свертывание научной информации, которое связано с функционированием БД, позволяет пользователю в более сжатые сроки и в концентрированном виде получить интересующие его сведения, в большинстве своем прошедшие экспертную проверку на достоверность. Таким образом, разработка и эксплуатация БД в той или иной области науки или техники позволяет значительно увеличить доступную пользователю долю информационных ресурсов и, в конечном итоге, приводит к получению нового знания.
   С распространением персональной техники с современным сервисным обеспечением появляется возможность создания локальных баз данных, необходимых для научных исследований. Информация для таких баз заимствуется из обзоров, справочников, отдельных оригинальных работ и других источников, и значительно реже — из банков данных. Однако качество информации, предлагаемой пользователям банками данных, существенно выше, поскольку эта информация проходит экспертный анализ на достаточно высоком уровне — в среде специалистов по данному вопросу, и оперативно обновляется.
   Появление значительного числа проблемоориентированных локальных БД в различных областях науки, реализованных, как правило, на ПЭВМ, особенно остро ставит задачу координации работ в области информационного обеспечения научных исследований. За последние годы во многих странах возникли специальные организации, деятельность которых направлена, с одной стороны, на сбор, систематизацию и распространение информации о функционирующих или только проектирующихся БД (объеме и содержании информационного массива и комплексе информационных услуг), а с другой стороны, на стимулирование и финансирование проектов, связанных с созданием БД, совершенствованием их программного и лингвистического обеспечения, а также разработкой единых стандартов при переводе данных в машиночитаемую форму.
   При объединении локальных БД в информационную сеть одна из основных задач — обеспечение прямой и надежной связи между банками данных и личными локальными базами данных, оперативное наполнение таких локальных баз информацией из банков данных. Такая связь и поддержка локальных баз данных уже хорошо освоена в США (например, система STN) и Западной Европе. Банки данных, не включенные в сети, имеют возможность оперативно передавать данные по Интернету. В связи с этим необходимо обеспечить организацию современных методов передачи информации банков фактографических данных по сетям. Помимо решения технических проблем это потребует от системной организации банков данных обеспечения возможности формирования передаваемых файлов данных независимо от конкретной СУБД и типа машинной реализации, ведения гибких форматов и соответствующих интерфейсов средств обмена данными в разных форматах.
   База данных может быть централизованной (поддерживается одной ЭВМ) или распределенной. Распределенные базы можно разделить на два типа. В одном случае каждый пользователь имеет почти все данные на своей ЭВМ, в другом случае каждый вид данных находится, в каком — то одном месте и центральная ЭВМ поддерживает только каталог всех данных с указанием местонахождения конкретных данных. По-видимому, наиболее перспективной является последняя система организации.

При проектировании в систему, помимо традиционного хранилища информации, могут входить также следующие подсистемы:

  • библиотека научных программ для обработки данных (моделирование, вычислительный эксперимент и др.);
  • библиотека статистической обработки данных (регрессионный анализ, сглаживание, оценка достоверности, получение значений коэффициентов эмпирических и теоретических зависимостей, графический пакет и т.д.);
  • буфер получаемых данных для их предварительного анализа (возможно и архив результатов);
  • ряд служебных подсистем, таких, как вводимая коррекция данных, обмен данными между хост-машиной и локальными системами и др.

Особенности проектирования фактографических БД.

   Имя каждой проектируемой ФБД и/или её отдельных подмассивов идентифицируется «Именем неявного объекта» — для иерархической и сетевой структуры БД или «Именем отношения» — для реляционной структуры БД.
Основным структурным элементом ФБД является (в разных терминах) «Тип данных» или «Характеристика». Он состоит из «Наименования характеристики (или типа данных)» и «Значения характеристики (или типа данных)» и реализуется в виде записи в конкретном «Поле 95 данных».
   Наименование каждой характеристики в ФБД является уникальным (т.е. неповторяющимся). Под «Полем данных» (ПД) понимается специально выделенная область на носителе данных, в которой записываются однородные сведения, соответствующие каждому структурному элементу ФБД, например, «Наименование изделия», «Стоимость в рублях», «Год изготовления» и т.п.

Каждое поле данных имеет внешнее и внутреннее имя:

  • внешнее имя ПД соответствует наименованию типа данных или характеристике.
  • внутреннее имя ПД («метка», «идентификатор») — короткий символьный (цифровой, буквенный или буквенно-цифровой) код, присваиваемый каждому ПД.

Поля данных характеризуются:

  • длиной, ограниченной количеством символов, разрешенным для записи в этом поле, или неограниченной длиной;
  • структурой записи.

Структура записи может быть:

  • текстовая (содержит любые буквенно-цифровые символы);
  • нормированная (содержание записи контролируется словарями системы);
  • форматированная (системой устанавливается определенная последовательность буквенных, цифровых, например для ПД с именем «Дата …» может быть принята запись со структурой вида 05.06.02, где первые две цифры обозначают день, вторые — месяц, третьи — год или 05 июня 2002, или буквенно-цифровых символов, например для такого же ПД — 05 июня 2002);
  • числовая — выражающая значащую величину.

Поля данных могут также быть:

  • элементарными, состоящими из одной однородной записи значения поля для каждого документа;
  • групповыми, состоящими из двух и более однородных записей, например, поле «Заказчики» может включать записи наименований нескольких физических или юридических лиц;
  • множественными, состоящими из нескольких элементарных или групповых или других множественных полей, а также их сочетаний, например, поля данных «Технические характеристики» и «Банковские реквизиты» могут включать в себя ряда разнородных ПД;
  • неповторяющимися в одной записи и повторяющимися. Существуют и другие классификации структур полей данных. Однако в принципе они не противоречат приведенному здесь варианту. В таблице 1 в качестве примера приведен состав типов данных в достаточно популярной в настоящее время СУБД Access.

Таблица 1.
Типы данных в СУБД Access

Тип данных

Описание

Текстовый

Поля этого типа содержат текст, объем которого не должен превышать 255 символов (длина поля устанавливается с помощью параметра Размер поля).

Поле MEMO

Содержат текстовые либо текстовые и числовые данные объемом не более 64000 символов (поля этого типа не индексируются).

Числовой

Поля этого типа содержат числовые значения, диапазон которых определяется параметром Размер поля.

Дата/время

Поля этого типа содержат значения даты и времени.

Денежный

В полях этого типа могут храниться числа, содержащие 15 разрядов слева от десятичной точки и 4 разряда справа от нее.

Счетчик

Поле этого типа содержит число, которое автоматически увеличивается на единицу, когда в таблицу добавляется новая запись.

Логический

В таких полях сохраняются значения Да или Нет (поля этого типа не индексируются).

Поле объекта OLE

В поля данного типа помещаются объекты, обработанные OLE-сервером (такие поля не индексируются, их объем не должен превышать 128 Мб).

Гиперссылка

В полях этого типа хранятся гиперссылки, которые представляют собой путь к файлу на жестком диске либо адрес в сетях Интернет или Интранет.

Проектирование форматов ФБД предполагает подготовку полного описания состава всех полей данных, обеспечивающих решение тех задач, для которых создаётся данная ФБД.
   Одновременно производится определение характера связей между данными («Логической структуры модели данных»). Это означает, что проектирование ФБД должно начинаться с разработки подробного перечня (точнее — структуры) задач, которые должны решаться на основе её использования.
Интеграция ФБД АБИС предполагает исключение одинаковых или близких по характеру содержащихся в них сведений полей различных баз данных, уточнение характеристик ПД с учётом требований решения различных служебных и информационных задач. После выполнения указанной работы определяются требования к СУБД, а также технологии её создания и эксплуатации, включая — определение ответственности за ведение ИБД.

Вы здесь: Главная Библиотечное дело Курс лекций: Информационное обеспечение автоматизированных библиотечных систем. Часть 4