link6364 link6365 link6366 link6367 link6368 link6369 link6370 link6371 link6372 link6373 link6374 link6375 link6376 link6377 link6378 link6379 link6380 link6381 link6382 link6383 link6384 link6385 link6386 link6387 link6388 link6389 link6390 link6391 link6392 link6393 link6394 link6395 link6396 link6397 link6398 link6399 link6400 link6401 link6402 link6403 link6404 link6405 link6406 link6407 link6408 link6409 link6410 link6411 link6412 link6413 link6414 link6415 link6416 link6417 link6418 link6419 link6420 link6421 link6422 link6423 link6424 link6425 link6426 link6427 link6428 link6429 link6430 link6431 link6432 link6433 link6434 link6435 link6436 link6437 link6438 link6439 link6440 link6441 link6442 link6443 link6444 link6445 link6446 link6447 link6448 link6449 link6450 link6451 link6452 link6453 link6454 link6455 link6456 link6457 link6458 link6459 link6460 link6461 link6462 link6463 link6464 link6465 link6466 link6467 link6468 link6469 link6470 link6471 link6472 link6473 link6474 link6475 link6476 link6477 link6478 link6479 link6480 link6481 link6482 link6483 link6484 link6485 link6486 link6487 link6488 link6489 link6490 link6491 link6492 link6493 link6494 link6495 link6496 link6497 link6498 link6499 link6500 link6501 link6502 link6503 link6504 link6505 link6506 link6507 link6508 link6509 link6510 link6511

Курс лекций: Информационное обеспечение автоматизированных библиотечных систем. Часть 3 — Вопросы конвертирования международных форматов

Конвертирование форматов — преобразование данных из одного формата в другой, воспринимаемый иной системой (как правило, при экспорте или импорте данных).

Конвертор — программное средство для перекодирования данных из одного машинного кода в другой или из одного формата в другой.

Вопросы конвертирования международных форматов

Международное информационное сотрудничество, библиотечно-информационная кооперация, а также переход к корпоративной каталогизации порождает необходимость обмена огромными информационными документопотоками. Поскольку в отечественной практике каталогизации утвердились параллельно два международных формата USMARC и UNIMARC, причем с различными модификациями, возникла необходимость в разработке универсального конвертора из одного формата в другой с возможностью многовариантных дополнений. Многие информационные автоматизированные системы ставили перед собой эту задачу и в большей или меньшей степени решали ее, но как правило, игнорируя такие важные элементы данных как индикаторы и контрольные подполя, так например, ИНФОРМСистема разработала автономный конвертор с учетом соответствия форматов только на уровне полей и подполей. Кроме того не была освоена конверсия форматов с полным репертуаром видов материалов.

В международной практике неоднократно проводились попытки конвертирования двух форматов. Остановимся на некоторых из них. Библиотека Конгресса США имеет автономный конвертор USMARC-UNIMARC, работающий однако через формат-посредник, которым является внутренний формат системы. Система VTLS имеет подобный конвертор, но встроенный внутрь системы, также работающей на своем формате. Поэтому, при наличии внутренних форматов напрямую соответствия эквивалентов UNIMARC и USMARC не проводилось. В 90-е годы на уровне ИФЛА для MARC-форматов был разработан проект универсального конвертирования USEMARCON, посредником в котором является формат UNIMARC. Но в данном проекте не учитывается специфика формата — встроенные поля, что не позволяет проводить подробного конвертирования.

Разработка конверторов довольно трудоемкий процесс, успех которого зависит от возможностей программного обеспечения, комплекса технических средств и интеллектуального потенциала разработчиков.

Сопоставление форматов проводилось по структурным и семантическим характеристикам. В ходе сопоставления элементов данных определялось их соответствие по содержанию и способу записи. Было выявлено несколько типов соответствия: элементы данных форматов полностью соответствуют; элементы данных отсутствуют в каком-либо формате; элемент одного формата является частью элемента другого формата; элемент одного формата соответствует множеству элементов другого формата. Было установлено несколько параметров эквивалентности данных. Безусловное соответствие, соответствие при условии, полное несоответствие элементов данных.

Анализ элементов данных показал, что степень совместимости форматов весьма высока на уровне содержания данных. Около 40% данных форматов аналогичны и конвертируются без каких-либо условий соответствия. Практически полностью конвертируются примечания, блоки описательной информации и взаимосвязанных заглавий для однотомных изданий. Остальные конвертируются в соответствующие элементы при наличии условий различной степени сложности. Блок интеллектуальной ответственности конвертируется в соответствии со значением индикаторов.

При конвертировании разработчики сталкиваются со следующими трудностями в сопрягаемости форматов:

1. Конвертирование кодированных элементов данных.

Одним из самых трудоемких процессов является составление трансляторов для кодированной информации, которая в своем большинстве приводится в полях с позиционным значением. В основном, кодированная информация используется для непечатных категорий материалов: карт, звукозаписей, видеозаписей, проекционной графики и др., так как их основные характеристики содержатся в элементах данных фиксированной длины. Поскольку поля с позиционным расположением данных не определяются идентификаторами и их позиции следуют в числовом порядке, любое смещение в ту или другую сторону приводит к абсурдным ошибкам при конверсии.

В формате USMARC существует всего четыре поля для кодированной информации: обязательное поле 008, которое содержит 40 позиций символов для всех единиц описания и вспомогательные для дополнительных характеристик, в основном, непечатных категорий материала. Так поле 007 в формате USMARC дает физические характеристики единицы описания для семи видов документов, причем все виды отличаются числом позиций и различным набором односимвольных кодов, которые формируются в зависимости от начальной позиции самого поля и маркера записи. В формате UNIMARC 20 полей фиксированной длины, каждое из которых относится к определенному виду материала. Поэтому совмещать эквиваленты при таких неоднозначных системах кодирования крайне трудно, если к тому же учесть, что каждый аналогичный элемент закодирован, как правило, различными символами, требующими в свою очередь трансляции. Даже коды стран в форматах приводятся в разных стандартах. В UNIMARC это ISO 3166, в USMARC это Перечень кодов Библиотеки Конгресса. В конверторе насчитывается свыше 200 таблиц-трансляторов кодов физических характеристик для всех видов материалов. Поля кодированной информации в форматах не являются обязательными, часто заполняются пробелами или символами-эаполнителями, поэтому определить правильную позицию с соответствующим кодом при конверсии можно только с помощью программ глобального контроля.

2. Индикаторы.

Особое место при конвертировании отводится индикаторам. Семантическое несоответствие индикаторов в эквивалентных полях может привести к заведомой потере информации. Если поля соответствуют по содержанию, а их индикаторы противоположны по значению, информация конвертируется, игнорируя индикаторы на входе, а в выходном формате индикаторам придается условное наиболее распространенное значение. Так например, в соответствующих полях основного заглавия в поле 200 индикатор обозначает значимость заглавия, а в 245 индикатор указывает на наличие добавочной записи. В результате такого несоответствия на выходе индикатору придается условное значение, при этом для результатов конвертирования необходима последующая визуальная доработка поля.

Как правило, индикаторы в эквивалентных полях форматов конвертируются с помощью отдельных таблиц соответствия для каждого поля.

При сравнении двух форматов обращает внимание повышенная семантическая нагрузка на индикаторы в формате USMARC. Часто значение индикаторов соответствует отдельным полям в формате UNIMARC, например, поле 246 USMARC конвертируется в соответствии со значением индикаторов в 510, 517, 512, 513, 514 поля UNIMARC, поле 780 USMARC конвертируется в поля связи 430-437, при обратном конвертировании наоборот несколько полей формата UNIMARC конвертируются в одно поле формата USMARC согласно индикаторам.

Наличие индикаторов в формате USMARC и отсутствие их в соответствующих полях UNIMARC не позволяет качественно осуществлять конверсию.

3. Условные разделительные знаки.

Проблема при конвертировании возникает в результате использования в формате USMARC условных разделительных знаков в качестве идентификаторов элементов данных, которые при конвертировании должны быть преобразованы в подполя UNIMARC. При обратном конвертировании разделительные знаки должны расставляться в соответствующие подполя программными средствами.

Трудности возникали в преобразовании контрольных номеров, имеющих дефисы. Например, международный стандартный книжный номер-ISBN. В записи USMARC номер ISBN приводится без дефисов, а в UNIMARC записывается в определенной структуре с дефисами, поэтому конвертирование из UNIMARC с подавлением дефисов проходит нормально, а при обратном конвертировании для восстановления дефисов должна быть разработана очень сложная система алгоритмов с приведением таблиц порядка присвоения стандартных номеров, эта задача пока не решена.

4. Сборники без общего заглавия.

Серьезную проблему представляло конвертирование сборников без общего заглавия. В формате UNIMARC в поле заглавия предусмотрено подполе для заглавия произведения второго автора, USMARC не идентифицирует заглавие второго автора, приводит его в структуре библиографического описания через точку, которая не может служить признаком для построения соответствующего алгоритма.

Поэтому при конвертировании UNIMARC в USMARC могут возникнуть затруднения с правильным форматированием заглавия на выходе, осложненном простановкой условных разделительных знаков, потери информации удалось избежать путем сложных условий программирования. Однако обратного конвертирования достичь не удалось. В связи с этим при конверсии подобных записей, в выходном формате USMARC необходима интеллектуальная доработка документов.

5. Поля связи.

Следующей проблемой в процессе конвертирования является конвертирование из UNIMARC записей со сложной иерархической структурой связи. Причем в процессе конвертирования надо учитывать две схемы связи в формате UNIMARC: со встроенными полями и со стандартными подполями. Для этого необходимо раработать 4 таблицы соответствия со сложными алгоритмами зависимости элементов и уровнями связи и соответственно структурами эквивалентных полей в формате USMARC. При этом необходимо иметь в виду, что каждый формат имеет несколько иерархических структур взаимосвязанных заглавий, когда поля того и другого формата могут иметь разные варианты соответствия, например, 463--505 или 463--774, 461--440 или 461--773. В результате конвертор должен иметь несколько программных настроек, чтобы иметь на выходе соответствующий вариант, который должен декларироваться.

6. Отсутствие элементов данных.

Поскольку USMARC является в большей степени форматом каталогизации, он содержит большое количество полей, используемых для обозначения фондов, экземпляров и добавочных описаний. UNIMARC как обменный формат не должен поддерживать аналогичные элементы. Формат USMARC содержит около 190 полей, формат UNIMARC — 165 полей. В USMARC детально разработана система контрольных номеров Библиотеки Конгресса, Национальной сельскохозяйственной библиотеки, Национальной медицинской библиотеки, Национальной библиотеки Канады и др. номеров, которые не находят соответствия в формате UNIMARC. Поэтому некоторые данные, не имея эквивалентов, не участвуют в конвертировании и дополняют потерю информации.

Еще с одной трудностью сталкиваются разработчики конвертора, получая информацию из зарубежных источников каталогизации — это различные таблицы наборов кодирования графических символов в отечественных и иностранных автоматизированных системах. В нашей компьютерной среде в зарубежных файлах появляются лишние кириллические символы, которые необходимо подавлять программными средствами. В международной практике начали широко использоваться 16тиричные таблицы UNICOD, позволяющие избегать подобных издержек, но для нас они пока недоступны по экономическим причинам, т.к. требуют больших объемов памяти и, следовательно, высококлассной техники.

Помимо конвертирования одного формата в другой, конвертор может производить дополнительные функции:

· обрабатывает записи в соответствии с двумя вариантами форматирования полей связи UNIMARC: со встроенными полями, со стандартными подполями,

· конвертирует записи на все виды документов,

· имеет двуязычный интерфейс на русском и английском языках,

· может показывать исходную и обработанную запись в соответствующем формате, проводить поиск обработанных документов,

· пользователь может самостоятельно дополнять форматы новыми полями без сложных условий соответствия,

· пользователь может удалять ненужные ему поля из конвертора по своему усмотрению и перенастраивать конвертор.

В информационной среде России вливается еще один коммуникативный формат — RUSMARC, который необходимо учитывать при конверсии, если он займет ведущую роль при обмене информации в стране. Хотя формат RUSMARC является версией формата UNIMARC, он содержит такие исключения, что соответствовать UNIMARC может только через конвертор.

Возникает проблема — разрабатывать еще один конвертор RUSMARC-USMARC(MARC21) или проводить промежуточное конвертирование RUSMARC-UNIMARC.

Вы здесь: Главная Библиотечное дело Курс лекций: Информационное обеспечение автоматизированных библиотечных систем. Часть 3