Курс лекций: Информационное обеспечение автоматизированных библиотечных систем. Часть 1 — Описание содержания информационных массивов

Описание содержания информационных массивов

   Содержание соответствующих массивов может описываться по нескольким основаниям с использованием необходимых информационных языков. Основные принципы такого описания:

  • тематический;
  • объектный;
  • предметное (посткоординатное) описание;
  • локальные (специализированные) описания;
  • традиционные наименования.

Тематический принцип. Он основан на отнесении информационного массива к отраслям знания или деятельности, в которых он создается и/или используется. Для тематического описания используются информационные языки классификационного типа, например Государственный рубрикатор НТИ, библиотечные и архивные классификации, а также такие инструменты, как Общероссийский классификатор отраслей народного хозяйства (ОКОНХ), Общероссийский классификатор видов экономической деятельности, продукции и услуг (ОКДП) и его прообраз — международная система Standard Industrial Classification.
   Поскольку ОКДП недавно утвержден в качестве основного классификатора отраслей, совместимого с международной системой статистики, необходимо учитывать возможность его применения для классификации информационных массивов. Сделать это, однако, будет очень непросто, поскольку ОКДП основан на совершенно чуждых для российской практики управления представлениях о структуре отраслей народного хозяйства. При этом использование какого-либо классификатора в целях статистики еще не означает возможности его применения для решения других задач, в частности в целях навигации.
   Тематический принцип применим к массивам, включающим текстовые (неструктурированные) документы. Он разработан полно и глубоко, имеет многолетние традиции, однако не всегда удобен для описания ресурсов, формируемых и используемых за пределами традиционном информационно-библиотечной сферы.
   Недостатком языков, применяемых для тематического описания, является неоднозначность результатов классифицирования, осуществляемого почти исключительно интеллектуальными методами. Этот недостаток носит почти универсальный характер для линейных классификационных систем, особенно обладающих достаточной глубиной (закон "множественной локализации" Перро) К тому же для описания тематики в разных странах и разных информационных сферах применяются различные классификации.
   Тематический принцип может основываться на отнесении массива к какой-либо отрасли как по признаку происхождения, так и по принципу использования (банковская информация может пониматься как информация, возникшая в банках, или информация, предназначенная для использования в банках). В большинстве случаев эти понятия тождественны, и особенных проблем здесь не возникает. Однако при попытке построить сколько-нибудь строгую модель описания массивов необходимо четко представлять, о чем идет речь.
   Отнесение объектов к отрасли по принципу использования (назначения) более последовательно проводится в так называемых функциональных классификациях, тесно примыкающих к тематическим. Наиболее характерный пример такого подхода — Международная классификация изобретений (МКИ). Нам, однако, неизвестны попытки использования МКИ или другой функциональной классификации для описания информационных массивов, поскольку применение таких языков вызывает относительно большие сложности для нетривиальных случаев и поэтому распространенность их невелика.
Объектный принцип. По объектному принципу построена основная система информационных языков, созданная в СССР для применения в автоматизированных системах организационного управления, — Единая система классификации и кодирования технико-экономической и социальной информации (ЕСКК ТЭИ). В рамках ЕСКК ТЭИ созданы классификаторы различных объектов реального мира: продукции, предприятий, профессий, работ и услуг, демографических показателей, языков, стран и пр. Этот принцип продолжает быть основным для описания ИР, используемых для управления и бизнеса.
   Объектный принцип лучше всего применим к хорошо структурированным массивам, в частности фактографическим базам данных, возникающим в сфере управления. Оптимально применять его к кадастровой информации, где весьма четко выделяются описываемые множества объектов, например земельные участки или объекты недвижимости, а также к персональным данным, где объектами информационных массивов выступают физические лица.
Предметный (дескрипторный, посткоординатный) принцип. Давно известно, что любой документ с необходимой полнотой и точностью может быть описан свободным набором терминов, в качестве которых используются ключевые слова, предметные рубрики, дескрипторы. В частности, термины такого языка могут именовать отрасли знания или деятельности, а также объекты любого типа, их группы, классы, любые другие понятия, например процессы или свойства. В этом смысле предметный информационный язык интегрирует преимущества тематических, функциональных и объектных информационных языков.
   Очевидно, это применимо и к описанию информационных массивов, поэтому предметный принцип применяется во многих справочных системах по информационным ресурсам (Gale's Directory, электронный и печатный каталоги баз данных России НТЦ "Информрегистр", "Энциклопедия информационных ресурсов и систем" МБИТ, большинство каталогов информационных ресурсов архивных фондов и др.).
   Информационные языки предметного типа удобны для поиска, но плохо приспособлены для навигации, идентификации информационных массивов, а также для решения различных задач управления информационными ресурсами, например для статистики информационной деятельности. Кроме того, в оптимальном варианте применение такого языка требует создания специализированного тезауруса и трудоемкой работы по согласованию (стандартизации) применяемой терминологии.
   Вообще следует иметь в виду, что предметный (дескрипторный) язык описания любых информационных объектов (документов, данных, массивов) удобен для поиска конкретных информационных объектов и неудобен для решения задач, требующих интегрального описания этих объектов.
   Поэтому подавляющее число разработчиков автоматизированных систем стремится в той или иной степени сочетать тематические, объектные и предметные подходы к описанию и поиску информационных объектов.
Локальный принцип. Локальными мы называем описания по правилам, принятым для отдельных классов информационных ресурсов. Принцип заведомо не универсален, но в определенных случаях удобен.
   Так, в международной информационной системе по глобальным данным GRID при описании содержания массивов используются следующие параметры: тип наблюдаемого географического объекта, его координаты, способ наблюдений или измерений, платформа наблюдений. Ясно, что эти параметры применимы только для информационных массивов определенного вида.
   Локальных методов описания информационных массивов довольно много. Они применятся, например, в системах идентификации образовательных ресурсов, конструкторской, технологической, программной документации и др.
   Локальные классификаторы ресурсов в настоящее время в изобилии представлены в Интернете. Составители практически всех проблемных, тематических и других каталогов ресурсов Интернета изобретают локальные классификации, пригодные только для узкого класса ресурсов. Это не следует воспринимать как критику. Просто, разрабатывая какой-нибудь локальный классификатор, необходимо трезво оценивать сферу его применения.
Традиционный принцип. В большинстве нестрогих обсуждений информационные массивы классифицируют, точнее говоря, именуют, по традиционно сложившимся сферам информационной деятельности, в рамках которых сформировались их определенные классы или устойчивое представление о существовании таких классов. Приводимые ниже термины, обозначающие эти классы, не образуют классификационного ряда в сколько-нибудь строгом смысле слова. Получающийся перечень неполон и противоречив, однако соответствующие термины распространены и привычны большинству практических работников в информационной сфере. Вот некоторые из терминов, традиционно применяемых к классам информационных массивов:

  • печатная (издательская) продукция;
  • научно-техническая информация;
  • библиотечные фонды;
  • нормативно-техническая информация (документация);
  • патентная информация;
  • информация о природных ресурсах;
  • экологическая информация;
  • геоинформация, геоданные;
  • учебно-образовательная информация;
  • справочно-энциклопедическая и словарная информация;
  • управленческая информация;
  • проектно-конструкторская информация (документация);
  • технологическая и производственная информация; правовая информация;
  • финансово-экономическая (деловая, коммерческая) информация;
  • торгово-транспортная документация;
  • статистическая информация;
  • архивная документация;
  • реклама и т.д.

    Можно заметить, что большинство классов информационных массивов, поименованных таким образом, совпадает по аспекту описания с одним из названных выше параметров. Это может быть содержание информации, или вид информационного источника, или назначение, или класс информационных (организационных) систем.
    Например, понятия "архивная", "научно-техническая" информация или "библиотечные фонды" обозначают вид системы, к которой принадлежит соответствующий массив.
    Понятия "нормативно-техническая", "статистическая" или "патентная" информация обозначают вид информационных источников (документов).
    Понятия "учебно-образовательная", "управленческая" информация или "реклама" обозначают функциональное назначение информации.
   Из сказанного можно сделать вывод, что в настоящее время не существует методологии универсального описания содержания информационных массивов. Такую методологию предстоит построить, комбинируя уже известные способы описания в рамках более общего представления. Однако такое общее представление необходимо строить не абстрактно, а исходя из практических задач управления информационными ресурсами.
Вид источника информации
   К содержанию информации тесно примыкает параметр, который часто называют видом источника информации или видом документов. Единой общепринятой классификации видов источников неизвестно, но можно привести несколько сложившихся подходов к их классификации:

  • для опубликованных и некоторых неопубликованных документов используется классификация их видов, принятая в библиотечно-библиографической практике и системе НТИ. Этот перечень приведен в ГОСТ 7.1, а также в ГОСТ 7.19;
  • для неопубликованных документов общая классификация видов отсутствует, но имеется несколько более или менее целостных классификаций для разных классов информационных ресурсов, например Единая система конструкторской документации (ЕСКД), Общероссийский классификатор управленческой документации (ОКУД), Международная система торгово-транспортной документации (ЭДИ-ФАКТ) и др.;
  • для архивных документов используется специальная классификация видов, принятая в системе Росархива и основанная на идентификации организаций и лиц — источников получения документов;
  • для отдельных классов документов, используемых, например, в здравоохранении, геологии, армии и др., применяются соответствующие отраслевые или ведомственные классификации источников (см. пример с GRID, где в качестве способа классификации выступает комбинация способа измерения и платформы измерения географических объектов).

Вы здесь: Главная Библиотечное дело Курс лекций: Информационное обеспечение автоматизированных библиотечных систем. Часть 1