Курс лекций: Информационное обеспечение автоматизированных библиотечных систем. Часть 1 — Информация, данные, знания
- Курс лекций: Информационное обеспечение автоматизированных библиотечных систем. Часть 1
- Общесистемные требования к разработке АБИС
- Информация как базовая категория информационного обеспечения
- Мировые и национальные информационные ресурсы
- Описание содержания информационных массивов
- Назначение информационных ресурсов
- Форма представления информации
- Информация, данные, знания
- Модели представления знаний
- Электронные информационные ресурсы
- Информационный рынок
- Общая характеристика информационной базы автоматизированной библиотечно-информационной системы
- Виды документов
- Внемашинная информационная база автоматизированных библиотечно-информационных систем
- Вид информации
- Машинная информационная база АБИС
- Информационная база и способы ее организации
Специалисты в области информационных технологий по роду своей деятельности обязаны иметь четкое понятие о категориях "информация", "данные", "знание". Во многих ситуациях часто бывает достаточно интуитивного понимания и интерпретации этих категорий. Но как это ни парадоксально, по такому, казалось бы, простому предмету существует достаточно много противоречивых мнений.
Информация (лат. informatio) — 1) сообщение о чем-либо; 2) сведения, являющиеся объектом хранения, переработки и передачи (например, генетическая информация); 3) в математике (кибернетике) — количественная мера устранения неопределенности (энтропия), мера организации системы; в теории информации — раздел кибернетики, изучающий количественные закономерности, связанные со сбором, передачей, преобразованием и вычислением информации.
Данные — 1) сведения, необходимые для какого-либо вывода, решения, процедуры (например: много данных, цифровые данные); 2) основания для чего-нибудь, качества (например: голосовые данные, иметь все данные для получения премии).
Знание — 1) постижение действительности сознанием, наука (например: важная область знания, тяга к знанию); 2) совокупность сведений, познаний в какой-либо области (например: область знаний, тяга к знаниям).
Теперь попытаемся уточнить эти определения. При всех коллизиях и взаимных трансформациях в категориях "информация", "данные","знание" вполне отчетливо просматриваются явные отличия. Категории "информация" и "знание" с философской точки зрения действительно являются понятиями высокого уровня, отражающими наиболее существенные качества информационных систем как объектов и явлений окружающего мира.
Понятие "информация" необходимо рассматривать только при наличии источника и получателя информации, а также канала связи между ними. Понятию "информации" также сопутствует интерпретация значения информации, преобразование значения информации. Теория Клода Шеннона полностью строится на основе такого "коммуникационного" понимания информации. Она описывает количественные характеристики связи — пропускную способность каналов, скорость передачи данных и т.п.
Понятие "знание" обычно связывают с процессом принятия решений, а также изучения окружающего мира и обучения. Для принятия решения характерно понимание цели. Когда возникает цель? — когда осознается текущее состояние (ситуации, положения и т.п.) и формируется образ другого состояния (собственно цели), которое нужно достигнуть. Для перехода из текущего состояния в другое (целевое) необходимы знания и данные. Знания — это опыт, инструмент, данные — это учет деталей и фактов, это вспомогательные элементы.
Понятие "данные" — относительно новый термин, в общем случае характеризующий некоторый набор символов, который можно хранить, передавать, преобразовывать. Обычно данные являются входной информацией для какого-либо информационного процесса, системы.
Например, для компьютерной программы или алгоритма входными данными может быть символ или слово. Или другой пример. Для человека телефонный номер является данными, которые нужно передать на телефонную станцию, чтобы соединиться с нужным абонентом. Не нужно искать глубокий смысл в телефонном номере — исторически он может быть любым. Важно что он действует без ваших усилий.
Информация (от лат. Informatio — объяснение) — любые сведения о каком-либо событии, сущности, процессе и т.п., являющиеся объектом некоторых операций: восприятия, передачи, преобразования, хранения и использования, для которых существует содержательная интерпретация. Следовательно, для восприятия информации необходима некоторая воспринимающая система, которая может интерпретировать ее, в том числе преобразовывать, определять соответствие определенным правилам и т.п. Информация используется во всех областях человеческой деятельности; любая взаимосвязь и координация действий возможны только благодаря информации.
Данные относятся к способу представления, хранения и элементарным операциям обработки информации. Прежде всего, данные — это основа информации. Образно говоря, данные — это текст в некотором алфавите, а информация — это рассказ, сообщение, сведения, имеющие определенный смысл.
Одна из главных особенностей данных состоит в том, что их становится невероятно много. В современных условиях массового применения компьютеров источников данных гигантское количество. Например, только при моделировании урагана на суперкомпьютере модель урагана генерирует несколько терабайт данных, а европейский адронный коллайдер (ускоритель элементарных частиц) способен за год обеспечить исследователей петабайтами данных.
Существуют четыре аспекта работы с данными: определение данных, вычисление данных, манипулирование данными и их обработка, управление данными (администрирование данных).
Ключевым понятием манипулирования данных является структура данных типа "файл". Файл — это современный символ данных. Современная информационная индустрия построена на работе и манипулировании файлами. Файловые структуры данных являются наиболее адекватными структурами для современных накопителей данных. Файл — это любой набор данных, состоящих из элементов одинаковой структуры — записей. В свою очередь запись представляет собой структуру, состоящую из полей. Поле — это минимальная поименованная структура данных. Пример — файл "Кадры"; запись — "Личное дело"; поле — "ФИО".
Знание (англ. — Knowledge) — проверенные общественной практикой полезные сведения, которые могут многократно использоваться людьми для решения тех или иных задач. Обычно понятие Знания трактуется с двух позиций: 1) как совокупность сведений и фактов в какой-либо области; 2) постижение действительности сознанием в виде науки.
Современная ситуация добавляет еще один важный ракурс. Знания — это люди плюс информация, возведенные в степень средств распространения этой информации. В такой же степени, Знания — это умение найти нужную информацию и нужных людей, это умение организовать процесс, который направлен на достижение поставленной цели.
Знание можно рассматривать как объект коммерции и автоматизации. Это логически полный ограниченный набор сведений для непосредственного решения требуемой задачи (ряда задач) подготовленный специалистами.
Особенности знаний:
1.Внутренняя интерпретируемость. Каждая информационная единица должна иметь уникальное имя, по которому ИС находит ее, а также отвечает на запросы, в которых это имя упомянуто. Когда данные, хранящиеся в памяти, были лишены имен, то отсутствовала возможность их идентификации системой. Данные могла идентифицировать лишь программа, извлекающая их из памяти по указанию программиста, написавшего программу. Что скрывается за тем или иным двоичным кодом машинного слова, системе было неизвестно.
Таблица 1.1
Фамилия |
Год рождения |
Специальность |
Стаж, число лет |
Попов |
1965 |
Слесарь |
5 |
Сидоров |
1946 |
Токарь |
20 |
Иванов |
1925 |
Токарь |
30 |
Петров |
1937 |
Сантехник |
25 |
Если, например, в память ЭВМ нужно было записать сведения о сотрудниках учреждения, представленные в табл. 1.1, то без внутренней интерпретации в память ЭВМ была бы занесена совокупность из четырех машинных слов, соответствующих строкам этой таблицы. При этом информация о том, какими группами двоичных разрядов в этих машинных словах закодированы сведения о специалистах, у системы отсутствуют. Они известны лишь программисту, который использует данные табл. 1.1 для решения возникающих у него задач. Система не в состоянии ответить на вопросы типа "Что тебе известно о Петрове?" или "Есть ли среди специалистов сантехник?".
2. Структурированность. Информационные единицы должны обладать гибкой структурой. Для них должен выполняться "принцип матрешки", т.е. рекурсивная вложимость одних информационных единиц в другие. Каждая информационная единица может быть включена в состав любой другой, и из каждой информационной единицы можно выделить некоторые составляющие ее информационные единицы. Другими словами, должна существовать возможность произвольного установления между отдельными информационными единицами отношений типа "часть — целое", "род — вид" или "элемент — класс".
3. Связность. В информационной базе между информационными единицами должна быть предусмотрена возможность установления связей различного типа. Прежде всего эти связи могут характеризовать отношения между информационными единицами. Семантика отношений может носить декларативный или процедурный характер. Например, две или более информационные единицы могут быть связаны отношением "одновременно", две информационные единицы — отношением "причина — следствие" или отношением "быть рядом". Приведенные отношения характеризуют декларативные знания. Если между двумя информационными единицами установлено отношение "аргумент — функция", то оно характеризует процедурное знание, связанное с вычислением определенных функций. Далее будем различать отношения структуризации, функциональные отношения, каузальные отношения и семантические отношения. С помощью первых задаются иерархии информационных единиц, вторые несут процедурную информацию, позволяющую находить (вычислять) одни информационные единицы через другие, третьи задают причинно — следственные связи, четвертые соответствуют всем остальным отношениям.
4. Семантическая метрика. На множестве информационных единиц в некоторых случаях полезно задавать отношение, характеризующее ситуационную близость информационных единиц, т.е. силу ассоциативной связи между информационными единицами. Его можно было бы назвать отношением релевантности для информационных единиц. Такое отношение дает возможность выделять в информационной базе некоторые типовые ситуации (например, "покупка", "регулирование движения на перекрестке"). Отношение релевантности при работе с информационными единицами позволяет находить знания, близкие к уже найденным.
5. Активность. С момента появления ЭВМ и разделения используемых в ней информационных единиц на данные и команды создалась ситуация, при которой данные пассивны, а команды активны. Все процессы, протекающие в ЭВМ, инициируются командами, а данные используются этими командами лишь в случае необходимости. Для ИС эта ситуация не приемлема. Как и у человека, в ИС актуализации тех или иных действий способствуют знания, имеющиеся в системе. Таким образом, выполнение программ в ИС должно инициироваться текущим состоянием информационной базы. Появление в базе фактов или описаний событий, установление связей может стать источником активности системы.
Перечисленные пять особенностей информационных единиц определяют ту грань, за которой данные превращаются в знания, а базы данных перерастают в базы знаний (БЗ). Совокупность средств, обеспечивающих работу с знаниями, образует систему управления базой знаний (СУБЗ). В настоящее время не существует баз знаний, в которых в полной мере были бы реализованы внутренняя интерпретируемость, структуризация, связность, введена семантическая мера и обеспечена активность знаний.