Меры информации семантического уровня. Меры информации синтаксического уровня

06.07.2019

Классификация мер

Меры информации

Формы адекватности информации

Адекватность информации может выражаться в трех формах: семантической, синтаксической, прагматической.

Синтаксическая адекватность. Она отображает формально-структурные характеристики информации и не затрагивает ее смыслового содержания. На синтаксическом уровне учитываются тип носителя и способ представления информации, скорость передачи и обработки, размеры кодов её представления, надежность и точность преобразования этих кодов и т. п. Информацию, рассматриваемую только с синтаксических позиций, обычно называют данными, т.к. при этом не имеет значения смысловая сторона.

Семантическая (смысловая) адекватность. Эта форма определяет степень соответствия образа объекта и самого объекта. Семантический аспект предполагает учет смыслового содержания информации. На этом уровне анализируются те сведения, которые отражает информация, рассматриваются смысловые связи. В информатике устанавливаются смысловые связи между кодами представления информации. Эта форма служит для формирования понятий и представлений, выявления смысла, содержания информации и ее обобщения.

Прагматическая (потребительская) адекватность отражает отношение информации и ее потребителя, соответствие информации цели управления, которая на ее основе реализуется. Прагматические свойства информации проявляются только при наличии единства информации (объекта), пользователя и цели управления. Прагматический аспект рассмотрения связан с ценностью, полезностью использования информации при выработке потребителем решения для достижения своей цели.

Для измерения информации вводятся два параметра: количество информации I и объем данных V. Эти параметры имеют разные выражения и интерпретацию в зависимости от рассматриваемой формы адекватности. Каждой форме адекватности соответствует своя мера количества информации и объема данных (рис. 2.1).

Объем данных V д в сообщении измеряется количеством символов (разрядов) в этом сообщении. В различных системах счисления один разряд имеет различный вес и соответственно меняется единица измерения данных:

  • в двоичной системе счисления единица измерения - бит (bit - binary digit - двоичный разряд);
  • в десятичной системе счисления единица измерения - дит (десятичный разряд).


Рис. 2.1. Меры информации

Количество информации I на синтаксическом уровне невозможно определить без рассмотрения понятия неопределенности состояния системы (энтропии системы). Действительно, получение информации о какой-либо системе всегда связано с изменением степени неосведомленности получателя о состоянии этой системы. Рассмотрим это понятие.


Пусть до получения информации потребитель имеет некоторые предварительные (априорные) сведения о системе a. Мерой его неосведомленности о системе является функция H(a), которая в то же время служит и мерой неопределенности состояния системы.

После получения некоторого сообщения b получатель приобрел некоторую дополнительную информацию I b (a), уменьшившую его априорную неосведомленность так, что апостериорная (после получения сообщения b) неопределенность состояния системы стала H b (a).

Тогда количество информации I b (a) о системе, полученной в сообщении b, определится как

I b (a) = H(a)-H b (a),

т.е. количество информации измеряется изменением (уменьшением) неопределенности состояния системы.

Если конечная неопределенность системы H b (a) обратится в нуль, то первоначальное неполное знание заменится полным знанием и количество информации I b (a) = H(a). Иными словами, энтропия системы H(a) может рассматриваться как мера недостающей информации.

Энтропия системы H(a), имеющая N возможных состояний, согласно формуле Шеннона, равна

,

где P i - вероятность того, что система находится в i-м состоянии.

Для случая, когда все состояния системы равновероятны, т.е. их вероятности равны P i = , ее энтропия определяется соотношением

.

Часто информация кодируется числовыми кодами в той или иной системе счисления, особенно это актуально при представлении информации в компьютере. Естественно, что одно и то же количество разрядов в разных системах счисления может передать разное число состояний отображаемого объекта, что можно представить в виде соотношения

где N - число всевозможных отображаемых состояний;

m - основание системы счисления (разнообразие символов, применяемых в алфавите);

n - число разрядов (символов) в сообщении.

Наиболее часто используются двоичные и десятичные логарифмы. Единицами измерения в этих случаях будут соответственно бит и дит.

Коэффициент (степень) информативности (лаконичность) сообщения определяется отношением количества информации к объему данных, т.е.

Y=1/V д, причем 0

С увеличением Y уменьшаются объемы работы по преобразованию информации (данных в системе). Поэтому стремятся к повышению информативности, для чего разрабатываются специальные методы оптимального кодирования информации.


Для измерения смыслового содержания информации, т.е. ее количества на семантическом уровне, наибольшее признание получила тезаурусная мера, которая связывает семантические свойства информации со способностью пользователя принимать поступившее сообщение. Для этого используется понятие тезаурус пользователя.

Тезаурус - это совокупность сведений, которыми располагает пользователь или система.

В зависимости от соотношений между смысловым содержанием информации S и тезаурусом пользователя S p изменяется количество семантической информации I c , воспринимаемой пользователем и включаемой им в дальнейшем в свой тезаурус. Характер такой зависимости показан на рис. 2.2.



Рис. 2.2. Зависимость количества семантической информации, воспринимаемой потребителем

Рассмотрим два предельных случая, когда количество семантической информации I c
равно 0:

  • при S p = 0 пользователь не воспринимает, не понимает поступающую информацию;
  • при S p ® ¥ пользователь все знает и поступающая информация ему не нужна.

Максимальное количество семантической информации I c потребитель приобретает при согласовании ее смыслового содержания S со своим тезаурусом S p (S p = S p opt), когда поступающая информация понятна пользователю и несет ему ранее не известные (отсутствующие в его тезаурусе) сведения.

Следовательно, количество семантической информации в сообщении, количество новых знаний, получаемых пользователем, является величиной относительной. Одно и то же сообщение может иметь смысловое содержание для компетентного пользователя и быть бессмысленным (семантический шум) для пользователя некомпетентного.

При оценке семантического (содержательного) аспекта информации необходимо стремиться к согласованию величин S и S p .

Относительной мерой количества семантической информации может служить коэффициент содержательности C, который определяется как отношение количества семантической информации к ее объему:


приходящуюся в среднем на одно состояние, называют энтропией дискретного источника инфор-

мации.

H p i logp i

i 1 N

Если снова ориентироваться на измерение неопределённости в двоичных единицах, то основание логарифма следует принять равным двум.

H p ilog 2 p i

i 1 N

При равновероятных выборах все

p log

и формула (5) преобразуется в формулу Р. Хартли (2):

1 log2

N log2

Предложенная мера была названа энтропией не случайно. Дело в том, что формальная структура выражения (4) совпадает с энтропией физической системы, определённой ранее Больцманом. Согласно второму закону термодинамики энтропия замкнутого пространства определяется выра-

П i 1

рость, то

можно записать как

p iln

i 1 N

Данная формула полностью совпадает с (4)

В обоих случаях величина характеризует степень разнообразия системы.

Используя формулы (3) и (5), можно определить избыточность алфавита источника сооб-

Которая показывает, насколько рационально применяются символы данного алфавита:

) - максимально возможная энтропия, определяемая по формуле (3);

() - энтропия

источника, определяемая по формуле (5).

Суть данной меры заключается в том, что при равновероятном выборе ту же информационную нагрузку на знак можно обеспечить, используя алфавит меньшего объёма, чем в случае с неравновероятным выбором.

Меры информации семантического уровня

Для измерения смыслового содержания информации, т.е. её количества на семантическом уровне, наибольшее распространение получила тезаурусная мера, которая связывает семантические свойства информации со способностью пользователя принимать поступившее сообщение. Действительно, для понимания и использования полученной информации получатель должен обладать определенным запасом знаний. Полное незнание предмета не позволяет извлечь полезную информацию из принятого сообщения об этом предмете. По мере роста знаний о предмете растёт и количество полезной информации, извлекаемой из сообщения.

Если назвать имеющиеся у получателя знания о данном предмете «тезаурусом» (т.е. неким сводом слов, понятий, названий объектов, связанных смысловыми связями), то количество информации, содержащееся в некотором сообщении, можно оценить степенью изменения индивидуального тезауруса под воздействием данного сообщения.

Тезаурус - совокупность сведений, которыми располагает пользователь или система.

Иными словами, количество семантической информации, извлекаемой получателем из поступающих сообщений, зависит от степени подготовленности его тезауруса для восприятия такой информации.

В зависимости от соотношений между смысловым содержанием информации и тезаурусом пользователя изменяется количество семантической информации, воспринимаемой пользователем и включаемой им в дальнейшем в свой тезаурус. Характер такой зависимости показан на рисунке 3. Рассмотрим два предельных случая, когда количество семантической информации равно

Рисунок 3 - Зависимость количества семантической информации, воспринимаемой потребителем, от его тезауруса ()

Максимальное количество семантической информации потребитель приобретает при согла-

совании её смыслового содержания со своим тезаурусом (), когда поступающая информация понятна пользователю и несёт ему ранее неизвестные (отсутствующие в его тезаурусе) сведения.

Следовательно, количество семантической информации в сообщении, количество новых знаний, получаемых пользователем, является величиной относительной. Одно и то же сообщение может иметь смысловое содержание для компетентного пользователя и быть бессмысленным для пользователя некомпетентного.

При оценке семантического (содержательного) аспекта информации необходимо стремиться к согласованию величин и.

Относительной мерой количества семантической информации может служить коэффициент содержательности, который определяется как отношение количества семантической информации к её объёму:

Ещё один подход к семантическим оценкам информации, развиваемый в рамках науковедения, заключается в том, что в качестве основного показателя семантической ценности информации, содержащейся в анализируемом документе (сообщении, публикации), принимается количество ссылок на него в других документах. Конкретные показатели формируются на основе статистической обработки количества ссылок в различных выборках.

Меры информации прагматического уровня

Эта мера определяет полезность информации (ценность) для достижения пользователем поставленной цели. Она также величина относительная, обусловленная особенностями использования этой информации в той или иной системе.

Одним из первых отечественных ученых к этой проблеме обратился А. А. Харкевич, который предложил принять за меру ценности информации количество информации, необходимое для достижения поставленной цели, т.е. рассчитывать приращение вероятности достижения цели. Так, если

Таким образом, ценность информации при этом измеряется в единицах информации, в данном случае в битах.

Выражение (7) можно рассматривать как результат нормировки числа исходов. В пояснение на рисунке 4 приведены три схемы, на которых приняты одинаковые значения числа исходов 2 и 6 для точек 0 и 1 соответственно. Исходное положение - точка 0. На основании полученной информации совершается переход в точку 1. Цель обозначена крестиком. Благоприятные исходы изображены линиями, ведущими к цели. Определим ценность полученной информации во всех трёх случаях:

а) число благоприятных исходов равно трём:

и, следовательно,

б) имеется один благоприятный исход:

в) число благоприятных исходов равно четырём:

В примере б) получена отрицательная ценность информации (отрицательная информация). Такую информацию, увеличивающую исходную неопределённость и уменьшающую вероятность достижения цели, называют дезинформацией. Таким образом, в примереб) мы получили дезинформацию в 1,58 двоичной единицы.

В базе данных информация записывается и воспроизводится с помощью специально созданных лексических средств и на основе принятых синтаксических правил и ограничений.

Синтаксический анализ устанавливает важнейшие параметры информационных потоков, включая необходимые количественные характеристики, для выбора комплекса технических средств сбора, регистрации, передачи, обработки, накопления, хранения и защиты информации.

Синтаксический анализ обслуживаемых информационных потоков обязательно предшествует всем этапам проектирования информационных систем.

Семантический анализ позволяет изучить информацию с точки зрения смыслового содержания отдельных элементов, находить способы языкового соответствия (язык человека, язык ЭВМ) при однозначном распознавании вводимых в систему сообщений.

Прагматический анализ проводится с целью определения полезности информации, используемой для управления, выявления практической значимости сообщений, применяемых для выработки управляющих воздействий.

Постоянная информация остается без изменений или же подвергается незначительным корректировкам в течение более или менее длительного периода времени. Это различные справочные сведения, нормативы, расценки и т.п.

Переменная информация отражает результаты выполнения производственно-хозяйственных операций, соответствует их динамизму и, как правило, участвует в одном технологическом цикле машинной обработки.

При вводе и обработке информации используются пакетный и интерактивные режимы.

Пакетный режим был наиболее распространен в практике централизованного решения экономических задач, когда большой удельный вес занимали задачи отчетности о производственнохозяйственной деятельности экономических объектов разного уровня управления. Организация вычислительного процесса при пакетном режиме строилась без доступа пользователя к ЭВМ.

Его функции ограничивались подготовкой исходных данных по комплексу информационно-взаимосвязанных задач и передачей их в центр обработки, где формировался пакет, включающий задание для ЭВМ на обработку, программы, исходные, нормативнорасценочные и справочные данные. Пакет вводился в ЭВМ и реализовывался в автоматическом режиме без участия пользователя и оператора, что позволяло минимизировать время выполнения заданного набора задач. В настоящее время пакетный режим реализуется в электронной почте или при массированных обновлениях баз данных.

Интерактивный режим предусматривает непосредственное взаимодействие пользователя с информационно-вычислительной системой, может носить характер запроса или диалога с системой.

Запросный режим необходим пользователям для взаимодействия с системой через значительное число абонентских терминальных устройств, в том числе удаленных на значительное расстояние от центра обработки.

Пример: Задача резервирования билетов на транспорте.

Информационная система реализует массовое обслуживание, работает в режиме разделения времени, при котором несколько независимых пользователей с помощью терминалов имеют в процессе решения своих задач непосредственный и практически

одновременный доступ к информационной системе. Этот режим позволяет дифференцированно в строго установленном порядке предоставлять каждому пользователю время для общения с системой, а после окончания сеанса выходить из нее.

Диалоговый режим открывает пользователю возможность непосредственно взаимодействовать с информационно-вычислительной системой в допустимом для него темпе работы, реализуя повторяющийся цикл выдачи задания, получения и анализа ответа.

Еще по теме Синтаксический, семантический, прагматический аспекты информационного процесса:

  1. Структура массово-информационной деятельности: сбор, обработка, компоновка, передача, восприятие, трансформация, хранение и использование массовой информации. Потенциальная, принятая и реальная информация. Семантический, синтаксический и прагматический аспекты массово-информационных текстов.
  2. Единицы и способы концептуализации в семантическом, синтаксическом и прагматическом аспектах
  3. 7.ЖУРНАЛИСТСКИЙ ТЕКСТ КРИТЕРИИ АДЕКВАТНОСТИ ЖУРНАЛИСТСКОГО ТЕКСТА СЕМАНТИЧЕСКИЙ, СИНТАКСИЧЕСКИЙ, ПРАГМАТИЧЕСКИЙ АСПЕКТЫ ЖУРНАЛИСТСКОГО ТЕКСТАСПЕЦИФИКА ЭФФЕКТИВНОСТИ ЖУРНАЛИСТСКОГО ТЕКСТА

Для измерения смыслового содержания информации, т.е. ее количества на семантическом уровне, наибольшее признание получила тезаурусная мера, которая связывает семантические свойства информации со способностью пользователя принимать поступившее сообщение. Для этого используется понятие тезаурус пользователя.

Тезаурус - это совокупность сведений, которыми располагает пользователь или система.

В зависимости от соотношений между смысловым содержанием информации S и тезаурусом пользователя S p изменяется количество семантической информации I c , воспринимаемой пользователем и включаемой им в дальнейшем в свой тезаурус. Характер такой зависимости показан на рис.2.2. Рассмотрим два предельных случая, когда количество семантической информации I c равно 0:

при S p 0 пользователь не воспринимает, не понимает поступающую информацию;

при Sp; пользователь все знает, н поступающая информация ему не нужна.

Рис. 2.2. Зависимость количества семантической информации. воспринимаемой потребителем, от его тезауруса Ic=f(Sp)

Максимальное количество семантической информации I c потребитель приобретает при согласовании ее смыслового содержания S со своим тезаурусом S p (S p = S p opt), когда поступающая информация понятна пользователю и несет ему ранее не известные (отсутствующие в его тезаурусе) сведения.

Следовательно, количество семантической информации в сообщении, количество новых знаний, получаемых пользователем, является величиной относительной. Одно и то же сообщение может иметь смысловое содержание для компетентного пользователя и быть бессмысленным (семантический шум) для пользователя некомпетентного.

При оценке семантического (содержательного) аспекта информации необходимо стремиться к согласованию величин S и S p .

Относительной мерой количества семантической информации может служить коэффициент содержательности С , который определяется как отношение количества семантической информации к ее объему:

Прагматическая мера информации

Эта мера определяет полезность информации (ценность) для достижения пользователем поставленной цели. Эта мера также величина относительная, обусловленная особенностями использования этой информации в той или иной системе. Ценность информации целесообразно измерять в тех же самых единицах (или близких к ним), в которых измеряется целевая функция.



Пример 2.5. В экономической системе прагматические свойства (ценность) информации можно определить приростом экономического эффекта функционирования, достигнутым благодаря использованию этой информации для управления системой:

Inb(g)=П(g /b)-П(g),

где Inb(g) -ценность информационного сообщения b для системы управления g,

П(g) -априорный ожидаемый экономический эффект функционирования системы управления g,

П(g /b) - ожидаемый эффект функционирования системы g при условии, что для управления будет использована информация, содержащаяся в сообщении b.

Для сопоставления введенные меры информации представим в табл.2.1.

Таблица 2.1. Единицы измерения информации и примеры

КАЧЕСТВО ИНФОРМАЦИИ

Возможность и эффективность использования информации обусловливаются такими основными ее потребительскими показателями качества, как репрезентативность, содержательность, достаточность, доступность, актуальность, своевременность, точность, достоверность, устойчивость.

  • Репрезентативность информации связана с правильностью ее отбора и формирования в целях адекватного отражения свойств объекта. Важнейшее значение здесь имеют:
  • правильность концепции, на базе которой сформулировано исходное понятие;
  • обоснованность отбора существенных признаков и связей отображаемого явления.
  • Нарушение репрезентативности информации приводит нередко к существенным ее погрешностям.
  • Содержательность информации отражает семантическую емкость, равную отношению количества семантической информации в сообщении к объему обрабатываемых данных, т.е. C=Ic/Vд.

С увеличением содержательности информации растет семантическая пропускная способность информационной системы, так как для получения одних и тех же сведений требуется преобразовать меньший объем данных.

Наряду с коэффициентом содержательности С, отражающим семантический аспект, можно использовать и коэффициент информативности, характеризующийся отношением количества синтаксической информации (по Шеннону) к объему данных Y=I/Vд.

  • Достаточность (полнота) информации означает, что она содержит минимальный, но достаточный для принятия правильного решения состав (набор показателей). Понятие полноты информации связано с ее смысловым содержанием (семантикой) и прагматикой. Как неполная, т.е. недостаточная для принята правильного решения, так и избыточная информация снижает эффективность принимаемых пользователем решений.
  • Доступность информации восприятию пользователя обеспечивается выполнением соответствующих процедур ее получения и преобразования. Например, в информационной системе информация преобразовывается к доступной и удобной для восприятия пользователя форме. Это достигается, в частности, и путем согласования ее семантической формы с тезаурусом пользователя.
  • Актуальность информации определяется степенью сохранения ценности информации для управления в момент ее использования и зависит от динамики изменения ее характеристик и от интервала времени, прошедшего с момента возникновения данной информации.
  • Своевременность информации означает ее поступление не позже заранее назначенного момента времени, согласованного с временем решения поставленной задачи.
  • Точность информации определяется степенью близости получаемой информации к реальному состоянию объекта, процесса, явления и т.п. Для информации, отображаемой цифровым кодом, известны четыре классификационных понятия точности:
  • формальная точность, измеряемая значением единицы младшего разряда числа;
  • реальная точность, определяемая значением единицы последнего разряда числа, верность которого гарантируется;
  • максимальная точность, которую можно получить в конкретных условиях функционирования системы;
  • необходимая точность, определяемая функциональным назначением показателя.

Достоверность информации определяется ее свойством отражать реально существующие объекты с необходимой точностью. Измеряется достоверность информации доверительной вероятностью необходимой точности, т.е. вероятностью того, что отображаемое информацией значение параметра отличается от истинного значения этого параметра в пределах необходимой точности.

Устойчивость информации отражает ее способность реагировать на изменения исходных данных без нарушения необходимой точности. Устойчивость информации, как и репрезентативность, обусловлена выбранной методикой ее отбора и формирования.

В заключение следует отметить, что такие параметры качества информации, как репрезентативность, содержательность, достаточность, доступность, устойчивость, целиком определяются на методическом уровне разработки информационных систем. Параметры актуальности, своевременности, точности и достоверности обусловливаются в большей степени также на методическом уровне, однако на их величину существенно влияет и характер функционирования системы, в первую очередь ее надежность. При этом параметры актуальности и точности жестко связаны соответственно с параметрами своевременности и достоверности.

Синтаксическая мера информации.

Данная мера количества информации оперирует с обезличенной информацией, не выражающей смыслового отношения к объекту. Объем данных Vд в этом случае в сообщении измеряется количеством символов (разрядов) в сообщении. В различных системах счисления один разряд имеет различный вес и соответственно меняется единица измерения данных.

К примеру, в двоичной системе счисления единица измерения - бит (bit-binary digit - двоичный разряд). Бит – это ответ на один двоичный вопрос (“да” или “нет”; “0” или “1”), передаваемый по каналам связи с помощью сигнала. Таким образом, содержащееся в сообщении количество информации в битах определяется количеством двоичных слов естественного языка, количеством знаков в каждом слове, количеством двоичных сигналов, необходимых для выражения каждого знака.

В современных ЭВМ наряду с минимальной единицей измерения данных “бит” широко используется укрупненная единица измерения “байт”, равная 8 бит. В десятичной системе счисления единица измерения “бит” (десятичный разряд).

Количество информации I на синтаксическом уровне невозможно определить без рассмотрения понятия неопределенности состояния системы (энтропии системы). Действительно, получение информации о какой-либо системе всегда связано с изменением степени неосведомленности получателя о состоянии этой системы, т.е. количество информации измеряется изменением (уменьшением) неопределенности состояния системы.

Коэффициент (степень) информативности (лаконичность) сообщения определяется отношением количества информации к объему данных, т.е.

Y= I / Vд, причем 0

С увеличением Y уменьшаются объемы работы по преобразованию информации (данных) в системе. Поэтому стремятся к повышению информативности, для чего разрабатываются специальные методы оптимального кодирования информации.

Семантическая мера информации

Для измерения смыслового содержания информации, т.е. ее количества на семантическом уровне, наибольшее признание получила тезаурусная мера, которая связывает семантические свойства информации со способностью пользователя принимать поступившее сообщение. Для этого используется понятие тезаурус пользователя.

Тезаурус - это совокупность сведений, которыми располагает пользователь или система.

В зависимости от соотношений между смысловым содержанием информации S и тезаурусом пользователя изменяется количество семантической информации Iс, воспринимаемой пользователем и включаемой им в дальнейшем в свой тезаурус.

Характер такой зависимости показан на рис. 1. Рассмотрим два предельных случая, когда количество семантической информации равно 0:

при = 0 пользователь не воспринимает, не понимает поступающую информацию;

При  пользователь все знает, и поступающая информация ему не нужна.

Похожие статьи