Существование современного общества немыслимо без его основного ресурса – . Информация — это отражение внешнего мира с помощью знаков или сигналов. Информационная ценность сообщения заключается в новых сведениях, которые в нем содержатся (в уменьшении незнания).
Понимая информацию как один из основных стратегических ресурсов, без которого невозможна деловая, управленческая, вообще любая социально значимая деятельность, необходимо уметь оценивать ее как с качественной, так и с количественной стороны. На этом пути существуют большие проблемы из-за нематериальной природы этого ресурса и субъективности восприятия конкретной информации различными индивидуумами человеческого общества. С этой точки зрения классификация информации является важнейшим средством создания систем хранения и поиска информации, без которых сегодня невозможно эффективное функционирование информационного обеспечения управления.
Главной целью настоящей работы является рассмотрение классификации информации и методов ее количественной оценки. Для этого нужно рассмотреть следующие задачи и вопросы. Первой задачей является изучение общих понятий по данной теме. Рассмотрение конкретных классификационных методов и методов количественной оценки информации – вторая задача.
^
1.1. Информация. Классификация информации
Термин информация происходит от латинского «informatio», что означает разъяснение, осведомление, изложение. С позиции материалистической философии информация есть отражение реального мира с помощью сведений (сообщений).
В широком смысле информация — это общенаучное понятие, включающее в себя обмен сведениями между людьми, обмен сигналами между живой и неживой природой, людьми и устройствами.
Согласно федеральному закону «Об информации, информатизации и защите информации» сегодня под информацией понимается «сведения о лицах, предметах, фактах, событиях, явлениях и процессах независимо от формы их представления» 1 . Вся информация объединяется в информационные системы – «организационно упорядоченные совокупности документов (массивов документов) и информационных технологий, в том числе с использованием средств вычислительной техники и связи, реализующих информационные процессы».
Методы снижения риска
... данной работы является определение самого понятия риска, его влияния на деятельность рисковых предприятий, описание методов оценки, анализа риска и способов его снижения. В общем, будут ... рассмотрены вопросы, необходимые для эффективного управления риском. Проблема управления риском очень актуальна. ...
Классификация – это «разделение множества объектов на подмножества по их сходству или различию в соответствии с принятыми методами» 2 . Классификация фиксирует закономерные связи между классами объектов с целью определения места объекта в системе, которое указывает на его свойства. Под объектом понимается любой предмет, процесс, явление материального или нематериального свойства. Система классификации позволяет сгруппировать объекты и выделить определенные классы, которые будут характеризоваться рядом общих свойств. Классификация объектов – та группировки на качественном уровне, направленная на выделение однородных свойств.
Применительно к информации как к объекту классификации выделенные классы называют информационными объектами. С этой точки зрения классификация информации является важнейшим средством создания систем хранения и поиска информации, без которых сегодня невозможно эффективное функционирование информационного обеспечения управления. Классификация носит всеобщий характер вследствие той роли, которую она играет как инструмент научного познания, прогнозирования и управления. Одновременно классификация выполняет функцию объективного отражения и фиксации результатов этого познания. при этом характер классификационной схемы, состав признаков классификации и глубина классификации определяется теми практическими целями, для реализации которых используется классификация, типом объектов классификации, а также условиями, в которых классификация будет использоваться.
Создание в России единого информационного пространства и объединение его с европейским и мировым информационным пространством давно уже стало одной из важнейших задач, от решения которых во многом зависит дальнейшее развитие страны. Решение же этой задачи возможно только при условии гармонизации российских и зарубежных информационных систем и обеспечении информационной совместимости всех взаимодействующих информационных систем. Под информационной совместимостью понимается взаимное соответствие различных частей на стыках, позволяющее объединять их друг с другом, что обеспечивает функционирование системы как единого целого. Достижении информационной совместимости обеспечивается унификацией и стандартизацией средств информационной техники, носителей информации, языка формализованного описания данных, структуры информационных систем и технологических процессов в них. И для осуществления всех этих задач необходима классификация информации, которая осуществляется при помощи методов классификации.
1.2. Методы классификации
Используются два метода классификации информации: иерархический и фасетный. Первый из этих методов – иерархический, является более традиционным, при использовании иерархического метода происходит «последовательное разделение множества объектов на подчиненные, зависимые классификационные группировки»3 . Получаемая на основе этого классификационная схема имеет иерархическую структуру. В ней первоначальный объём классифицируемых объектов детализируется на каждой следующей ступени классификации. В общем виде иерархическую классификационную схему можно представить в следующем виде:
Классификационные схемы, построенные на основе иерархического принципа, имеют неограниченную ёмкость, величина которой зависит от глубины классификации, числа ступеней деления и количества объектов классификации, которое можно расположить на каждой ступени. Количество же объектов на каждой ступени классификации определяется основанием кода, то есть числом знаков в алфавите кода. Выбор необходимой глубины классификации и структуры кода зависит от характера объектов классификации и характера задач, для решения которых предназначен классификатор.
Классификации методов теории государства и права
... характер задач, решаемых теорией государства и права; исследовать классификацию методов государства и права. Объектом исследования является методология теории государства и права. Предметом исследования является классификация методов теории государства и права. Теоретической базой исследования послужили работы ученых в области исследования теории государства и права, такие как: Вишневский ...
Серьёзным недостатком иерархического метода классификации является жесткость классификационной схемы. Она обусловлена заранее установленным выбором признаков классификации и порядком их использования по ступеням классификации. Это ведёт к тому, что при изменении состава объектов классификации, их характеристик или характера решаемых при помощи классификатора задач требуется коренная переработка классификационной схем, поэтому при разработке классификаторов следует учитывать, что иерархический метод классификации более предпочтителен для объектов с относительно стабильными признаками и для решения стабильного комплекса задач.
К классификационным схемам, построенным на основе иерархического метода классификации, предъявляются определенные требования, соблюдение которых повышает их качество и эффективность применения. Первым таким требованием является непересекаемость классификационных группировок, расположенных на одной ступени классификации. Это означает, что классификационные группировки, расположенные на одной и той же ступени классификации, не должны включать аналогичных понятий.
Второе общее правило заключается в том, что для разделения любой классификационной группировки на подчиненные группировки должен использоваться только один признак. Но это требование соблюдается только при использовании последовательного метода кодирования, при использовании же параллельного метода кодирования на определенной ступени классификации при иерархическом методе классификации могут одновременно использоваться несколько признаков, выбор которых определяется характером решаемых задач.
Третьим требованием к иерархическому методу классификации является логичность и последовательность деления группировок на нижестоящие и полнота этого деления. В соответствии с этим требованием на верхних ступенях классификации должны использоваться признаки, к которым в дальнейшем будет обращено наибольшее число запросов. Полнота деления означает, что сумма подмножества всегда должна давать делимое множество объектов, не должна оставаться какая-то часть объектов, не вошедшая в состав классификационных группировок.
Вместе с этим у иерархического метода классификации есть достоинства, которые обеспечили ему широкое использование в различных классификационных схемах.
В современных классификационных схемах широко используется и второй метод классификации – фасетный метод. Под этим методом понимается «параллельное разделение множества объектов на независимые классификационные группировки» 4 . При этом методе классификации заранее жесткой классификационной схемы и конечных группировок не создается. Разрабатывается лишь система таблиц признаков объектов классификации, называемых фасетами, при необходимости создания классификационной группировки для решения конкретной задачи осуществляется выборка необходимых признаков из фасетов и их объединение в определенной последовательности. В общем виде фасетную классификационную схему можно представить в следующем виде:
Такой принцип построения классификационных группировок делает классификатор на основе фасетного метода классификации очень гибким, хорошо приспособленным для использования в условиях большой динамичности характера решаемых задач. При изменении характера задач или характеристик объектов классификации разрабатываются новые фасеты или дополняются новыми признаками уже существующие фасеты без коренной перестройки структуры всего классификатора.
При разработке классификаторов на основе фасетного метода классификации также должны соблюдаться определенные правила, основным из которых является соблюдение принципа непересекаемости фасетов. В соответствии с этим правилом состав признаков одного фасета не должен повторяться в других фасетах этого же классификатора. Вторым правилом является включение в состав классификатора только таких фасетов и признаков в них, которые необходимы для решения конкретных задач.
В современных классификационных схемах часто одновременно используются оба метода классификации, это обеспечивает возможность снизить влияние недостатков методов классификации и расширить возможность использования классификатора как конкретной формы реализации классификации информации в информационном обеспечении управления.
^
2.1. Комбинаторный подход
Пусть переменное x способно принимать значения, принадлежащие конечному множеству X, которое состоит из N элементов. Говорят, что энтропия переменного равна
Указывая определенное значение x=a переменного x, мы «снимаем» эту энтропию, сообщая информацию
Если переменные x 1 ,x2 ,…,xk способны независимо пробегать множества, которые состоят соответственно из N1 ,N2 ,…,Nk элементов, то
Для передачи количества информации I приходится употреблять
двоичных знаков. Например, число различных «слов», состоящих из k нулей и единиц и одной двойки, равно 2 k (k + 1), поэтому количество информации в такого рода сообщении равно
т.е. для «кодирования» такого рода слов в чистой двоичной системе требуется (всюду далее f≈g обозначает, что разность f-g ограничена, а f~g, что отношение f:g стремится к единице)
нулей и единиц.
Посмотрим теперь, в какой мере чисто комбинаторный подход позволяет оценить «количество информации», содержащееся в переменном x относительно связанного с ним переменного y. Связь между переменными x и y, пробегающими соответственно множества X и Y , заключается в том, что не все пары x, y, принадлежащие прямому произведению X.Y , являются «возможными». По множеству возможных пар U определяются при любом a X множества Ya тех y, для которых (a; y)U.
x |
y |
|||
1 |
2 |
3 |
4 |
|
1 |
+ |
+ |
+ |
+ |
2 |
+ |
− |
+ |
− |
3 |
− |
+ |
− |
− |
Естественно определить условную энтропию равенством
а информацию в x относительно y−формулой
Например, в случае, изображенном в таблице имеем
Понятно, что H(y|x) и I(x:y) являются функциями от x (в то время как y входит в их обозначение в виде «связанного переменного»).
Без труда вводится в чисто комбинаторной концепции представление о «количестве информации, необходимом для указания объекта x при заданных требованиях к точности указания». Очевидно,
2.2. Вероятностный подход
Возможности дальнейшего развития теории информации на основе определений (5) и (6) остались в тени ввиду того, что придание переменным x и y характера «случайных переменных», обладающих определенным совместным распределением вероятностей, позволяет получить значительно более богатую систему понятий и соотношений. В параллель к введенным ранее величинам имеем здесь
По-прежнему H W (y|x) и IW (x:y) являются функциями от x. Имеют место неравенства
,
переходящие в равенства при равномерности соответствующих распределений (на X и Y x ).
Величины IW (x:y) и I(x:y) не связаны неравенством определенного знака.
Но отличие заключается в том, что можно образовать математические ожидания MH W (y|x), MIW (x:y), а величина
характеризует «тесноту связи» между x и y симметричным образом.
Стоит, однако, отметить и возникновение в вероятностной концепции одного парадокса: величина I(x:y) при комбинаторном подходе всегда неотрицательна, как это и естественно при наивном представлении о «количестве информации», величина же I W (x:y) может быть и отрицательной. Подлинной мерой «количества информации» теперь становится лишь осредненная величина IW (x,y).
Вероятностный подход естествен в теории передачи по каналам связи «массовой» информации, состоящей из большого числа не связанных или слабо связанных между собой сообщений, подчиненных определенным вероятностным закономерностям. В такого рода вопросах практически безвредно и укоренившееся в прикладных работах смешение вероятностей и частот в пределах одного достаточно длинного временного ряда (получающее строгое оправдание при гипотезе достаточно быстрого «перемешивания»).
Практически можно считать, например, вопрос об «энтропии» потока поздравительных телеграмм и «пропускной способности» канала связи, требующегося для своевременной и неискаженной передачи, корректно поставленным в его вероятностной трактовке и при обычной замене вероятностей эмпирическими частотами. Если здесь и остается некоторая неудовлетворенность, то она связана с известной расплывчатостью наших концепций, относящихся к связям между математической теорией вероятностей и реальными «случайными явлениями вообще.
2.3. Алгоритмический подход
По существу, наиболее содержательным является представление о количестве информации «в чем-либо (x) и «о чем-либо» (y).
Не случайно именно оно в вероятностной концепции получило обобщение на случай непрерывных переменных, для которых энтропия бесконечна, но в широком круге случаев конечно.
Реальные объекты, подлежащие нашему изучению, очень сложны, но связи между двумя реально существующими объектами исчерпываются при более простом схематизированном их описании. Если географическая карта дает нам значительную информацию об участке земной поверхности, то все же микроструктура бумаги и краски, нанесенной на бумагу, никакого отношения не имеет к микроструктуре изображенного участка земной поверхности.
Практически нас интересует чаще всего количество информации в индивидуальном объекте x относительно индивидуального объекта y. Правда, уже заранее ясно, что такая индивидуальная оценка количества информации может иметь разумное содержание лишь в случаях достаточно больших количеств информации. Не имеет, например, смысла спрашивать о количестве информации в последовательности цифр 0 1 1 0 относительно последовательности 1 1 0 0. Но если мы возьмем вполне конкретную таблицу случайных чисел обычного в статистической практике объема и выпишем для каждой ее цифры цифру единиц ее квадрата по схеме
то новая таблица будет содержать примерно
информации о первоначальной (n — число цифр в столбцах).
В соответствии с только что сказанным предлагаемое далее определение величины I A (x:y) будет сохранять некоторую неопределенность. Разные равноценные варианты этого определения будут приводить к значениям, эквивалентным лишь в смысле IA1 ≈IA2 , т.е.
где константа C A1A2 зависит от положенных в основу двух вариантов определения универсальных методов программирования A1 и A2 .
Будем рассматривать «нумерованную область объектов», т.е. счетное множество X={x}, каждому элементу которого поставлена в соответствие в качестве «номера» n(x) конечная последовательность нулей и единиц, начинающаяся с единицы. Обозначим через l(x) длину последовательности n(x).
Будем предполагать, что:
-
соответствие между X и множеством D двоичных последовательностей описанного вида взаимно однозначно;
-
D X, функция n(x) на D общерекурсивна [1], причем для xD
где C — некоторая константа;
-
вместе с x и y в X входит упорядоченная пара (x,y), номер этой пары есть общерекурсивная функция номеров x и y и
где C x зависит только от x.
Не все эти требования существенны, но они облегчают изложение.
«Относительной сложностью» объекта y при заданном x будем считать минимальную длину l(p) программы p получения y из x. Сформулированное так определение зависит от «метода программирования». Метод программирования есть не что иное, как функция φ(p,x)=y, ставящая в соответствие программе p и объекту x объект y.
В соответствии с универсально признанными в современной математической логике взглядами следует считать функцию φ частично рекурсивной. Для любой такой функции полагаем
При этом функция υ=φ(u) от u X со значениями υX называется частично рекурсивной, если она порождается частично рекурсивной функцией преобразования номеров
Для понимания определения важно заметить что частично рекурсивные функции, вообще говоря, не являются всюду определенными. Не существует регулярного процесса для выяснения того, приведет применение программы p к объекту x к какому-либо результату или нет. Поэтому функция K φ (y|x) не обязана быть эффективно вы числимой (общерекурсивной) даже в случае, когда она заведомо конечна при любых x и y.
Основная теорема. Существует такая частично рекурсивная функция A(p,x), что для любой другой частично рекурсивной функции φ(p,x) выполнено неравенство
где константа C φ не зависит от x и y.
Доказательство опирается на существование универсальной частично рекурсивной функции Φ(n,u), обладающей тем свойством, что, фиксируя надлежащий номер n, можно получить по формуле φ(u)=Φ(n,u) любую другую частично рекурсивную функцию. Нужная нам функция A(p,x) определяется формулой (Φ(n,u)определена только в случае n D,A(p,x) только в случае, когда p имеет вид (n,q), nD)
В самом деле, если
то
Функции A(p,x), удовлетворяющие требованиям основной теоремы, назовем (как и определяемые ими методы программирования) асимптотически оптимальными. Очевидно, что для них при любых x и y «сложность» K A (y|x) конечна. Для двух таких функций A1 и A2
Наконец, K A (y) = KA (y|1) можно считать просто «сложностью объекта y» и определить «количество информации в x относительно y» формулой
Легко доказать (Выбирая в виде функции сравнения φ(p,x)=A(p,1), получим K A (y|x)≤Kφ (y|x)+Cφ =KA (y)+Cφ ), что величина эта всегда в существенном положительна:
что понимается в том смысле, что I A (x:y) не меньше некоторой отрицательной константы C, зависящей лишь от условностей избранного метода программирования. Как уже говорилось, вся теория рассчитана на применение к большим количествам информации, по сравнению с которым |C| будет пренебрежимо мал.
Наконец, K A (x|x)≈0, IA (x:x)≈0;KA (x).
Конечно, можно избегнуть неопределенностей, связанных с константами C φ и т. д., остановившись на определенных областях объектов X, их нумерации и функции A, но сомнительно, чтобы это можно было сделать без явного произвола. Следует, однако, думать, что различные представляющиеся здесь «разумные» варианты будут приводить к оценкам «сложностей», расходящимся на сотни, а не на десятки тысяч бит.
ЗАКЛЮЧЕНИЕ
Классификация информации и ее количественная оценка необходимы для комплексного и системного подхода ко всем информационным и, в частности, к документационным проблемам. Так, А.Н. Сокова отмечает, что «классификация позволяет рассмотреть документацию в совокупности для решения тех или иных практических задач» 5 .
Классификация информации сегодня является важнейшим средством создания систем хранения и поиска информации, без которых сегодня невозможно эффективное функционирование информационного обеспечения управления. Осуществляется классификация при помощи методов классификации.
Выводы:
-
классификация информации необходима;
-
информация имеет количественную оценку;
-
зависимость между количеством информации и количеством комбинаций, составленных из данного алфавита, — логарифмическая.
^
-
Воронцов Ю.М. Информациология – основа мировой дипломатии. – М.: Финансы и статистика, 2001.
-
ГОСТ 6.01.1-87 Единая система классификации и кодирования технико-экономической информации. Основные положения. — М.: Изд. стандартов, 1987.
-
Завгородний В.Н. Комплексная в компьютерных системах. – М.: Финансы и статистика, 2001.
-
Косарев В.П., Королева А.Ю. Экономическая информатика и вычислительная техника – М.: Финансы и статистика, 1996.
-
Костомаров М.Н. Классификация и кодирование документов и документной информации (классификация документов) // Секретарское дело. – 2003. – № 10.
-
Костомаров М.Н. Классификация и кодирование документов и документной информации (классификация документов) // Секретарское дело. – 2003. – № 11.
-
Куприянов А.И., Сахаров А.В., Шевцов В.А. – М.: Academa, 2006.
-
Симонович С.В. Информатика. Базовый курс – СПб., 2000.
-
Федеральный закон Российской Федерации «Об информации, информатизации и защите информации» // Российская газета, 1995, 22 февраля.
-
Юзвишин И.И. Основы информациологии М.: Высшая школа, 2001.