Моделирование гуманитарных процессов "Небесное яблоко действительно должно быть совершенным, - ответил Насреддин, - но, учитывая твои нынешние способности вообще и способность судить о небесном яблоке в частности, а также то, что ты, как и все мы, находишься сейчас в этом обиталище разложения, можешь считать, что ты все равно не увидел бы райское яблоко в ином виде"  (история про Ходжу Насреддина) Лекция 3
Что это такое?
I. Термодинамическая энтропия Рудольф Клаузиус Понятие энтропии было впервые введено в 1865 году Рудольфом Клаузиусом. Он определил изменение энтропии термодинамической системы при обратимом процессе как отношение изменения общего количества тепла δ Q   к величине абсолютной температуры T: Рудольф Клаузиус дал величине S имя «энтропия», происходящее от греческого слова τρoπή, «изменение» (изменение, превращение, преобразование). Данное равенство относится к изменению энтропии, не определяя полностью саму энтропию. где  dS  — приращение (дифференциал) энтропии, а δ Q  — бесконечно малое приращение количества теплоты.
Термодинамическая энтропия Позже Больцманом и Планком было показано, что термодинамическая энтропия связана с вероятностными характеристиками распределения молекул в веществе. Формула Больцмана-Планка имеет следующий вид   где  k - постоянная Больцмана, Г  - число микросостояний реализующих рассматриваемое макросостояние системы,  S   - энтропия термодинамической системы в данном макросостоянии. В этой формуле фигурирует понятие макросостояния и микросостояния его реализующие.
II.  Информационная энтропия Клод Шеннон Шеннон предложил в качестве параметра распределения с плотностью  , характеризующего степень его “неопределенности” использовать величину, вычисляемую по формуле:
Информационная энтропия По Шеннону с понятием энтропии тесно связано понятие информации. Информация согласно определению Шеннона - это числовая величина, на которую изменилась энтропия системы, после получения некоторого сообщения о состоянии этой системы.  В дискретном случае Таким образом, энтропия события  x  является суммой с противоположным знаком всех произведений относительных частот появления события i, умноженных на их же двоичные логарифмы (основание 2 выбрано только для удобства работы с информацией, представленной в двоичной форме).
Информационная энтропия Шеннон предположил, что  прирост информации равен утраченной неопределённости , и задал требования к её измерению: 1. мера должна быть непрерывной; то есть изменение значения величины вероятности на малую величину должно вызывать малое результирующее изменение функции; 2. в случае, когда все варианты равновероятны, увеличение количества вариантов должно всегда увеличивать значение функции; 3. должна быть возможность сделать выбор в два шага, в которых значение функции конечного результата должно являться суммой функций промежуточных результатов.
III.  Пример вычисления Задача :  Предположим, что вы  перед экзаменом выучили все билеты кроме 1 из 32. Допустим, что это соответствует действительности. Тогда можно предположить, что вероятность того, что вы сдадите экзамен равна 31/32, а не сдадите – 1/32. Предположим, что преподаватель после очередного студента его билет не возвращает в общую стопку, из которой вы берете билет. Пусть теперь перед вами в аудиторию зашел ваш товарищ и взял некоторый билет. После выхода из аудитории он сообщает вам, что вытянул билет, который a) вы не знали, б) вы знали. Оценим количество информации, которое вы получили от вашего товарища в каждом из случаев.  Часто количество информации оценивают в  битах . Эта величина в теории информации, есть приращение энтропии, вычисляемой по основанию 2. В общем случае базовая единица измерения количества информации, равная количеству информации, содержащемуся в опыте, имеющем два равновероятных исхода.  Например энтропия броска монеты -2(0. 5log 2 0.5 )  = 1  бит.
Пример вычисления энтропии Рассмотрим случай а) тогда энтропия будет вычисляться  После получения сообщения а)  энтропия  H 1  стала равна 0. Поэтому количество полученной информации равно  0.2  бита. В случае же б)  Как видно, энтропия увеличилась. Следовательно, вы получили отрицательную информацию  I=H 0 -H 1 =0.2006-0.2056=-0.05  бит, которая увеличила вашу неопределенность в сдаче экзамена. Если взять величину информации по модулю, то можно сказать, что в первом случае вы получили в двадцать раз больше информации, чем во втором случае, да еще и с отрицательным знаком во втором случае.
Демон Максвелла Мысленный эксперимент 1867 года, а также его главный персонаж — гипотетическое разумное существо микроскопического размера, придуманное Джеймсом Максвеллом с целью проиллюстрировать кажущийся парадокс Второго начала термодинамики. Эксперимент состоит в следующем: предположим, сосуд с газом  разделён непроницаемой перегородкой на две части: правую и левую. В перегородке отверстие с устройством (так называемый демон Максвелла), которое позволяет пролетать быстрым (горячим) молекулам газа только из левой части сосуда в правую, а медленным (холодным) молекулам — только из правой части сосуда в левую. Тогда, через большой промежуток времени, горячие молекулы окажутся в правом сосуде, а холодные — в левом.
IV.  Условная энтропия В теории информации, условная энтропия (у|энтропия) определяет количество остающейся энтропии (то есть, остающейся неопределенности) случайной величины ξ  после того, как распределение второй случайной величины η становится известным. Она называется «энтропия ξ при условии η», и обозначается H(ξ | η).
Условная энтропия Св. 1  Иерархическая аддитивная:  Это свойство вытекает из иерархической мультипликативности плотности распре-деления: Св. 2  Условная энтропия не может превосходить безусловную. Св. 3  При добавлении условий условная энтропия не возрастает.
Закон Ципфа Эмпирическая закономерность распределения частоты слов естественного языка: если все слова языка (или просто достаточно длинного текста) упорядочить по убыванию частоты их использования, то частота n-го слова в таком списке окажется приблизительно обратно пропорциональной его порядковому номеру n (так называемому рангу  этого слова).  Например второе по используемости слово встречается примерно в два раза реже, чем первое, третье — в три раза реже, чем первое, и т. д.
Энтропия и распределения с максимальной неопределенностью Рассмотрим все возможные распределения вероятностей дискретной случайной величины, принимающей конечное число значений   X 1  , X 2  , … , X N при фиксированном  N Обозначим вероятности появления соответствующих зна­чений случайной величины через  p 1 ,p 2 ,…,p N.   Покажем, что распределением с мак­симальной неопределенностью, характеризуемой энтропией является равно­мерное распределение для которого  p 1 =p 2 =…=p N =1/N энтропия такой случайной величины равна  H=- Σ p i ln p i Кроме этого все возможные допустимые положительные числа  должны удовле­творять условию нормировки .
Энтропия и распределения с максимальной неопределенностью Задача отыскания распределения дискретной случайной величины с  заданным  числом исходов  N  и максимально возможным значением энтропии сводится к отысканию экстремума  H  при условии нормировки  Эту задачу решаем с помощью  метода множителей Лагранжа. где  λ  - множитель Лагранжа. Дифференцируя по каждому  p i   в отдельности, получаем систему уравнений следующего вида Отсюда находим: Значение  λ  определяется из условия нормировки. В результате получаем:
Энтропия и распределения с максимальной неопределенностью В случае непрерывной случайной величины рассматриваются всевозможные распределения с заданными средним значением и дисперсией.  Распределение с максимальной энтропией имеет вид  Это соотношение в точности соответствует плотности нормального распределения вероятностей со средним значением  a  и дисперсией   δ 2 Поэтому наиболее часто встречающееся в Природе распределение это нормальное или гауссово распределение. Из всех других законов распределения с фиксированной дисперсией  оно обладает наибольшей энтропией и следовательно реализуется чащу других.
Энтропийная модель распределения миграционных потоков В городе имеется  n  районов,  N i  - число жителей в  i -том районе,  W j  - число работающих в  j -том районе,  X ij  - число живущих в  i -том районе, но работающих  в  j -том районе. Величины  X ij   представляют собой по сути поток пассажиров из  i -того района  в  j -й во время проезда на работу. Эти потоки удовлетворяют  уравнениям: Задача заключается в вычислении матрицы  X ij , наиболее вероятной с точки зрения усредненных наблюдений за потоками.
Энтропийная модель распределения миграционных потоков Обозначим вероятности того, что наугад взятый человек в городе живет в  i -том районе, а работает  в  j -том. через  p ij  . В этом случае величины  P i  и  Q j : представляют собой вероятности того, что наугад взятый житель живет в  i -том районе ( P i ) и работает  в  j -том районе ( Q j ) соответственно. При этом очевидно, что
Энтропийная модель распределения миграционных потоков Для того чтобы гарантировать независимость результатов от наши собственных суждений. Требуется найти максимум величины Согласно методу множителей Лагранжа, условный экстремум  эквивалентен безусловному экстремуму следующей функции Дифференцируя данную функцию по  p ij  находим необходимые условия ее экстремума: Отсюда получаем ответ Учитывая условия для  P i   и  Q j   находим, что матрица вероятностей  может быть представлена в виде:
Литература Р.Л. Стратанович. Теория информации. М.:Сов. Радио, 1975 В.И. Опойцев. Нелинейная системостатика. М.: Наука, 1986, стр. 219-225

моделирование Гуманитарных процессов. Лекция 3

  • 1.
    Моделирование гуманитарных процессов"Небесное яблоко действительно должно быть совершенным, - ответил Насреддин, - но, учитывая твои нынешние способности вообще и способность судить о небесном яблоке в частности, а также то, что ты, как и все мы, находишься сейчас в этом обиталище разложения, можешь считать, что ты все равно не увидел бы райское яблоко в ином виде" (история про Ходжу Насреддина) Лекция 3
  • 2.
  • 3.
    I. Термодинамическая энтропияРудольф Клаузиус Понятие энтропии было впервые введено в 1865 году Рудольфом Клаузиусом. Он определил изменение энтропии термодинамической системы при обратимом процессе как отношение изменения общего количества тепла δ Q к величине абсолютной температуры T: Рудольф Клаузиус дал величине S имя «энтропия», происходящее от греческого слова τρoπή, «изменение» (изменение, превращение, преобразование). Данное равенство относится к изменению энтропии, не определяя полностью саму энтропию. где dS  — приращение (дифференциал) энтропии, а δ Q  — бесконечно малое приращение количества теплоты.
  • 4.
    Термодинамическая энтропия ПозжеБольцманом и Планком было показано, что термодинамическая энтропия связана с вероятностными характеристиками распределения молекул в веществе. Формула Больцмана-Планка имеет следующий вид где k - постоянная Больцмана, Г - число микросостояний реализующих рассматриваемое макросостояние системы, S - энтропия термодинамической системы в данном макросостоянии. В этой формуле фигурирует понятие макросостояния и микросостояния его реализующие.
  • 5.
    II. Информационнаяэнтропия Клод Шеннон Шеннон предложил в качестве параметра распределения с плотностью , характеризующего степень его “неопределенности” использовать величину, вычисляемую по формуле:
  • 6.
    Информационная энтропия ПоШеннону с понятием энтропии тесно связано понятие информации. Информация согласно определению Шеннона - это числовая величина, на которую изменилась энтропия системы, после получения некоторого сообщения о состоянии этой системы. В дискретном случае Таким образом, энтропия события x является суммой с противоположным знаком всех произведений относительных частот появления события i, умноженных на их же двоичные логарифмы (основание 2 выбрано только для удобства работы с информацией, представленной в двоичной форме).
  • 7.
    Информационная энтропия Шеннонпредположил, что прирост информации равен утраченной неопределённости , и задал требования к её измерению: 1. мера должна быть непрерывной; то есть изменение значения величины вероятности на малую величину должно вызывать малое результирующее изменение функции; 2. в случае, когда все варианты равновероятны, увеличение количества вариантов должно всегда увеличивать значение функции; 3. должна быть возможность сделать выбор в два шага, в которых значение функции конечного результата должно являться суммой функций промежуточных результатов.
  • 8.
    III. Примервычисления Задача : Предположим, что вы перед экзаменом выучили все билеты кроме 1 из 32. Допустим, что это соответствует действительности. Тогда можно предположить, что вероятность того, что вы сдадите экзамен равна 31/32, а не сдадите – 1/32. Предположим, что преподаватель после очередного студента его билет не возвращает в общую стопку, из которой вы берете билет. Пусть теперь перед вами в аудиторию зашел ваш товарищ и взял некоторый билет. После выхода из аудитории он сообщает вам, что вытянул билет, который a) вы не знали, б) вы знали. Оценим количество информации, которое вы получили от вашего товарища в каждом из случаев. Часто количество информации оценивают в битах . Эта величина в теории информации, есть приращение энтропии, вычисляемой по основанию 2. В общем случае базовая единица измерения количества информации, равная количеству информации, содержащемуся в опыте, имеющем два равновероятных исхода. Например энтропия броска монеты -2(0. 5log 2 0.5 ) = 1 бит.
  • 9.
    Пример вычисления энтропииРассмотрим случай а) тогда энтропия будет вычисляться После получения сообщения а) энтропия H 1 стала равна 0. Поэтому количество полученной информации равно 0.2 бита. В случае же б) Как видно, энтропия увеличилась. Следовательно, вы получили отрицательную информацию I=H 0 -H 1 =0.2006-0.2056=-0.05 бит, которая увеличила вашу неопределенность в сдаче экзамена. Если взять величину информации по модулю, то можно сказать, что в первом случае вы получили в двадцать раз больше информации, чем во втором случае, да еще и с отрицательным знаком во втором случае.
  • 10.
    Демон Максвелла Мысленныйэксперимент 1867 года, а также его главный персонаж — гипотетическое разумное существо микроскопического размера, придуманное Джеймсом Максвеллом с целью проиллюстрировать кажущийся парадокс Второго начала термодинамики. Эксперимент состоит в следующем: предположим, сосуд с газом разделён непроницаемой перегородкой на две части: правую и левую. В перегородке отверстие с устройством (так называемый демон Максвелла), которое позволяет пролетать быстрым (горячим) молекулам газа только из левой части сосуда в правую, а медленным (холодным) молекулам — только из правой части сосуда в левую. Тогда, через большой промежуток времени, горячие молекулы окажутся в правом сосуде, а холодные — в левом.
  • 11.
    IV. Условнаяэнтропия В теории информации, условная энтропия (у|энтропия) определяет количество остающейся энтропии (то есть, остающейся неопределенности) случайной величины ξ после того, как распределение второй случайной величины η становится известным. Она называется «энтропия ξ при условии η», и обозначается H(ξ | η).
  • 12.
    Условная энтропия Св.1 Иерархическая аддитивная: Это свойство вытекает из иерархической мультипликативности плотности распре-деления: Св. 2 Условная энтропия не может превосходить безусловную. Св. 3 При добавлении условий условная энтропия не возрастает.
  • 13.
    Закон Ципфа Эмпирическаязакономерность распределения частоты слов естественного языка: если все слова языка (или просто достаточно длинного текста) упорядочить по убыванию частоты их использования, то частота n-го слова в таком списке окажется приблизительно обратно пропорциональной его порядковому номеру n (так называемому рангу этого слова). Например второе по используемости слово встречается примерно в два раза реже, чем первое, третье — в три раза реже, чем первое, и т. д.
  • 14.
    Энтропия и распределенияс максимальной неопределенностью Рассмотрим все возможные распределения вероятностей дискретной случайной величины, принимающей конечное число значений X 1 , X 2 , … , X N при фиксированном N Обозначим вероятности появления соответствующих зна­чений случайной величины через p 1 ,p 2 ,…,p N. Покажем, что распределением с мак­симальной неопределенностью, характеризуемой энтропией является равно­мерное распределение для которого p 1 =p 2 =…=p N =1/N энтропия такой случайной величины равна H=- Σ p i ln p i Кроме этого все возможные допустимые положительные числа должны удовле­творять условию нормировки .
  • 15.
    Энтропия и распределенияс максимальной неопределенностью Задача отыскания распределения дискретной случайной величины с заданным числом исходов N и максимально возможным значением энтропии сводится к отысканию экстремума H при условии нормировки Эту задачу решаем с помощью метода множителей Лагранжа. где λ - множитель Лагранжа. Дифференцируя по каждому p i в отдельности, получаем систему уравнений следующего вида Отсюда находим: Значение λ определяется из условия нормировки. В результате получаем:
  • 16.
    Энтропия и распределенияс максимальной неопределенностью В случае непрерывной случайной величины рассматриваются всевозможные распределения с заданными средним значением и дисперсией. Распределение с максимальной энтропией имеет вид Это соотношение в точности соответствует плотности нормального распределения вероятностей со средним значением a и дисперсией δ 2 Поэтому наиболее часто встречающееся в Природе распределение это нормальное или гауссово распределение. Из всех других законов распределения с фиксированной дисперсией оно обладает наибольшей энтропией и следовательно реализуется чащу других.
  • 17.
    Энтропийная модель распределениямиграционных потоков В городе имеется n районов, N i - число жителей в i -том районе, W j - число работающих в j -том районе, X ij - число живущих в i -том районе, но работающих в j -том районе. Величины X ij представляют собой по сути поток пассажиров из i -того района в j -й во время проезда на работу. Эти потоки удовлетворяют уравнениям: Задача заключается в вычислении матрицы X ij , наиболее вероятной с точки зрения усредненных наблюдений за потоками.
  • 18.
    Энтропийная модель распределениямиграционных потоков Обозначим вероятности того, что наугад взятый человек в городе живет в i -том районе, а работает в j -том. через p ij . В этом случае величины P i и Q j : представляют собой вероятности того, что наугад взятый житель живет в i -том районе ( P i ) и работает в j -том районе ( Q j ) соответственно. При этом очевидно, что
  • 19.
    Энтропийная модель распределениямиграционных потоков Для того чтобы гарантировать независимость результатов от наши собственных суждений. Требуется найти максимум величины Согласно методу множителей Лагранжа, условный экстремум эквивалентен безусловному экстремуму следующей функции Дифференцируя данную функцию по p ij находим необходимые условия ее экстремума: Отсюда получаем ответ Учитывая условия для P i и Q j находим, что матрица вероятностей может быть представлена в виде:
  • 20.
    Литература Р.Л. Стратанович.Теория информации. М.:Сов. Радио, 1975 В.И. Опойцев. Нелинейная системостатика. М.: Наука, 1986, стр. 219-225