Este documento presenta los conceptos fundamentales de la teoría de la información, incluyendo la entropía como medida de la información promedio de una fuente, y cómo la codificación fuente como el código de Huffman puede usar esta medida para comprimir datos de manera eficiente. Se proveen ejemplos numéricos para ilustrar estos conceptos y su aplicación en sistemas de comunicaciones.
4. Teoría de la Información ¿Qué entendemos por el término información? La noción intuitiva y común de información se refiere a cualquier nuevo conocimiento acerca de algo . Sin embargo, en nuestro contexto, apelaremos a la teoría de la información. Esta disciplina de amplia base matemática ha efectuado aportaciones fundamentales, no solo a las comunicaciones, sino también a la ciencia del cómputo, la física estadística y la inferencia estadística, así como a la probabilidad y la estadística. En el contexto de las comunicaciones, la teoría de la información tiene que ver con el modelado y el análisis matemático de un sistema de comunicación y no con los canales y las fuentes físicos.
5.
6. Teoría de la Información Una de las cosas más importantes que debemos acordar es: ¿podemos establecer una buena medida de lo que es información? ¿Cómo obtener un mecanismo para establecer el grado de información que contiene un grupo limitado de mensajes? La respuesta a estas preguntas se encuentran en la entropía de una fuente y en la capacidad de un canal. Entropía: Se define en términos del comportamiento probabilístico de una fuente de información. Capacidad de Canal: Se define como la posibilidad intrínseca de un canal para transportar información; se relaciona de forma natural con las características de ruido de canal.
11. Medida de la Información Una buena medida es la esperanza matemáticas de los valores estadísticos de un espacio muestral. Consideremos una fuente de información que envía uno de los símbolos del siguiente alfabeto: Cada uno de los símbolos es entonces una muestra de la variable aleatoria discreta X la cual toma símbolos de dicho alfabeto. La probabilidad que un símbolo x k sea enviado (ocurra) está dada por: Entonces una medida de la información propia que acarrea cada símbolo x k sería: Medida en bits Fuente Discreta de Información X
12. Medida de la Información El valor medio o esperanza de la información que acarrea la variable aleatoria discreta X, la cual sería: Sin embargo, definir la información del mensaje como I(x k )= 1/p k , crea un serio problema para establecer la esperanza de la medida de información y para cumplir con las 4 condiciones impuestas en la diapositiva #10. Se puede probar que esta inconveniencia desaparece si se estable que: El log 2 1/p k se justifica dado que un bit es la cantidad mínima de información: la ausencia o presencia de un mensaje determinado. Medida en bits
13. En este caso se define a la entropía , como la media de la información acarreada por la variable aleatoria discreta X, y se calcula como: La cantidad H(X) recibe el nombre de entropía de una fuente discreta sin memoria con alfabeto de fuente. Esta es una medida del contenido de información promedia por símbolo de la fuente. Se debe notar que H(X) depende sólo de las probabilidades del símbolo en alfabeto L X de la fuente. Entropía Medida en bits
17. Ejemplo 2 Una fuente con un ancho de banda de 4000Hz es muestreada a la frecuencia de Nyquist y es cuantizada a cinco niveles. Asumiendo que la secuencia resultante puede modelarse aproximadamente por un DMS con un alfabeto {-2, -1, 0, 1, 2} y con sus probabilidades correspondientes de {1/2, 1/4, 1/8, 1/16, 1/16}. Determinaremos la tasa o velocidad de transmisión de la fuente en bits por segundos. Por tanto, podemos hallar la velocidad de transmisión como:
19. Entropía de fuente extendida En la práctica, la transmisión de información ocurre mas en bloques de símbolos que en símbolos individuales. El alfabeto L n X compuesto de estos de K n (donde K es el número de símbolos individuales distintos del alfabeto fuente original L X ) bloques distintos suele nombrarse como alfabeto extendido en cuyo caso la determinación de la medida de información y de la entropía, cuando la fuente es DMS, se obtiene como: donde: La entropía de un alfabeto compuesto de orden n es igual a n veces la entropía de el alfabeto original de orden 1 que le dio origen. Compuesto de K n bloques de n símbolos Compuesto de K símbolos
20. Ejemplo 4 Considere una fuente discreta sin memoria con alfabeto de fuente L X ={x 0 , x 1 , x 2 } con probabilidades respectivas ={1/4, 1/4, 1/2}. Determinaremos la entropía H(X) y la entropía compuesta para n=2, o H(X 2 ). Se comprobará que H(X 2 )=2H(X). Se deja como ejercicio los detalles de este cálculo. Cuadro auxiliar donde se muestran los alfabetos L X y L 2 X 1/4 1/8 1/8 1/8 1/16 1/16 1/8 1/16 1/16 Probabilidad de símbolos L 2 X x 2 x 2 x 2 x 1 x 2 x 0 x 1 x 2 x 1 x 1 x 1 x 0 x 0 x 2 x 0 x 1 x 0 x 0 Secuencia correspondiente de símbolos L X 8 7 6 5 4 3 2 1 0 Símbolos (bloques) L 2 X
21. Ejemplo 3 Evaluando el resultado tenemos. De tal manera vemos que H(X 2 )=2H(X), es decir (3) = (2)*(3/2)
22. Codificación fuente (nuevamente) Hemos indicado que uno de los objetivos de la teoría de la información es establecer si es posible encontrar un código de fuente que permita enviar más información en menos tiempo, esto es, encontrar un código que sea suficientemente eficiente. Por código eficiente se entiende aquel código cuya longitud media es la mínima posible que resulta de asignar códigos mas cortos a símbolos mas probables y códigos mas largos a símbolos menos probables. En la conferencia #3 , estudiamos un caso particular conocido como Código Huffman el cual cumple con esta condición. Alfabeto Fuente Probabilidad de los símbolos del Alfabeto Fuente Longitud media del código Varianza de la longitud de los códigos
23. Codificación fuente (nuevamente) Matemáticamente, la eficiencia de un código se define como: Es el valor mínimo posible de L X El valor mínimo de L (L mín ) se obtiene a través del primer teorema de Shannon conocido como teorema de la codificación fuente. Este teorema se enuncia como: Entonces, la eficiencia del código se puede reescribir como: La redundancia del código se calcula como: Dada una fuente discreta sin memoria de entropía H(X),La longitud promedio de palabra de código L para cualquier esquema de codificación fuente sin distorsión está acotada como: Primero teorema de Shannon Fuente discreta sin memoria Fuente discreta sin memoria x k a k Secuencia Binaria