第七章 信源与信源编码

         彭涛
  pengtao@bupt.edu.cn
7.1 引言
   信源编码:去掉信源输出中的冗余信息,
    提供有效性
   内容
       信源分类及其统计特性
       信息熵,信源剩余度
       互信息,各类熵与互信息的关系
       Huffman编码
7.2 信源分类及其统计特性描
述
   信源分类
       连续/模拟信源
       离散/数字信源
           重点研究
7.2 信源分类及其统计特性描
述
   单消息(符号)离散信源
       只输出一个离散符号
       统计特性描述
    用 符 号 可 能 取 值 范 围 X 和 符 号 取 值 x i的 概 率 P  x i  描 述

     X   x1 ,                 ,      xi ,         ,          xn 
                                                               
     P  x i    P  x1  ,   ,   P  xi  ,      ,     P  xn 
                                                          n

    其 中 , 0  P  x i   1, i  1, 2,         , n, 且  P  x i   1
                                                         i 1
7.2 信源分类及其统计特性描
      述
          离散消息(符号)序列信源
                输出一个离散消息(符号)序列
                统计特性描述
离 散 消 息 序 列 由 L 个 符 号 组 成 , 则 消 息 序 列 可 表 示 成 L维 随 机 矢 量
X   X 1,       , X i,       , X L ,

其 可 能 取 值 x   x1 ,                         , xL  有 n 种 可 能 性 , 构 成 取 值 集 合 X
                                                          L                                              L
                                   , xi ,

P  x   P  x1 ,        , xi ,   , x L   P  x 1  P  x 2 | x1  P  x 3 | x 2 , x1    P  x L | x L 1 ,   , x1 

则离散消息序列的统计特性表示为取值集合及其取值概率

 X L   a1 ,                     ,        ai ,          ,       anL       
                                                                        
 P  x    P  a1  ,
             
                                   ,    P  ai  ,        ,       
                                                               P anL       
                                                                            
7.2 信源分类及其统计特性描
述
   离散消息(符号)序列信源
       离散无记忆序列信源:序列中前后符号相互
        统计独立                 L

         P x  P x , , x , , x    P x 
                1   l   L          l
                            l 1

       离散有记忆序列信源:序列中前后符号不是
        相互统计独立的
           可用马尔可夫链表示
7.3 信息熵H(X)
   信息的基本特征:不确定性。因此信息应该是
    概率P的函数
   信息的两个特点
       随概率P的递减性:概率越大,信息量越小
         P  x   , I  P  x  
                               
       可加性:两个独立消息的总信息量应是两个消息的
        信息量的和
         I  P  x  P  y   I  P  x  I  P  y 
                                                   
   满足这两个条件的表示信息量的函数只有一种
    可能:对数函数
7.3 信息熵H(X)
   单消息离散信源的信息度量
       自信息量:出现某个消息时的信息量
                                   1
        I  P  x i    log
                                           log P  x i 
                                P  xi 

            理解:消息出现概率越小,信息量越大
7.3 信息熵H(X)
   单消息离散信源的信息度量
       两个单消息离散信源X,Y的联合信息量
        知 道 了 消 息 x i的 情 况 下 , 消 息 y i 新 带 来 的 信 息 量 :

        I  P  y i | x i     log P  y i | x i 
                           
        知 道 了 消 息 y i的 情 况 下 , 消 息 x i 新 带 来 的 信 息 量 :

        I  P  x i | y i     log P  x i | y i 
                           
        两 个 消 息 x i, y i 一 共 带 来 的 信 息 量 :

        I  P  x i , y i     log P  x i , y i 
                           
7.3 信息熵H(X)
   单消息离散信源的信息熵
       前面定义的是一个具体消息的信息量,因为信源输
        出的消息有多种可能性,所以可以把信息熵理解为
        这个输出消息(考虑多种可能性)的平均信息量
                                                                n

    H X                    
                E I  P  x i    E   log P  x i      P  x i  log P  x i 
                                                      
                                                               i 1


       信息熵也可以理解为对信源的不确定性的平均度量
       在各种可能性等概时,信源的信息熵最大(图7.3.1)
7.3 信息熵H(X)
   信息量和熵的单位
       对数以2为底时,单位为比特(bit)
       对数以e为底时,单位为奈特(Nat)
       对数以10为底时,单位为笛特(Det)
       1bit=0.693Nat=0.301Det
7.3 信息熵H(X)
                两个单消息离散信源的联合熵和条件熵
联 合 熵 两 个 符 号 X ,Y 带 来 的 总 信 息 熵 / 平 均 信 息 量 


                                    
                                                                          n          m

H    X ,Y     E I  P  x i , y j    E   log P  x i , y j              P  x , y  log P  x , y 
                                                                                            i       j       i           j
                                                                         i 1       j 1


条 件 熵 知 道 一 个 符 号 条 件 下 , 另 一 个 符 号 带 来 的 信 息 熵 / 平 均 信 息 量 


                                      
                                                                                n        m

H Y | X       E I  P  y j | x i    E   log P  y j | x i               P  x , y  log P  y                | xi 
                                                                                                i       j           j
                                                                              i 1       j 1



                                      
                                                                                n        m

H   X   | Y   E I  P  x i | y j    E   log P  x i | y j               P  x , y  log P  x                | yj
                                                                                                i       j       i
                                                                              i 1       j 1
7.3 信息熵H(X)
                    联合熵和条件熵的一些性质
1  H  X , Y      H     X   H Y   |X      H Y   H   X   |Y   
理解为两符号先后到达的过程:两个符号的总信息熵
=一个符号的信息熵+知道这个符号的条件下另一个符号带来的信息熵
 2  S h an n o n 不 等 式 : H  X          H   X   | Y ; H Y   H Y | X   
理解:一个消息没有任何前兆时带来的信息肯定大于等于有前兆带来的信息
当 X ,Y 独 立 时 , 等 号 成 立 ; 否 则 都 是 大 于 号 成 立

3 X ,Y 统 计 独 立 时 , 其 联 合 熵 取 最 大 值 两 符 号 信 息 熵 之 和 
H    X , Y  m ax    H    X   H Y 
7.3 信息熵H(X)
            离散消息序列信源的信息熵、剩余度
离 散 平 稳 有 记 忆 信 源 输 出 的 消 息 序 列 为 X   X 1,                                     , X i,   ,XL

1  其 总 信 息 熵 为
H   X     H     X 1,    ,XL  H      X1  H X 2        | X1        H     XL   | X 1,   , X L 1 

其 中 , 每 发 一 个 符 号 具 有 不 同 的 信 息 熵  依 次 递 减 :

0 H   XL       | X 1,    , X L 1      H   X2   | X1  H         X1
2定 义 平 均 符 号 信 息 熵 为 : 总 信 息 熵 除 以 符 号 个 数
             1                                                  1
HLX             H    X 1,    , X L , H   X      lim        H    X 1,    ,XL
             L                                           L    L
7.3 信息熵H(X)
          离散消息序列信源的信息熵、剩余度
3 容 易 看 出 :     0  H X       H2X      H1  X      H0X     log 2 N
其 中 : H 0  X 是 具 有 N种 取 值 可 能 的 单 消 息 信 源 的 最 大 信 息 熵 等 概 时 

符 号 所 含 的 信 息 熵 依 次 递 减 , 平 均 符 号 信 息 熵 自 然 越 来 越 小 
4编 码 时 如 果 有 以 下 假 设 : 消 息 序 列 的 各 符 号 统 计 独 立 ; 各 取 值 等 概 出 现
则实际是没有对信源进行仔细的研究,利用其统计特性,
认 为 其 平 均 符 号 信 息 熵 为 H 0  X 。 如 实 际 中 的 文 字 编 码
这必然会产生大量冗余,这正是进行压缩编码的前提
                H X
信源效率:                ;信源剩余度:R              1
                H0X 
7.4 互信息I(X;Y)
        互信息的定义I(X;Y)及理解
前 面 已 知 : H  X ,Y        H X           H Y   |X         H Y   H  X | Y     
H X      H  X | Y ; H Y          H Y | X   
由此可见:H X            H X         |Y      H Y   H Y | X         0
                                                                              P  xi  
互 信 息 定 义 : I  X ;Y        H X         H X       |Y       E   log                  E i  xi ; y j 
                                                                                                                
                                                                            P  xi | y j  
                                                                                           
                                                 Pyj 
         H Y   H Y | X         E   log                  E i  y j ; xi 
                                                                                   
                                               P  y j | xi  
                                                              
互 信 息 的 理 解 : H  X 是 X 所 含 的 信 息 ; H  X |Y 是 已 知 Y的 条 件 下
X 还能带来的信息量。那么两者之差自然就是由于知道Y使得X 减
少的信息量,也即由Y 可以得到的关于X的信息量
7.4 互信息I(X;Y)
   各种信息熵的关系
Huffman编码
   等长编码:对信源输出的各种出现概率的符号
    用等长的码字表示
       没有充分利用信源的统计特性
   变长编码:根据信源输出符号出现概率不同选
    择码字,出现概率大的用短码,出现概率小的
    用长码
       利用了信源的统计特性,其编码效率高于等长编码
   Huffman编码:Huffman提出的一种变长编码
       是单消息信源的最佳变长编码
Huffman编码
   图解Huffman编
    码方法
       1.写出消息概率
       2.对最小的两概
        率编码(0/1)
       3.对这两概率合
        并
       4.重复3,直至
        结束
       5.自顶而下到达
        某消息即得编码
Huffman编码
  确定了对信源符号的编码规则,可进行编译码
x1  10  x 2 11  x 3  000  x 4  001  x 5  010  x 6  0110  x 7  0111 
如 果 信 源 输 出 一 列 消 息 : x5 x3 x6 x 2 x 4 x3 x 7 x5
可得到编码序列:
       010 000 0110 11 001 000 0111 010
同样,如果接收端收到序列:
            0100000110110010000111010
由 编 码 规 则 , 很 容 易 将 其 译 码 出 来 : x5 x3 x6 x 2 x 4 x3 x 7 x5

   这种特性得益于Huffman编码的非延长性和异前置性
       非延长性:把任一许用码组延长(添加数字)都得不到许用
        码字;异前置性:将任一许用码组的最后一位或几位去掉都
        得不到许用码组。
       这两种性质可以从Huffman编码的规则看出来

Chap7 source and_source_encoding

  • 1.
    第七章 信源与信源编码 彭涛 pengtao@bupt.edu.cn
  • 2.
    7.1 引言  信源编码:去掉信源输出中的冗余信息, 提供有效性  内容  信源分类及其统计特性  信息熵,信源剩余度  互信息,各类熵与互信息的关系  Huffman编码
  • 3.
    7.2 信源分类及其统计特性描 述  信源分类  连续/模拟信源  离散/数字信源  重点研究
  • 4.
    7.2 信源分类及其统计特性描 述  单消息(符号)离散信源  只输出一个离散符号  统计特性描述 用 符 号 可 能 取 值 范 围 X 和 符 号 取 值 x i的 概 率 P  x i  描 述  X   x1 , , xi , , xn       P  x i    P  x1  , , P  xi  , , P  xn  n 其 中 , 0  P  x i   1, i  1, 2, , n, 且  P  x i   1 i 1
  • 5.
    7.2 信源分类及其统计特性描 述  离散消息(符号)序列信源  输出一个离散消息(符号)序列  统计特性描述 离 散 消 息 序 列 由 L 个 符 号 组 成 , 则 消 息 序 列 可 表 示 成 L维 随 机 矢 量 X   X 1, , X i, , X L , 其 可 能 取 值 x   x1 , , xL  有 n 种 可 能 性 , 构 成 取 值 集 合 X L L , xi , P  x   P  x1 , , xi , , x L   P  x 1  P  x 2 | x1  P  x 3 | x 2 , x1  P  x L | x L 1 , , x1  则离散消息序列的统计特性表示为取值集合及其取值概率  X L   a1 , , ai , , anL       P  x    P  a1  ,  , P  ai  , ,  P anL   
  • 6.
    7.2 信源分类及其统计特性描 述  离散消息(符号)序列信源  离散无记忆序列信源:序列中前后符号相互 统计独立 L P x  P x , , x , , x    P x  1 l L l l 1  离散有记忆序列信源:序列中前后符号不是 相互统计独立的  可用马尔可夫链表示
  • 7.
    7.3 信息熵H(X)  信息的基本特征:不确定性。因此信息应该是 概率P的函数  信息的两个特点  随概率P的递减性:概率越大,信息量越小 P  x   , I  P  x      可加性:两个独立消息的总信息量应是两个消息的 信息量的和 I  P  x  P  y   I  P  x  I  P  y         满足这两个条件的表示信息量的函数只有一种 可能:对数函数
  • 8.
    7.3 信息熵H(X)  单消息离散信源的信息度量  自信息量:出现某个消息时的信息量 1 I  P  x i    log     log P  x i  P  xi   理解:消息出现概率越小,信息量越大
  • 9.
    7.3 信息熵H(X)  单消息离散信源的信息度量  两个单消息离散信源X,Y的联合信息量 知 道 了 消 息 x i的 情 况 下 , 消 息 y i 新 带 来 的 信 息 量 : I  P  y i | x i     log P  y i | x i    知 道 了 消 息 y i的 情 况 下 , 消 息 x i 新 带 来 的 信 息 量 : I  P  x i | y i     log P  x i | y i    两 个 消 息 x i, y i 一 共 带 来 的 信 息 量 : I  P  x i , y i     log P  x i , y i   
  • 10.
    7.3 信息熵H(X)  单消息离散信源的信息熵  前面定义的是一个具体消息的信息量,因为信源输 出的消息有多种可能性,所以可以把信息熵理解为 这个输出消息(考虑多种可能性)的平均信息量 n H X     E I  P  x i    E   log P  x i      P  x i  log P  x i     i 1  信息熵也可以理解为对信源的不确定性的平均度量  在各种可能性等概时,信源的信息熵最大(图7.3.1)
  • 11.
    7.3 信息熵H(X)  信息量和熵的单位  对数以2为底时,单位为比特(bit)  对数以e为底时,单位为奈特(Nat)  对数以10为底时,单位为笛特(Det)  1bit=0.693Nat=0.301Det
  • 12.
    7.3 信息熵H(X)  两个单消息离散信源的联合熵和条件熵 联 合 熵 两 个 符 号 X ,Y 带 来 的 总 信 息 熵 / 平 均 信 息 量    n m H  X ,Y   E I  P  x i , y j    E   log P  x i , y j       P  x , y  log P  x , y      i j i j i 1 j 1 条 件 熵 知 道 一 个 符 号 条 件 下 , 另 一 个 符 号 带 来 的 信 息 熵 / 平 均 信 息 量    n m H Y | X  E I  P  y j | x i    E   log P  y j | x i       P  x , y  log P  y | xi      i j j i 1 j 1   n m H X | Y   E I  P  x i | y j    E   log P  x i | y j       P  x , y  log P  x | yj     i j i i 1 j 1
  • 13.
    7.3 信息熵H(X)  联合熵和条件熵的一些性质 1  H  X , Y   H  X   H Y |X  H Y   H X |Y  理解为两符号先后到达的过程:两个符号的总信息熵 =一个符号的信息熵+知道这个符号的条件下另一个符号带来的信息熵  2  S h an n o n 不 等 式 : H  X   H X | Y ; H Y   H Y | X  理解:一个消息没有任何前兆时带来的信息肯定大于等于有前兆带来的信息 当 X ,Y 独 立 时 , 等 号 成 立 ; 否 则 都 是 大 于 号 成 立 3 X ,Y 统 计 独 立 时 , 其 联 合 熵 取 最 大 值 两 符 号 信 息 熵 之 和  H  X , Y  m ax  H  X   H Y 
  • 14.
    7.3 信息熵H(X)  离散消息序列信源的信息熵、剩余度 离 散 平 稳 有 记 忆 信 源 输 出 的 消 息 序 列 为 X   X 1, , X i, ,XL 1  其 总 信 息 熵 为 H X   H  X 1, ,XL  H X1  H X 2 | X1  H XL | X 1, , X L 1  其 中 , 每 发 一 个 符 号 具 有 不 同 的 信 息 熵  依 次 递 减 : 0 H XL | X 1, , X L 1    H X2 | X1  H X1 2定 义 平 均 符 号 信 息 熵 为 : 总 信 息 熵 除 以 符 号 个 数 1 1 HLX  H  X 1, , X L , H   X  lim H  X 1, ,XL L L  L
  • 15.
    7.3 信息熵H(X)  离散消息序列信源的信息熵、剩余度 3 容 易 看 出 : 0  H X   H2X  H1  X  H0X   log 2 N 其 中 : H 0  X 是 具 有 N种 取 值 可 能 的 单 消 息 信 源 的 最 大 信 息 熵 等 概 时  符 号 所 含 的 信 息 熵 依 次 递 减 , 平 均 符 号 信 息 熵 自 然 越 来 越 小  4编 码 时 如 果 有 以 下 假 设 : 消 息 序 列 的 各 符 号 统 计 独 立 ; 各 取 值 等 概 出 现 则实际是没有对信源进行仔细的研究,利用其统计特性, 认 为 其 平 均 符 号 信 息 熵 为 H 0  X 。 如 实 际 中 的 文 字 编 码 这必然会产生大量冗余,这正是进行压缩编码的前提 H X 信源效率:  ;信源剩余度:R  1 H0X 
  • 16.
    7.4 互信息I(X;Y)  互信息的定义I(X;Y)及理解 前 面 已 知 : H  X ,Y  H X   H Y |X  H Y   H  X | Y  H X  H  X | Y ; H Y  H Y | X  由此可见:H X  H X |Y  H Y   H Y | X 0  P  xi   互 信 息 定 义 : I  X ;Y  H X  H X |Y   E   log   E i  xi ; y j     P  xi | y j      Pyj   H Y   H Y | X   E   log   E i  y j ; xi     P  y j | xi     互 信 息 的 理 解 : H  X 是 X 所 含 的 信 息 ; H  X |Y 是 已 知 Y的 条 件 下 X 还能带来的信息量。那么两者之差自然就是由于知道Y使得X 减 少的信息量,也即由Y 可以得到的关于X的信息量
  • 17.
    7.4 互信息I(X;Y)  各种信息熵的关系
  • 18.
    Huffman编码  等长编码:对信源输出的各种出现概率的符号 用等长的码字表示  没有充分利用信源的统计特性  变长编码:根据信源输出符号出现概率不同选 择码字,出现概率大的用短码,出现概率小的 用长码  利用了信源的统计特性,其编码效率高于等长编码  Huffman编码:Huffman提出的一种变长编码  是单消息信源的最佳变长编码
  • 19.
    Huffman编码  图解Huffman编 码方法  1.写出消息概率  2.对最小的两概 率编码(0/1)  3.对这两概率合 并  4.重复3,直至 结束  5.自顶而下到达 某消息即得编码
  • 20.
    Huffman编码  确定了对信源符号的编码规则,可进行编译码 x1 10  x 2 11  x 3  000  x 4  001  x 5  010  x 6  0110  x 7  0111  如 果 信 源 输 出 一 列 消 息 : x5 x3 x6 x 2 x 4 x3 x 7 x5 可得到编码序列: 010 000 0110 11 001 000 0111 010 同样,如果接收端收到序列: 0100000110110010000111010 由 编 码 规 则 , 很 容 易 将 其 译 码 出 来 : x5 x3 x6 x 2 x 4 x3 x 7 x5  这种特性得益于Huffman编码的非延长性和异前置性  非延长性:把任一许用码组延长(添加数字)都得不到许用 码字;异前置性:将任一许用码组的最后一位或几位去掉都 得不到许用码组。  这两种性质可以从Huffman编码的规则看出来