信息熵与编码定理

[toc]

惊奇度与信息量

定性描述

惊奇度：一个事件的惊奇度是指该事件发生时我们所感到的惊奇程度
信息量：一条信息的信息量是指该信息所含信息的多少。一条信息越是让我们感到惊奇，它所含信息量就越大

对于一个掷骰子的试验，假设E代表掷出点数为偶数（概率为1/2），我们对于事件E发生的惊奇程度并不大，但是当E代表掷出点数为6（概率为1/6），我们的惊奇程度就会很大。同样的我们会认为，“明天太阳会从东边升起”这句话没有任何信息量，而“国足将在世界杯夺冠”，这句话信息量太大了。

定量描述

我们希望能够将这种惊奇度/信息量进行量化，一个合理的假设是：

事件的惊奇度/信息量只取决于事件发生的概率。

用$S(p)$表示由概率为 $p$ 的事件发生以后所产生的惊奇程度，假定 $S(p)$ 对一切 $0<p<=1$ 有定义。下面我们从 $S(p)$ 应满足的条件出发确定 $S(p)$ 的形式：

公理1：
: $S(1)=0$ ，当听到一个必然事件发生时，不会感到任何惊奇

公理2：
: $S(p)$ 是 $p$ 的严格连续递减函数，事件发生的概率越大，惊奇度越小

公理3：
: $S(pq)=S(p)+S(q)$ ，对于独立事件E和F，假设E发生的惊奇度为 $S(p)$ ，F发生的惊奇度为 $S(q)$ ，则二者同时发生的惊奇度等于二者分别发生的惊奇度之和

容易验证，对数函数可同时满足这四个条件：

S(p) = -log p

当底数取2时，惊奇度/信息量的单位可用比特表示。

信息熵

信息熵的定义

考虑一个取值于 $x_{1},x_{2},...,x_{n}$ 的随机变量X，且相应概率分别为 $p_{1},...,p_{n}$ ,当观察到随机变量X的值，所引起的平均惊奇度为：

H(x)=-\sum_{i=1}^{n}p_{i}logp_{i}

规定 $0log0=0$ 。可以证明当 $p_{i}$ 相同时， $H(x)$ 达到最大值，所以 $H(x)$ 也可认为是随机变量 $X$ 的不确定程度。在信息论中， $H(x)$ 称为随机变量的熵，即观测到随机变量 $X$ 的值以后所接收的平均信息量。

信息熵的理解

熵、不确定度、惊奇度、信息量是从不同角度来看待X的同一特性：
随机变量 $X$ 的熵 $H(X)$ =随机变量 $X$ 的不确定度=观测到随机变量 $X$ 的值后的平均惊奇度=观测到随机变量 $X$ 的值后的平均信息量

我们可以从以下不同角度来理解它们之间的关系：

随机变量X的熵H(X)代表了X取值的“混乱”程度，即我们对X取值的不确定程度，我们越是不确定X的取值，当我们观测到它的值时所产生的平均惊奇度就越大；
信息熵代表了信息内容的“混乱”程度，即我们对信息内容的不确定程度，我们越是不确定信息的内容，当我们获取该信息的内容时，它所带给我们的信息量就越大；
对于获取到的一条信息，我们越是感到惊奇说明它所包含的信息量越大；

随机向量的熵

随机向量 $(X,Y)$ 的联合不确定度为：

H(X,Y)=-\sum_{i}\sum_{j}p(x_{i},y_{j})logp(x_{i},y_{j})

当 $Y=y_{j}$ 已观测到， $X$ 在 $Y=y_{j}$ 条件下的剩余不确定度为：
$$
H_{Y=y_{j}}(X)=-\sum_{i}p(x_{i}|y_{j})logp(x_{i}|y_{j})
$$
当 $Y$ 被观测到后， $X$ 的平均不确定度为：
$$
H_{Y}(X)=\sum_{j}H_{Y=y_{j}}(X)\cdot p(y_{j})
$$

定理1:
: 随机变量 $X$ 和 $Y$ 的联合不确定度可分解为 $Y$ 的不确定度与 $Y$ 被到测到后 $X$ 的平均不确定度之和:

H(X,Y)=H(Y)+H_{Y}(X)

证明：

\begin{aligned}
H(X,Y)&=-\sum_{i}\sum_{j}p(x_{i},y_{j})logp(x_{i},y_{j}) \\
& =-\sum_{i}\sum_{j}p(y_{i})p(x_{i}|y_{j})[logp(y_{i})+logp(x_{i}|y_{j})] \\
& = -\sum_{j}p(y_{j})logp(y_{j})\sum_{i}p(x_{i}|y_{i})-\sum_{j}p(y_{j})\sum_{i}p(x_{i}|y_{i})logp(x_{i}|y_{i})\\
& =H(Y)+H_{Y}(X)
\end{aligned}

引理:
: 当 $x>0$ 时，下式恒成立，当且仅当 $x=1$ 时等号成立

\ln x\leqslant x-1

定理2：当另一个随机变量 $Y$ 被观测到后， $X$ 的不确定度在平均意义下减少，当二者独立时等号成立：

H_{Y}(X) \leqslant H(X)

编码定理

通信中的编码问题（最小期望码长）：假设一个离散型随机变量X取值于 $\left \{x_{1}, \cdot \cdot \cdot ,x_{N}\right \}$ ，其相应概率为 $\left \{p(x_{1}), \cdot \cdot \cdot ,p(x_{N})\right \}$ ，设计一个编码系统，将 $x_{i}$ 编成 $n_{i}$ 位的二进制序列，通过一个通信网络将从A处传送到B处，为避免混乱，要求编码后的序列不能出现一个序列是另一个序列的延伸。如何设计编码系统使得最终的期望码长最小。

引理1:
: 为了将 $X$ 的可能取值编码成0-1序列，且任何一个序列都不能是另一序列的延伸，其充要条件为：

\sum_{i=1}^{N}\left ( \frac{1}{2} \right )^{n_{i}}\leqslant 1

证明:

记 $w_{j}$ 为 $x_{i}$ 中编码长度为j的个数， $j=1,2,3...$ ，显然有：

w_{1}2^{n-1}+w_{2}2^{n-2}+\cdot \cdot \cdot +w_{n-1}2+w_{n}\leqslant 2^{n}

两边同除以 $2^{n}$ 得：

\sum_{j=1}^{n}w_{j}\left (  \frac{1}{2}\right )^{j}=\sum_{i=1}^{N}\left ( \frac{1}{2} \right )^{n_{i}}\leqslant 1

无噪声编码定理

无噪声编码定理:
: 假设每个信号单位从位置A到位置B的过程没有发生错误，则编码的期望码长不小于随机变量的信息熵:

\sum_{i=1}^{N}n_{i}p\left ( x_{i} \right )\geqslant H(X)=-\sum_{i=1}^{N}p\left ( x_{i} \right )\log p\left ( x_{i} \right )

证明：
记 $p_{i}=p(x_{i})$ ， $q_{i}=2^{-n_{i}}/\sum_{j=1}^{N}2^{-n_{j}}$ ，则有 $\sum_{i=1}^{N}p_{i}=\sum_{i=1}^{N}q_{i}=1$

\begin{aligned}
-\sum_{i=1}^{N}p_{i}\log(\frac{p_{i}}{q_{i}})&=-\log e \sum_{i=1}^{N}p_{i}\ln (\frac{p_{i}}{q_{i}})\\
&=\log e \sum_{i=1}^{N}p_{i}\ln (\frac{q_{i}}{p_{i}})\\
&\leqslant \log e \sum_{i=1}^{N}p_{i}(\frac{q_{i}}{p_{i}}-1)\\
&=\log e (\sum_{i=1}^{N}p_{i}-\sum_{i=1}^{N}q_{i})=0
\end{aligned}

由此可得：

\begin{aligned}
-\sum_{i=1}^{N}p\left ( x_{i} \right )\log p\left ( x_{i} \right )&\leqslant - \sum_{i=1}^{N}p_{i}\log q_{i}\\
&= \sum_{i=1}^{N}n_{i}p_{i}+\log(\sum_{j=1}^{N}2^{-n_{j}})\\
&\leqslant\sum_{i=1}^{N}n_{i}p_{i}
\end{aligned}

定理:
: 对于大部分随机变量 $X$ ，不存在一组编码系统使得期望码长达到下界 $H(X)$ ，但是总存在一个编码系统，使得期望码长与 $H(X)$ 之间的误差小于1

证明:
取 $n_{i}=\left \lceil -\log p(x_{i}) \right \rceil$ ，即：

-\log p(x_{i}) \leqslant n_{i}\leqslant -\log p(x_{i}) +1

代入期望码长公式 $L=\sum_{i=1}^{N}n_{i}p(x_{i})$ 得：

-\sum_{i=1}^{N}p\left ( x_{i} \right )\log p\left ( x_{i} \right )\leqslant L\leqslant -\sum_{i=1}^{N}p\left ( x_{i} \right )\log p\left ( x_{i} \right )+1

H(X)\leqslant L< H(X)+1

有噪声编码定理

假设每个信号单位的传送是独立的，且以概率p正确地从A处传送到B处，这样的通信系统称为二进制对称通道。若不经过处理直接传送便会发生误传，一种减少误传信号的方法是将信号重复多次，在译码时按多数原则进行翻译。

假设p=0.8，通过将信号重复3次进行编码译码。如000、001、010、100都代表0，111，110，101，011代表1。此时，传输一位错误的概率为：

0.2^{3}+3\times 0.2^{2}\times 0.8=0.104

错误率由0.2减小到0.104，事实上，只要重复足够多次可以将误传概率变得任意小，但是这种方法是以牺牲传输效率为代价的。但值得庆幸的是将传输错误概率减小到0的同时，传输效率并不会减小到0，这正是香农在信息论中提出的含噪声编码定理。

有噪声编码定理:
: 对于二进制对称系统，为使传送一比特的误差概率变得任意小，传输平均速率存在一个上限 $C^{*}$ ，称为通道容量。

C^{*}=1+p\log p+(1-p)\log(1-p)

最后编辑于：2017.12.08 06:04:15

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 175,490评论 5赞 419
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 74,060评论 2赞 335
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 124,407评论 0赞 291
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 47,741评论 0赞 248
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 56,543评论 3赞 329
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 43,040评论 1赞 246
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 34,107评论 3赞 358
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 32,646评论 0赞 229
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 36,694评论 1赞 271
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 32,398评论 2赞 279
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 33,987评论 1赞 288
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 30,097评论 3赞 285
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 35,298评论 3赞 282
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 27,278评论 0赞 14
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 28,413评论 1赞 232
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 38,397评论 2赞 309
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 38,099评论 2赞 314

信息熵与编码定理

信息熵与编码定理

惊奇度与信息量

定性描述

定量描述

信息熵

信息熵的定义

信息熵的理解

随机向量的熵

编码定理

无噪声编码定理

有噪声编码定理

推荐阅读更多精彩内容