认知诊断评价理论基础

第一节 信息、信息熵、信息量

字体:16+-

信息(information)是很抽象的概念。信息是事物及其属性标识的集合。信息能够帮你逐渐解开头脑中的疑团,消除你对某个事物认识上的不确定性,并由不确定性逐渐变成较为确定或确定。获得的信息越多,你对事物的了解就越全面,越准确。

信息源是信息的源泉或产生待传送的信息的实体,是提供信息的载体,它无处不在。信息源所涉及的范围十分广泛,不仅包括所有的知识,还包括通过我们五官感觉到的一切。任何事物都可以作为信息源。信息接收者(信宿)是信息的归宿。信息通道负责将信息源信息传送给信息接收者。

一、信息熵与互信息

信息是一个相对的概念,它自身不能单独存在,必须依附于一定的载体,而且还要和信息接收者及它所要达到的目的相联系,这样才可成为信息。信息论创始人香农(C.Shannon)于1948年从信息接收者的角度定义:“信息是能够协助信息接收者消除事件不确定性的因素。”因此,信息的价值和大小首先应该是与信息源本身的特性有关的,同时还与具体的认识目的相联系,它应该能够为认识某个特定事物提供线索,另外,信息的传播途径应该也会影响它的最终价值。

那么,如何来衡量信息的价值大小呢?人们常常说信息很多,或者信息较少,但却很难说清楚信息到底有多少。从信息源的角度来说,依照信息论的认识,在日常生活中,极少发生的事件一旦发生是很容易引起人们关注的,如发生海啸,而司空见惯的事件并不会引起人们的注意,如太阳又从东方升起。也就是说,极少发生的事件所带来的信息价值越大。如果用统计学的术语来描述,就是发生概率小的事件信息量多。因此,事件发生的概率越小,信息量越大,即信息量的多少是与事件发生频率(即概率大小)成反比的。

1948年,香农提出了“信息熵”(information entropy)的概念,是信息论中衡量某个事件自身信息大小的重要指标,也称香农熵。对于有n种可能取值的离散型随机变量X,香农熵的定义为:

P(xi)是变量X取值为xi的概率,b的取值可以是2、10或其他值。

信息量与信息熵在概念上是有区别的。信息熵是描述信息源本身统计特性的测量,它表示信息源的不确定度,不管有无接收者,它总是客观存在的量。信息接收者从作为发送者的信息源中获得的信息量是一个相对的量。信息量是指从多个可能事件中选出一个事件所需要的信息度量或含量。在信息论中,认为信息源输出的消息是随机的,即在信息接收者未收到消息之前,不能肯定信息源到底发送什么样的消息。而通信的目的就是使信息接收者在接收到消息后,尽可能多地解除接收者对信息源所存在的疑义(不确定度),这个被解除的不确定度实际上就是在通信中所要传送的信息量。因此,接收到的信息量在无干扰时,在数值上就等于信息源的信息熵。信息熵是状态量,其存在是绝对的;信息量是熵增,是过程量,是与信息传播行为有关的量,往往是针对接收者而言的,所谓接收者获得了信息,是指接收者收到消息后解除了对信息源的平均不确定度,它具有相对性。

对于信息熵和信息量的说明须引入互信息(mutual information,MI)的概念。在概率论和信息论中,互信息是用于描述两个随机变量之间相互依存关系的测量。具体来说,就是一个随机变量可以通过另一个随机变量获取的信息大小。对于离散型随机变量和,互信息的定义如下:

其中,P(x,y)是随机变量X和Y的联合概率函数,P(x)和P(y)分别是随机变量X和Y的边际概率分布函数。对于连续型随机变量,累加形式替换为积分形式,定义如下:

因此,互信息反映了随机变量X和Y共享信息的程度。也就是已知一个变量的条件下,能够消除关于另一个变量的不确定度的大小。如果变量X和Y相互独立,那么,X对于了解Y不会提供任何信息,反之亦然,这时两个变量之间的互信息为0。而当变量X是变量Y的确定性函数或变量Y是变量X的确定性函数时,那么两个变量之间共享所有信息,通过X就能够完全了解Y。其实在这种情形下,变量X和Y的互信息就等于各自的信息熵。

根据以上描述,互信息还可以描述如下(具体推导过程请参看相关文献资料):

式子中,H(X|Y)和H(Y|X)称为条件熵,它表示已知Y(或X)以后,对X(或Y)仍存在的不确定度;与互信息相对应,有时候也称信息熵H(X)或H(Y)为自信息(self-information)或边际熵;H(X,Y)称为联合熵(joint entropy),定义如下:

互信息具有以下三个基本性质。

①非负性:I(X;Y)≥0,即H(X)>H(X|Y),仅当变量Y与变量X统计独立时,互信息才为0。

②互信息不大于信息源的熵:I(X;Y)≤H(X),即接收者从信息源中所获得的信息必不大于信息源本身的熵。

③对称性:I(X;Y)=I(Y;X),即Y隐含X和X隐含Y的互信息是相等的。

描述信息贡献关系及其大小的方式还有很多种。除了上面介绍的信息熵、互信息以及本书前面介绍的AIC统计量、BIC统计量和DIC统计量外,下面再介绍几种在心理测量学理论中比较常见的一些有关衡量信息量的概念。

二、自信息

上面已经提到自信息(self-information)的概念,然而,与自信息的规范的定义有些差异。自信息反映了对某个随机变量进行抽样时的惊异度(surprise)。如果信息接收者预先完全掌握了接收的信息,那么,当你再次传递该信息时,对信息接收者来说就没有任何信息价值了。只有当信息接收者对即将接收的信息不完全了解时,该信息才有价值,才会产生惊异。自信息用来衡量某变量中单一事件发生时所包含的信息量的多少。

对于某变量X,事件xi∈X,其发生概率为P(xi),那么该事件的自信息定义为:

由此可知,事件xi发生的概率越小,那么,当该事件真实发生时,其传递的自信息量就越大。因此,自信息有时可叫惊异(surprisal)。

对于离散型随机变量,某个事件的自信息的期望(expected value)就是信息熵,它反映了对一个随机变量进行抽样时产生的平均惊异(不确定度)。有时候,信息熵本身也会叫自信息,这可能是因为信息熵满足以下条件:H(X)=I(X;X),I(X;X)代表了变量X自身的互信息。

三、KL散度

KL散度(Kullback-Leibler divergence,相对熵,relative entropy,S.Kullback & R.Leibler,1951) 是用于描述两个概率分布差异的一种方法,它描述了某概率分布拟合理论真实概率分布的程度。概率分布Q拟合理论真实概率分布P的KL散度一般表示为DKL(P‖Q)。从贝叶斯推理理论来说,DKL(P‖Q)可以表示用后验概率分布P代替先验概率分布Q所获得的增量信息,也就是当用Q来估计P时可能带来的信息损失量,在这里,P代表了真实的数据观察,而Q代表了一个理论估计或P的近似估计。在信息论中,DKL(P‖Q)表示当用概率分布Q来拟合真实分布P时,产生的信息损耗。

对于两个离散变量概率分布Q和P,KL散度定义为:

对于两个连续变量概率分布Q和P,KL散度定义为:

KL散度有几个重要的性质:①KL散度是非对称的,这意味着DKL(P‖Q)≠DKL(Q‖P);②非负性,即DKL(P‖Q)≥0;③即使对于连续变量,KL散度仍是良定义的(函数关系无歧义),参数转换也不会改变其性质;④对于独立分布,KL散度是可累加的。

四、Fisher信息

假设一批样本数据来自某一个分布,未知参数θ定义了该分布,那么,我们就可以利用样本数据中蕴含的信息来估计该未知参数。这时候,一个自然的问题就是:对于估计这个未知参数,这批样本数据能够提供多少信息呢?Fisher信息就是用于衡量这样的“信息”关系。

我们以f(x;θ)表示以θ取值为条件的x的概率密度函数,这也就是关于θ的似然函数,也就是当给定θ的某个取值时,获得观察数据x的概率。如果随着变量θ取值的变化,f函数分布的形态非常高耸,那么,我们就能够很快、很容易地发现和确认函数极值及其对应的未知参数的真实估计值,这也说明这批数据能够给未知参数提供较大的信息量。如果似然函数f的分布形态非常扁平,这时,为了获得关于未知参数θ的稳定的估计值(小的估计误差,大的信息量),我们就必须增加大量的样本数据。由此可以发现,未知参数θ的估计似乎与某种方差量有关。

Fisher信息一般用I(θ)表示,Fisher信息就定义为Score函数的二阶矩,即I(θ)=E[S(x;θ)2],于是可知,Score函数的绝对值越大,Fisher信息越大。

在一定的正则条件下,Score函数一阶矩(期望)会等于0,即E[S(x;θ)2]=0,于是10-9式就自然成立:

根据上式,Fisher信息也可以定义为Score函数的方差。同时还知道其取值范围为0≤I(θ)<∞。

如果对数似然函数log f(x;θ)二阶可导,在一定的正则条件下,Fisher信息还可以写为:

于是,Fisher信息可以被解释为对数似然函数曲线的曲率。如果通过对数似然函数曲线来进行直观解释,在极大似然估计值附近,大的Fisher信息意味着函数极值附近的曲线形状显得比较高而尖,而小的Fisher信息意味着极值附近的曲线形状比较扁平,也就是说,会有更多未知参数估计值的似然函数值与极值非常接近。

如果数据是由n个参数来定义的,那么,未知参数θ就是一个n×1的向量,即θ=[θ1,θ2,…,θn]T,这时的Fisher信息就是n×n阶的Fisher信息矩阵(FIM),矩阵中元素为:

FIM为n×n阶的半正定对称矩阵。在一定的正则条件下,FIM元素也可以表示如下:

如果FIM矩阵中的第i行第j列元素为0,那么,我们就认为参数θi和参数θj相互独立,是正交的。在这种情形下,他们的极大似然估计值就是相互独立的,我们就可以对这两类参数分开进行独立估计,这可以大大简化参数估计的复杂度。

柏努利(Bernoulli)试验是只有两种可能结果的试验。记X为一个柏努利试验,其中一种结果发生的概率记为θ,X试验的Fisher信息计算方式为:

由于Fisher信息是可加的,因此,n次独立的柏努利试验的Fisher信息表达如下:

五、Fisher信息与相对熵KL散度之间的关系

设有概率分布族f(x;θ),θ为定义分布的参数。那么,属于同一分布族的两个分布之间的KL散度可以表示为:

如果θ已知,那么,当θ′=θ时,上面定义的KL散度将达到最小的0(KL散度是非负的)。

而Fisher信息矩阵可以表示如下:

Fisher信息表示了KL散度的曲率。

六、香农熵与相对熵KL散度之间的关系

与前文的表示方法一致,香农熵与KL散度的关系可以表示如下:

式子右边表示为了从N个等概率的均匀分布PU(X)中而不是P(X)中识别X需要增加的信息量。P(X)表示X的真实分布。

七、互信息与相对熵KL散度之间的关系

与前文的表示方法一致,互信息与KL散度的关系可以表示如下:

式子右边表示两个边际概率分布与其联合概率分布之间的散度。

八、条件熵与相对熵KL散度之间的关系

与前文的表示方法一致,条件熵与KL散度的关系可以表示如下:

式子右边表示为了从N个等概率的均匀分布PU(X)中而不是P(X|Y)中识别X需要增加的信息量。P(X|Y)表示X的真实分布。