信息熵理论
熵原理
熵 是个物理名词,最初是从平衡态热力学中总结出来的,它表述为热量与绝对温度变化的商。它标志着热量转化为功的程度,泛指某些物质系统状态的一种量度。 熵是物质系统混乱度 的度量,在统计物理中,有如下关系式:S=KlnΩS = K\ln{\Omega }S=KlnΩ 这就是著名的玻尔兹曼关系式,KKK是玻尔兹曼常数,Ω\OmegaΩ是系统的微观状态数,在宏观条件不变的情况下,由大量粒子(原子、分子)构成的系统中,熵就表示粒子之间无规则的排列程度,或者说,表示系统的紊乱程度,当系统处于平衡时,微观状态数越多,系统越“混乱”,熵就越大,否则,熵就越小。 从微观意义上讲,熵是物质系统无序性 和混乱度 的量度。玻尔兹曼关系式被称为只有牛顿运动定律和爱因斯坦质能关系式才能与之媲美的公式,这就是统计力学熵 。 信息 是表示事物存在状态及运动体系的确定程度 。它只有在相互作用的时候才能表现出来,通过它的运动状态,人们可以对它的状态进行表示。人们通过各种探测工具来提取信息,然后运用这些信息来对事物的存在状态进行度量也就是通过熵的形式对信息进行量化和度量。 1929年,甸牙利科学家斯依兰德(L Szilard)提出了熵与信息不确定性 的关系,进一步拓宽了熵的内涵。 1948年,贝尔实验室的香农(C Shannon) 对前人的成果予以总结,强调了“信息量”这个概念。阐述了许多重要定理,把信息熵与统计力学熵概念相联系,把信息定理看作热力学第二定律在通信理论中的特殊形式,使信息熵成为信息论的一个正统的分支。
信息熵
信息熵:Shannon把信息量作为信息论的中心概念,信息中排除了冗余后的平均信息量称为“信息熵”,即香农熵。
单个离散随机变量XXX的熵H(X)H(X)H(X)的是对其平均不确定度 的度量
信息熵的计算公式:H(X)=−∑xi∈Θp(xi)logp(xi)=−E[logp(xi)]H(X)=-\sum_{x_{i} \in \Theta} p\left(x_{i}\right) \log p\left(x_{i}\right)=-E\left[\log p\left(x_{i}\right)\right]H(X)=−∑xi∈Θp(xi)logp(xi)=−E[logp(xi)] XXX代表取值于Θ\ThetaΘ的随机变量 概率质量函数p(xi)=Pr{X=xi},xi∈Θp(x_{i})=P_{r}\left\{X=x_{i}\right\},x_{i}\in \Thetap(xi)=Pr{X=xi},xi∈Θ EEE代表期望算子 显然当p=0p=0p=0时,这里有plogp=0p\log{p}=0plogp=0 对于随机事件XXX,其信息熵的计算公式为:H(X)=−∑i=1npilogpiH(X)=-\sum_{i=1}^{n} p_{i} \log{p_{i}}H(X)=−∑i=1npilogpi
用nnn代表XXX的不同种离散取值,i=1,2,3,…,ni=1,2,3,\dots,ni=1,2,3,…,n pip_{i}pi代表事件xix_{i}xi发生的概率 logloglog代表以222或eee为底的对数 三个性质
单调性,发生概率越高的事件,其携带的信息量越低; 非负性,信息熵可以看作为一种广度量,非负性是一种合理的必然; 累加性,即多随机事件同时发生存在的总不确定性的量度是可以表示为各事件不确定性的量度的和,这也是广度量的一种体现。
Python实现
import math
import numpy as np
from collections import Counterdef Entropy(X):"""计算离散型变量的信息熵/香农熵, 信息熵越大, 数据的不确定性越大Parameters----------X : {ndarray} of (n_samples,)DataReturns-------entropy : floatEntropy of X"""counts = len(data) # 总数据量counter = Counter(data) # 每个离散变量出现的次数prob = [i[1]/counts for i in counter.items()] #计算每个随机变量发生的概率的pshannon = - sum([i*math.log(i) for i in prob]) # 计算信息熵return shannon
data = np.array([2,3,4,1,1,3,4,5,6,2,1,3,4,5,5,6,7,3,2,4,4,2])
shannon_entropy = Entropy(data)
print("信息熵为:", shannon_entropy)
>>> 信息熵为: 1.8585191558920355