机器学习笔记之高斯分布(四)关于高斯分布的推断问题
admin
2024-04-10 16:23:56
0

机器学习笔记之高斯分布——基于联合概率分布求解条件概率分布

  • 引言
    • 回顾
      • 推断任务介绍
      • 概率分布与概率模型
    • 高斯分布推断任务
      • 场景构建
      • 推导任务描述
    • 推导过程
      • 相关定理介绍
      • 边缘概率分布推断
      • 条件概率分布推断
      • 关于P(Xb∣Xa)\mathcal P(\mathcal X_b \mid \mathcal X_a)P(Xb​∣Xa​)的个人解释

引言

本节将介绍高斯分布相关的推断问题。

回顾

推断任务介绍

在概率图模型——推断任务介绍中提到推断的本质就是求解变量的概率。已知随机变量集合X\mathcal XX的变量表示如下:
X=(x1,x2,⋯,xp)T\mathcal X = (x_1,x_2,\cdots,x_p)^TX=(x1​,x2​,⋯,xp​)T

  • 给定联合概率分布P(X)\mathcal P(\mathcal X)P(X)的条件下,求解某一维度xi(i=1,2,⋯,p)x_i(i=1,2,\cdots,p)xi​(i=1,2,⋯,p)的边缘概率分布P(xi)\mathcal P(x_i)P(xi​):
    P(xi)=∑x1,⋯,xi−1∑xi+1,⋯,xpP(X)=∑x1,⋯,xi−1∑xi+1,⋯,xpP(x1,⋯,xp)\begin{aligned} \mathcal P(x_i) & = \sum_{x_1,\cdots,x_{i-1}} \sum_{x_{i+1},\cdots,x_p} \mathcal P(\mathcal X) \\ & = \sum_{x_1,\cdots,x_{i-1}} \sum_{x_{i+1},\cdots,x_p} \mathcal P(x_1,\cdots,x_p) \end{aligned}P(xi​)​=x1​,⋯,xi−1​∑​xi+1​,⋯,xp​∑​P(X)=x1​,⋯,xi−1​∑​xi+1​,⋯,xp​∑​P(x1​,⋯,xp​)​
  • 假设X\mathcal XX可分为两个子集XA,XB\mathcal X_{\mathcal A},\mathcal X_{\mathcal B}XA​,XB​,并且子集之间满足如下关系:
    {XA∩XB=ϕXA∪XB=X\begin{cases} \mathcal X_{\mathcal A} \cap \mathcal X_{\mathcal B} = \phi \\ \mathcal X_{\mathcal A} \cup \mathcal X_{\mathcal B} = \mathcal X\end{cases}{XA​∩XB​=ϕXA​∪XB​=X​
    给定联合概率分布P(X)\mathcal P(\mathcal X)P(X)的条件下,求解集合间的条件概率分布
    Given P(X)⇒P(XA∣XB)\text{Given } \mathcal P(\mathcal X) \Rightarrow \mathcal P(\mathcal X_{\mathcal A} \mid \mathcal X_{\mathcal B})Given P(X)⇒P(XA​∣XB​)
  • 最大后验概率推断(MAP Inference),给定联合概率分布,求解某变量的边际概率分布。常用于解码(Decoding)任务中。
    这里不过多赘述,具体详见隐马尔可夫模型——解码问题

概率分布与概率模型

在该系列第一篇文章极大似然估计与最大后验概率估计中,就已经介绍了概率分布概率模型之间可以看作相同的事物。已知样本集合X\mathcal XX:

  • 概率分布P(X)\mathcal P(\mathcal X)P(X)表示样本集合X\mathcal XX取值的概率规律
  • 概率模型表示在概率分布P(X)\mathcal P(\mathcal X)P(X)下,通过模型参数采样出若干样本,这些样本组成样本集合X\mathcal XX。

从采样的角度观察,概率模型中的样本数量是无穷大的,是采不完的;从模型估计的角度观察,除非概率模型极为简单,否则极难得到概率模型的精确解,只能通过有限的样本对概率模型进行估计。

高斯分布(Gaussian Distribution),它既是概率分布,也是概率模型。本节将对高斯分布概率模型的条件概率分布、边缘概率分布进行推断。
在概率图模型中,特别是动态模型中,包含关于高斯分布的条件概率推断过程。如卡尔曼滤波(线性高斯模型),以及未来要介绍的[高斯网络]这里挖一个坑,后续来补~

高斯分布推断任务

场景构建

样本集合X\mathcal XX是包含ppp维随机变量的随机变量集合,并且X\mathcal XX服从ppp维高斯分布:
X∼N(μ,Σ)=1(2π)p2∣Σ∣12exp⁡[−12(x−μ)TΣ−1(x−μ)]X∈Rp,Random Variable\begin{aligned} & \mathcal X \sim \mathcal N(\mu,\Sigma) = \frac{1}{(2\pi)^{\frac{p}{2}} |\Sigma|^{\frac{1}{2}}} \exp \left[-\frac{1}{2} (x - \mu)^T\Sigma^{-1}(x- \mu)\right] \\ & \mathcal X \in \mathbb R^p ,\text{Random Variable} \end{aligned}​X∼N(μ,Σ)=(2π)2p​∣Σ∣21​1​exp[−21​(x−μ)TΣ−1(x−μ)]X∈Rp,Random Variable​
其中随机变量集合X\mathcal XX,均值μ\muμ,协方差矩阵Σ\SigmaΣ向量形式表示如下:
X=(x1x2⋮xp)p×1μ=(μ1μ2⋮μp)p×1Σ=(σ11,σ12,⋯,σ1pσ21,σ22,⋯,σ2p⋮σp1,σp2,⋯,σpp)p×p\mathcal X = \begin{pmatrix}x_1 \\ x_2 \\ \vdots \\ x_p\end{pmatrix}_{p \times 1}\quad \mu = \begin{pmatrix}\mu_1 \\ \mu_2 \\ \vdots \\ \mu_{p}\end{pmatrix}_{p \times 1} \quad \Sigma = \begin{pmatrix} \sigma_{11},\sigma_{12},\cdots,\sigma_{1p} \\ \sigma_{21},\sigma_{22},\cdots,\sigma_{2p} \\ \vdots \\ \sigma_{p1},\sigma_{p2},\cdots,\sigma_{pp} \end{pmatrix}_{p \times p}X=⎝⎜⎜⎜⎛​x1​x2​⋮xp​​⎠⎟⎟⎟⎞​p×1​μ=⎝⎜⎜⎜⎛​μ1​μ2​⋮μp​​⎠⎟⎟⎟⎞​p×1​Σ=⎝⎜⎜⎜⎛​σ11​,σ12​,⋯,σ1p​σ21​,σ22​,⋯,σ2p​⋮σp1​,σp2​,⋯,σpp​​⎠⎟⎟⎟⎞​p×p​

推导任务描述

任务描述:已知一个多维高斯分布,求解它的边缘概率分布和条件概率分布
给定了概率分布,意味着给定了‘概率模型’。因而这个多维高斯分布中的‘均值’μ\muμ,协方差Σ\SigmaΣ全部是已知项。
这里将随机变量集合X\mathcal XX分成两组:
这里只是将随机变量集合分成两组,并不一定是有序的。
X=(XaXb)Xa∈Rm;Xb∈Rn{Xa∩Xb=ϕXa∪Xb=X\mathcal X = \begin{pmatrix} \mathcal X_a \\ \mathcal X_b \end{pmatrix}\quad \mathcal X_a \in \mathbb R^m;\mathcal X_b \in \mathbb R^n \quad \begin{cases} \mathcal X_a \cap \mathcal X_b = \phi \\ \mathcal X_a \cup \mathcal X_b = \mathcal X \end{cases}X=(Xa​Xb​​)Xa​∈Rm;Xb​∈Rn{Xa​∩Xb​=ϕXa​∪Xb​=X​
同理,μ,Σ\mu,\Sigmaμ,Σ同样对其进行划分:
需要注意的点,Σaa\Sigma_{aa}Σaa​表示cov(Xa,Xa)cov(\mathcal X_a,\mathcal X_a)cov(Xa​,Xa​),其余三个同理,它们全部都是‘协方差矩阵’,‘协方差矩阵’的性质它们全部都有。
μ=(μaμb)Σ=(Σaa,ΣabΣba,Σbb)\mu= \begin{pmatrix}\mu_a \\ \mu_b\end{pmatrix} \quad \Sigma = \begin{pmatrix}\Sigma_{aa},\Sigma_{ab} \\ \Sigma_{ba},\Sigma_{bb}\end{pmatrix}μ=(μa​μb​​)Σ=(Σaa​,Σab​Σba​,Σbb​​)

上述全部是已知项。可以将概率分布P(X)\mathcal P(\mathcal X)P(X)看作关于Xa,Xb\mathcal X_a,\mathcal X_bXa​,Xb​的联合概率分布
P(X)=P(Xa,Xb)\mathcal P(\mathcal X) = \mathcal P(\mathcal X_a,\mathcal X_b)P(X)=P(Xa​,Xb​)
需要求解的量:
P(Xa),P(Xb),P(Xb∣Xa)\mathcal P(\mathcal X_a),\mathcal P(\mathcal X_b),\mathcal P(\mathcal X_b \mid \mathcal X_a)P(Xa​),P(Xb​),P(Xb​∣Xa​)

推导过程

相关定理介绍

已知某随机变量X\mathcal XX服从高斯分布,并且随机变量Y\mathcal YY与随机变量X\mathcal XX之间存在线性关系
X∼N(μ,Σ)Y=AX+B\begin{aligned} \mathcal X \sim \mathcal N (\mu,\Sigma) \\ \mathcal Y = \mathcal A \mathcal X + \mathcal B \end{aligned}X∼N(μ,Σ)Y=AX+B​
那么随机变量Y\mathcal YY同样服从高斯分布,并且高斯分布表示如下:
Y∼N(Aμ+B,AΣAT)\mathcal Y \sim \mathcal N(\mathcal A \mu + \mathcal B,\mathcal A \Sigma \mathcal A^{T})Y∼N(Aμ+B,AΣAT)
并且,关于随机变量Y\mathcal YY的期望EP(Y)[Y]\mathbb E_{\mathcal P(\mathcal Y)}[\mathcal Y]EP(Y)​[Y]与EP(X)[X]\mathbb E_{\mathcal P(\mathcal X)}[\mathcal X]EP(X)​[X]之间存在如下关系:
EP(Y)[Y]=EP(X)[AX+B]=AEP(X)[X]+B=Aμ+B\begin{aligned} \mathbb E_{\mathcal P(\mathcal Y)}[\mathcal Y] & = \mathbb E_{\mathcal P(\mathcal X)}[\mathcal A \mathcal X + \mathcal B] \\ & = \mathcal A \mathbb E_{\mathcal P(\mathcal X)}[\mathcal X] + \mathcal B \\ & = \mathcal A \mu + \mathcal B \end{aligned}EP(Y)​[Y]​=EP(X)​[AX+B]=AEP(X)​[X]+B=Aμ+B​
关于随机变量Y\mathcal YY的协方差矩阵Var(Y)\text{Var}(\mathcal Y)Var(Y)和随机变量X\mathcal XX的协方差矩阵Var(X)\text{Var}(\mathcal X)Var(X)之间存在如下关系:
由于B\mathcal BB自身是一个常量,因此Var(B)=0\text{Var}(\mathcal B)=0Var(B)=0,常数哪来的什么波动~
Var(Y)=Var(AX+B)=Var(AX)+Var(B)=Var(AX)=AΣAT\begin{aligned} \text{Var}(\mathcal Y) & = \text{Var}(\mathcal A \mathcal X + \mathcal B) \\ & = \text{Var}(\mathcal A \mathcal X) + \text{Var}(\mathcal B) \\ & = \text{Var}(\mathcal A \mathcal X) \\ & = \mathcal A \Sigma \mathcal A^T \end{aligned}Var(Y)​=Var(AX+B)=Var(AX)+Var(B)=Var(AX)=AΣAT​

边缘概率分布推断

关于随机变量子集合Xa\mathcal X_aXa​的边缘概率分布P(Xa)\mathcal P(\mathcal X_a)P(Xa​),可以将其定义成如下形式:
关于‘边缘概率分布’P(Xb)\mathcal P(\mathcal X_b)P(Xb​)的推导同理,这里仅介绍P(Xa)\mathcal P(\mathcal X_a)P(Xa​).
基于上述定理,可以假设‘系数矩阵’A=(Im,0)1×p\mathcal A = (\mathcal I_m,0)_{1 \times p}A=(Im​,0)1×p​'偏置矩阵'B=0\mathcal B = 0B=0省略。
Xa=1⋅Xa+0⋅Xb=(Im,0)(XaXb)Im=(1,1,⋯,1)⏟m项=AX\begin{aligned} \mathcal X_a & = 1 \cdot \mathcal X_a + 0 \cdot \mathcal X_b\\ & = (\mathcal I_m,0)\begin{pmatrix}\mathcal X_a \\ \mathcal X_b\end{pmatrix} \quad \mathcal I_m = \underbrace{(1,1,\cdots,1)}_{m项} \\ & = \mathcal A \mathcal X \end{aligned}Xa​​=1⋅Xa​+0⋅Xb​=(Im​,0)(Xa​Xb​​)Im​=m项(1,1,⋯,1)​​=AX​
至此,基于上述定理,Xa\mathcal X_aXa​的期望结果EP(Xa)[Xa]\mathbb E_{\mathcal P(\mathcal X_a)}[\mathcal X_a]EP(Xa​)​[Xa​]可表示为:
EP(Xa)[Xa]=(Im,0)(μaμb)=μa\begin{aligned} \mathbb E_{\mathcal P(\mathcal X_a)}[\mathcal X_a] = (\mathcal I_m ,0)\begin{pmatrix}\mu_a \\ \mu_b\end{pmatrix} = \mu_a \end{aligned}EP(Xa​)​[Xa​]=(Im​,0)(μa​μb​​)=μa​​
同理,Xa\mathcal X_aXa​的协方差矩阵结果Var(Xa)\text{Var}(\mathcal X_a)Var(Xa​)可表示为:
Var(Xa)=AΣAT=(Im,0)(Σaa,ΣabΣba,Σbb)(Im0)=(Σaa,Σab)(Im0)=Σaa\begin{aligned} \text{Var}(\mathcal X_a) & = \mathcal A\Sigma\mathcal A^T \\ & = (\mathcal I_m,0) \begin{pmatrix}\Sigma_{aa},\Sigma_{ab} \\ \Sigma_{ba},\Sigma_{bb}\end{pmatrix} \begin{pmatrix}\mathcal I_m \\ 0\end{pmatrix} \\ & = (\Sigma_{aa},\Sigma_{ab})\begin{pmatrix}\mathcal I_m \\ 0\end{pmatrix} \\ & = \Sigma_{aa} \end{aligned}Var(Xa​)​=AΣAT=(Im​,0)(Σaa​,Σab​Σba​,Σbb​​)(Im​0​)=(Σaa​,Σab​)(Im​0​)=Σaa​​
因此,随机变量子集Xa\mathcal X_aXa​的边缘概率分布服从高斯分布,其高斯分布表示为:
Xa∼N(μa,Σaa)\mathcal X_a \sim \mathcal N(\mu_a,\Sigma_{aa})Xa​∼N(μa​,Σaa​)

条件概率分布推断

针对条件概率P(Xb∣Xa)\mathcal P(\mathcal X_b \mid \mathcal X_a)P(Xb​∣Xa​),引入一个量:
构造量本身可能无意义,针对推导的技巧性创造出的量。
与Xb,Xa\mathcal X_b,\mathcal X_aXb​,Xa​相关联的量Xb.a\mathcal X_{b.a}Xb.a​表示如下:

  • 注意:Xb.a\mathcal X_{b.a}Xb.a​本质上是Xa,Xb\mathcal X_a,\mathcal X_bXa​,Xb​之间的线性关系,并且下标是有序的。
  • 单纯从格式角度观察,Xb.a\mathcal X_{b.a}Xb.a​是一个n×1n \times 1n×1向量,和Xb\mathcal X_bXb​大小相同。
  • 构造Xb.a\mathcal X_{b.a}Xb.a​的动机在于构造Xb\mathcal X_bXb​Xa\mathcal X_aXa​之间的关联关系。
    Xb.a=Xb−ΣbaΣaa−1Xa=(−ΣbaΣaa−1,Ip)(XaXb)\begin{aligned} \mathcal X_{b.a} & = \mathcal X_b - \Sigma_{ba} \Sigma_{aa}^{-1} \mathcal X_a \\ & = (- \Sigma_{ba} \Sigma_{aa}^{-1},\mathcal I_p) \begin{pmatrix}\mathcal X_a \\ \mathcal X_b\end{pmatrix} \end{aligned}Xb.a​​=Xb​−Σba​Σaa−1​Xa​=(−Σba​Σaa−1​,Ip​)(Xa​Xb​​)​

如果将Xb.a\mathcal X_{b.a}Xb.a​看作一组随机变量,结合上述定理,我们尝试求解该随机变量的边缘概率分布

  • 这组随机变量的期望EP(Xb.a)[Xb.a]\mathbb E_{\mathcal P(\mathcal X_{b.a})}[\mathcal X_{b.a}]EP(Xb.a​)​[Xb.a​]表示如下:
    使用μb.a\mu_{b.a}μb.a​这个符号表示期望结果。
    可以将(−ΣbaΣaa−1,Ip)(- \Sigma_{ba} \Sigma_{aa}^{-1},\mathcal I_p)(−Σba​Σaa−1​,Ip​)看作系数矩阵A\mathcal AA.
    EP(Xb.a)[Xb.a]=Aμ=(−ΣbaΣaa−1,Ip)(μaμb)=μb−ΣbaΣaa−1μa=μb.a\begin{aligned} \mathbb E_{\mathcal P(\mathcal X_{b.a})}[\mathcal X_{b.a}] & = \mathcal A \mu \\ & = (- \Sigma_{ba} \Sigma_{aa}^{-1},\mathcal I_p) \begin{pmatrix}\mu_a \\ \mu_b\end{pmatrix} \\ & = \mu_b - \Sigma_{ba} \Sigma_{aa}^{-1} \mu_a \\ & = \mu_{b.a} \end{aligned}EP(Xb.a​)​[Xb.a​]​=Aμ=(−Σba​Σaa−1​,Ip​)(μa​μb​​)=μb​−Σba​Σaa−1​μa​=μb.a​​
  • Xb.a\mathcal X_{b.a}Xb.a​的协方差矩阵Var(Xb.a)\text{Var}(\mathcal X_{b.a})Var(Xb.a​)表示如下:
    根据矩阵逆的定义,Σaa−1Σaa=E\Sigma_{aa}^{-1}\Sigma_{aa} = \mathcal EΣaa−1​Σaa​=E,因而Σba−ΣbaΣaa−1Σaa=0\Sigma_{ba} - \Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{aa} = 0Σba​−Σba​Σaa−1​Σaa​=0
    同理,使用Σbb.a\Sigma_{bb.a}Σbb.a​来表示协方差结果。
    Var(Xb.a)=AΣAT=(−ΣbaΣaa−1,Ip)(Σaa,ΣabΣba,Σbb)(−ΣbaΣaa−1Ip)=(Σba−ΣbaΣaa−1Σaa,Σbb−ΣbaΣaa−1Σab)(−ΣbaΣaa−1Ip)=(0,Σbb−ΣbaΣaa−1Σab)(−ΣbaΣaa−1Ip)=Σbb−ΣbaΣaa−1Σab=Σbb.a\begin{aligned} \text{Var}(\mathcal X_{b.a}) & = \mathcal A \Sigma\mathcal A^T \\ & = (- \Sigma_{ba} \Sigma_{aa}^{-1},\mathcal I_p) \begin{pmatrix}\Sigma_{aa},\Sigma_{ab} \\ \Sigma_{ba},\Sigma_{bb}\end{pmatrix}\begin{pmatrix}- \Sigma_{ba} \Sigma_{aa}^{-1} \\ \mathcal I_p\end{pmatrix} \\ & = (\Sigma_{ba} - \Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{aa}, \Sigma_{bb} - \Sigma_{ba} \Sigma_{aa}^{-1}\Sigma_{ab})\begin{pmatrix}- \Sigma_{ba} \Sigma_{aa}^{-1} \\ \mathcal I_p\end{pmatrix} \\ & = (0, \Sigma_{bb} - \Sigma_{ba} \Sigma_{aa}^{-1}\Sigma_{ab})\begin{pmatrix}- \Sigma_{ba} \Sigma_{aa}^{-1} \\ \mathcal I_p\end{pmatrix} \\ & = \Sigma_{bb} - \Sigma_{ba} \Sigma_{aa}^{-1}\Sigma_{ab} \\ & = \Sigma_{bb.a} \end{aligned}Var(Xb.a​)​=AΣAT=(−Σba​Σaa−1​,Ip​)(Σaa​,Σab​Σba​,Σbb​​)(−Σba​Σaa−1​Ip​​)=(Σba​−Σba​Σaa−1​Σaa​,Σbb​−Σba​Σaa−1​Σab​)(−Σba​Σaa−1​Ip​​)=(0,Σbb​−Σba​Σaa−1​Σab​)(−Σba​Σaa−1​Ip​​)=Σbb​−Σba​Σaa−1​Σab​=Σbb.a​​

至此,我们得到了Xb.a,μb.a,Σbb.a\mathcal X_{b.a},\mu_{b.a},\Sigma_{bb.a}Xb.a​,μb.a​,Σbb.a​,从而可以确定这个引入的变量,它的概率分布:
Xb.a∼N(μb.a,Σbb.a){μb.a=μb−ΣbaΣaa−1μaΣbb.a=Σbb−ΣbaΣaa−1Σab\begin{aligned} \mathcal X_{b.a} & \sim \mathcal N(\mu_{b.a},\Sigma_{bb.a}) \quad \begin{cases} \mu_{b.a} = \mu_b - \Sigma_{ba} \Sigma_{aa}^{-1} \mu_a \\ \Sigma_{bb.a} = \Sigma_{bb} - \Sigma_{ba} \Sigma_{aa}^{-1}\Sigma_{ab} \end{cases} \end{aligned}Xb.a​​∼N(μb.a​,Σbb.a​){μb.a​=μb​−Σba​Σaa−1​μa​Σbb.a​=Σbb​−Σba​Σaa−1​Σab​​​

回过头来重新观察Xb\mathcal X_bXb​和Xa\mathcal X_aXa​之间的关系:
Xb=Xb.a+ΣbaΣaa−1Xa\mathcal X_b = \mathcal X_{b.a} + \Sigma_{ba} \Sigma_{aa}^{-1} \mathcal X_aXb​=Xb.a​+Σba​Σaa−1​Xa​
由于上面描述的高斯分布的相关定理可知,Xb\mathcal X_bXb​是Xb.a\mathcal X_{b.a}Xb.a​和ΣbaΣaa−1Xa\Sigma_{ba} \Sigma_{aa}^{-1} \mathcal X_aΣba​Σaa−1​Xa​的线性计算结果,因此它必然也是高斯分布
因此,关于Xb∣Xa\mathcal X_b \mid \mathcal X_aXb​∣Xa​的期望E[Xb∣Xa]\mathbb E_[\mathcal X_b \mid \mathcal X_a]E[​Xb​∣Xa​],方差Var[Xb∣Xa]\text{Var}[\mathcal X_b \mid \mathcal X_a]Var[Xb​∣Xa​]分别表示如下:
Xb.a+ΣbaΣaa−1Xa\mathcal X_{b.a} + \Sigma_{ba} \Sigma_{aa}^{-1} \mathcal X_aXb.a​+Σba​Σaa−1​Xa​看作AX+B\mathcal A\mathcal X + \mathcal BAX+B的形式,有:
{X→Xb.aA→EB→ΣbaΣaa−1Xa\begin{cases} \mathcal X \to \mathcal X_{b.a} \\ \mathcal A \to \mathcal E \\ \mathcal B \to \Sigma_{ba} \Sigma_{aa}^{-1} \mathcal X_a \end{cases}⎩⎪⎨⎪⎧​X→Xb.a​A→EB→Σba​Σaa−1​Xa​​
为什么要这么分:因为Xb.a\mathcal X_{b.a}Xb.a​中包含Xb\mathcal X_bXb​变量,而Xb,Xa\mathcal X_b,\mathcal X_aXb​,Xa​由于相互独立,因此视作常数:
{Xa∩Xb=ϕXa∪Xb=X\begin{cases} \mathcal X_{a} \cap \mathcal X_{b} = \phi \\ \mathcal X_{a} \cup \mathcal X_{b} = \mathcal X \end{cases} \\ {Xa​∩Xb​=ϕXa​∪Xb​=X​
其中E\mathcal EE表示单位向量。
{E[Xb∣Xa]=E⋅μb.a+ΣbaΣaa−1Xa=μb.a+ΣbaΣaa−1XaVar[Xb∣Xa]=E⋅Σbb.a⋅ET=Σbb.a\begin{cases} \begin{aligned} \mathbb E[\mathcal X_b \mid \mathcal X_a] & = \mathcal E \cdot \mu_{b.a} + \Sigma_{ba} \Sigma_{aa}^{-1} \mathcal X_a \\ & = \mu_{b.a} + \Sigma_{ba} \Sigma_{aa}^{-1} \mathcal X_a \end{aligned} \\ \begin{aligned}\text{Var}[\mathcal X_b \mid \mathcal X_a] & = \mathcal E \cdot \Sigma_{bb.a} \cdot \mathcal E^T\\ & = \Sigma_{bb.a} \end{aligned}\end{cases}⎩⎪⎪⎪⎪⎨⎪⎪⎪⎪⎧​E[Xb​∣Xa​]​=E⋅μb.a​+Σba​Σaa−1​Xa​=μb.a​+Σba​Σaa−1​Xa​​Var[Xb​∣Xa​]​=E⋅Σbb.a​⋅ET=Σbb.a​​​
最终,条件概率分布P(Xb∣Xa)\mathcal P(\mathcal X_b \mid \mathcal X_a)P(Xb​∣Xa​)表示如下:
P(Xb∣Xa)∼N(μb.a+ΣbaΣaa−1Xa,Σbb.a)\mathcal P(\mathcal X_b \mid\mathcal X_a) \sim \mathcal N(\mu_{b.a} + \Sigma_{ba} \Sigma_{aa}^{-1} \mathcal X_a , \quad \Sigma_{bb.a})P(Xb​∣Xa​)∼N(μb.a​+Σba​Σaa−1​Xa​,Σbb.a​)

关于P(Xb∣Xa)\mathcal P(\mathcal X_b \mid \mathcal X_a)P(Xb​∣Xa​)的个人解释

最大的疑问点在于给出了Xb\mathcal X_bXb​的表示
Xb=Xb.a+ΣbaΣaa−1Xa\mathcal X_b = \mathcal X_{b.a} + \Sigma_{ba} \Sigma_{aa}^{-1} \mathcal X_aXb​=Xb.a​+Σba​Σaa−1​Xa​
为什么等式右边关于Xb\mathcal X_bXb​的表示,它的期望、方差组成的概率分布是条件概率分布
Xb∣Xa→?N(μb.a+ΣbaΣaa−1Xa,Σbb.a)\mathcal X_b \mid \mathcal X_a \overset{\text{?}}{\to} \mathcal N(\mu_{b.a} + \Sigma_{ba} \Sigma_{aa}^{-1} \mathcal X_a , \quad \Sigma_{bb.a})Xb​∣Xa​→?N(μb.a​+Σba​Σaa−1​Xa​,Σbb.a​)

针对该场景,条件概率P(Xb∣Xa)\mathcal P(\mathcal X_b \mid \mathcal X_a)P(Xb​∣Xa​)的本质是给定Xa\mathcal X_aXa​的条件下,Xb\mathcal X_bXb​的概率分布。思路可以理解成 由已知随机变量集合Xa\mathcal X_aXa​参与的,关于Xb\mathcal X_bXb​的概率分布
基于这种思路,创建了中间量Xb.a\mathcal X_{b.a}Xb.a​。这个中间量本身没有实际意义,但是这个中间量的出现,使得对Xb\mathcal X_bXb​的均值、方差的表示有了Xa\mathcal X_aXa​的参与,并且所有参数都是已知的

相关参考:
概率分布——百度百科
机器学习-数学基础-概率-高斯分布5-已知联合概率分布求边缘概率及条件概率

相关内容

热门资讯

安卓系统音乐软件推荐,五大热门... 你有没有发现,手机里音乐软件那么多,挑一款适合自己的真心不容易啊!安卓系统上的音乐软件更是五花八门,...
安卓系统刷三星系统,轻松刷入最... 你有没有想过,你的安卓手机其实可以变身成三星的旗舰机呢?没错,就是那种屏幕大、性能强、系统流畅的旗舰...
塞班系统可以转为安卓,跨越时代... 你知道吗?现在科技的发展真是让人眼花缭乱,连我们曾经熟悉的塞班系统也能华丽转身,变成安卓系统呢!是不...
安卓系统如何录像剪辑,录像剪辑... 亲爱的手机控们,你是否有过这样的经历:在某个瞬间,你捕捉到了一段令人难忘的画面,却因为没来得及记录而...
安卓系统强行提高配置,配置提升... 最近你的安卓手机是不是感觉有点儿“发烧”了?没错,就是那种配置突然“升级”的感觉。你是不是也觉得,手...
安卓系统能做设计吗,探索安卓系... 你有没有想过,安卓系统竟然也能做设计?是的,你没听错,这个我们日常使用的手机操作系统,竟然也能成为设...
安卓系统几年后使用,探索多年使... 你有没有想过,那些陪伴我们多年的安卓手机,它们现在过得怎么样了呢?安卓系统,这个曾经让我们爱恨交加的...
平板安卓苹果双系统,安卓与苹果... 你有没有想过,拥有一台既能运行安卓系统,又能使用苹果系统的平板电脑,那该是多么酷炫的事情啊!想象一边...
嘉和病历系统安卓,便捷医疗信息... 你有没有听说过嘉和病历系统安卓版?这可是医疗行业的一大神器呢!想象医生们拿着手机就能轻松管理病历,患...
安卓10更改系统号,揭秘系统编... 你知道吗?最近安卓系统又来了一次大更新,安卓10正式上线了!这次更新可是带来了不少新功能,其中最引人...
小米墨水屏 安卓系统,融合科技... 你知道吗?在科技日新月异的今天,电子阅读器市场也迎来了新的活力。而小米,这个我们熟悉的品牌,最近推出...
系统软件最少的安卓系统,基于最... 你有没有想过,手机系统就像是我们生活的操作系统,有时候太复杂了,让人感觉头都大了。今天,我要给你介绍...
安卓系统关闭应用推荐,安卓系统... 你有没有发现,手机里的安卓系统最近有点儿“小情绪”,总是给你推荐一些你根本不感兴趣的应用?别急,今天...
车载安卓系统如何用,智能驾驶体... 你有没有想过,你的车载安卓系统其实是个隐藏的宝库呢?没错,就是那个你每天开车时几乎不离手的那个屏幕,...
安卓系统更新如何取消,```p... 你有没有遇到过这种情况:安卓手机的系统更新推送得让人有点头疼,有时候更新后的系统还各种不适应。别急,...
安卓系统源码修改练习,从零开始... 亲爱的技术爱好者,你是否曾梦想过深入安卓系统的内核,亲手修改源码,让手机变得更加个性化?那就让我们一...
安卓考勤系统论文,基于安卓平台... 你有没有想过,每天打卡上班,是不是也能变得有趣起来呢?没错,就是那个我们每天都要面对的安卓考勤系统。...
安卓系统哪家流畅度,安卓系统流... 手机里的安卓系统,就像是每个人的小世界,各有各的风采。但说到流畅度,这可是大家最关心的问题了。今天,...
安卓开不了定位系统,安卓设备定... 最近是不是发现你的安卓手机定位系统突然罢工了?别急,别慌,今天就来给你详细解析一下这个问题,让你轻松...
安卓系统怎么设置airpod,... 你有没有发现,自从AirPods问世以来,它就成为了科技界的宠儿?这款无线耳机不仅音质出众,而且连接...