机器学习笔记之贝叶斯线性回归(二)推断任务推导过程
admin
2024-02-17 16:42:16
0

机器学习笔记之贝叶斯线性回归——推断任务推导过程

  • 引言
    • 回顾:贝叶斯线性回归——推断任务
    • 推导过程

引言

上一节对贝叶斯算法在线性回归中的任务进行介绍,本节将介绍贝叶斯线性回归推断任务的推导过程

回顾:贝叶斯线性回归——推断任务

贝叶斯线性回归中的推断任务(Inference)本质上是求解模型参数W\mathcal WW的后验概率结果P(W∣Data)\mathcal P(\mathcal W \mid Data)P(W∣Data)
其中DataDataData表示数据集合,包含样本集合X\mathcal XX和对应标签集合Y\mathcal YY.
P(W∣Data)=P(Y∣W,X)⋅P(W)∫WP(Y∣W,X)⋅P(W)dW∝P(Y∣W,X)⋅P(W)\begin{aligned} \mathcal P(\mathcal W \mid Data) & = \frac{\mathcal P(\mathcal Y \mid \mathcal W,\mathcal X) \cdot \mathcal P(\mathcal W)}{\int_{\mathcal W} \mathcal P(\mathcal Y \mid \mathcal W,\mathcal X) \cdot \mathcal P(\mathcal W) d\mathcal W} \\ & \propto \mathcal P(\mathcal Y \mid \mathcal W,\mathcal X) \cdot \mathcal P(\mathcal W) \end{aligned}P(W∣Data)​=∫W​P(Y∣W,X)⋅P(W)dWP(Y∣W,X)⋅P(W)​∝P(Y∣W,X)⋅P(W)​
其中P(Y∣W,X)\mathcal P(\mathcal Y \mid \mathcal W,\mathcal X)P(Y∣W,X)是似然(Likelihood),根据线性回归模型的定义,P(Y∣W,X)\mathcal P(\mathcal Y \mid \mathcal W,\mathcal X)P(Y∣W,X)服从高斯分布
各样本之间’独立同分布‘~
Y=WTX+ϵϵ∼N(0,σ2)P(Y∣W,X)∼N(WTX,σ2)=∏i=1NN(WTx(i),σ2)\begin{aligned} \mathcal Y & = \mathcal W^T\mathcal X + \epsilon \quad \epsilon \sim \mathcal N(0,\sigma^2) \\ \mathcal P(\mathcal Y \mid \mathcal W,\mathcal X) & \sim \mathcal N(\mathcal W^T \mathcal X,\sigma^2) \\ & = \prod_{i=1}^N \mathcal N(\mathcal W^Tx^{(i)},\sigma^2) \end{aligned}YP(Y∣W,X)​=WTX+ϵϵ∼N(0,σ2)∼N(WTX,σ2)=i=1∏N​N(WTx(i),σ2)​
P(W)\mathcal P(\mathcal W)P(W)表示先验分布(Piror Distribution),表示推断前给定的初始分布。这里假设P(W)\mathcal P(\mathcal W)P(W)同样服从高斯分布
先验分布P(W)\mathcal P(\mathcal W)P(W)的完整表达是P(W∣X)\mathcal P(\mathcal W \mid \mathcal X)P(W∣X),这里W\mathcal WW和样本X\mathcal XX无关,故省略。
P(W)∼N(0,Σprior)\mathcal P(\mathcal W) \sim \mathcal N(0,\Sigma_{prior})P(W)∼N(0,Σprior​)
根据指数族分布的共轭性质 以及高斯分布自身的自共轭性质,后验P(W∣Data)\mathcal P(\mathcal W \mid Data)P(W∣Data)同样服从高斯分布。定义其高斯分布为N(μW,ΣW)\mathcal N(\mu_{\mathcal W},\Sigma_{\mathcal W})N(μW​,ΣW​),具体表达如下:
N(μW,ΣW)∝N(WTX,σ2)⋅N(0,Σprior)=[∏i=1NN(y(i)∣WTx(i),σ2)]⋅N(0,Σprior)\begin{aligned} \mathcal N(\mu_{\mathcal W},\Sigma_{\mathcal W}) & \propto \mathcal N(\mathcal W^T\mathcal X,\sigma^2) \cdot \mathcal N(0,\Sigma_{prior}) \\ & = \left[\prod_{i=1}^N \mathcal N(y^{(i)} \mid \mathcal W^Tx^{(i)},\sigma^2)\right] \cdot \mathcal N(0,\Sigma_{prior}) \end{aligned}N(μW​,ΣW​)​∝N(WTX,σ2)⋅N(0,Σprior​)=[i=1∏N​N(y(i)∣WTx(i),σ2)]⋅N(0,Σprior​)​

推断任务的目的就是求解N(μW,ΣW)\mathcal N(\mu_{\mathcal W},\Sigma_{\mathcal W})N(μW​,ΣW​)的分布形式,即求解分布参数μW,ΣW\mu_{\mathcal W},\Sigma_{\mathcal W}μW​,ΣW​。

推导过程

首先观察似然的概率分布,并进行展开:
需要注意的是:N(y(i)∣WTx(i),σ2)(i=1,2,⋯,N)\mathcal N(y^{(i)} \mid \mathcal W^Tx^{(i)},\sigma^2)(i=1,2,\cdots,N)N(y(i)∣WTx(i),σ2)(i=1,2,⋯,N)是一维高斯分布。

P(Y∣W,X)∼∏i=1NN(y(i)∣WTx(i),σ2)=∏i=1N1σ2πexp⁡[−12σ2(y(i)−WTx(i))2]\begin{aligned} \mathcal P(\mathcal Y \mid \mathcal W,\mathcal X) & \sim \prod_{i=1}^N \mathcal N(y^{(i)} \mid \mathcal W^Tx^{(i)},\sigma^2) \\ & = \prod_{i=1}^N \frac{1}{\sigma \sqrt{2\pi}} \exp\left[-\frac{1}{2 \sigma^2} \left(y^{(i)} - \mathcal W^T x^{(i)}\right)^2\right] \end{aligned}P(Y∣W,X)​∼i=1∏N​N(y(i)∣WTx(i),σ2)=i=1∏N​σ2π​1​exp[−2σ21​(y(i)−WTx(i))2]​
连乘符号∏\prod∏代入exp⁡\expexp中,并使用矩阵乘法的方式进行描述:
主要是对∑i=1N(y(i)−WTx(i))2\sum_{i=1}^N \left(y^{(i)} - \mathcal W^Tx^{(i)}\right)^2∑i=1N​(y(i)−WTx(i))2进行变换,变换结果表示如下:传送门
∑i=1N(y(i)−WTx(i))2=(y(1)−WTx(1),⋯,y(N)−WTx(N))(y(1)−WTx(1)⋮y(N)−WTx(N))=(YT−WTXT)(Y−XW)=(Y−XW)T(Y−XW)\begin{aligned} \sum_{i=1}^N \left(y^{(i)} - \mathcal W^Tx^{(i)}\right)^2 & = \left(y^{(1)} - \mathcal W^Tx^{(1)},\cdots,y^{(N)} - \mathcal W^Tx^{(N)}\right) \begin{pmatrix}y^{(1)} - \mathcal W^Tx^{(1)} \\ \vdots \\ y^{(N)} - \mathcal W^Tx^{(N)}\end{pmatrix} \\ & = (\mathcal Y^T - \mathcal W^T\mathcal X^T)(\mathcal Y - \mathcal X\mathcal W) \\ & = (\mathcal Y - \mathcal X \mathcal W)^T(\mathcal Y -\mathcal X \mathcal W) \end{aligned}i=1∑N​(y(i)−WTx(i))2​=(y(1)−WTx(1),⋯,y(N)−WTx(N))⎝⎜⎛​y(1)−WTx(1)⋮y(N)−WTx(N)​⎠⎟⎞​=(YT−WTXT)(Y−XW)=(Y−XW)T(Y−XW)​
12σ2\frac{1}{2\sigma^2}2σ21​iii无关,拿到连加号外面,I\mathcal II表示单位矩阵。
=1(2π)N2σNexp⁡[−12σ2∑i=1N(y(i)−WTx(i))2]=1(2π)N2σNexp⁡[−12(Y−XW)Tσ−2I(Y−XW)]\begin{aligned} & = \frac{1}{(2\pi)^{\frac{N}{2}}\sigma^N} \exp \left[-\frac{1}{2\sigma^2} \sum_{i=1}^N \left(y^{(i)} - \mathcal W^Tx^{(i)}\right)^2\right] \\ & = \frac{1}{(2\pi)^{\frac{N}{2}}\sigma^N} \exp \left[- \frac{1}{2} (\mathcal Y - \mathcal X \mathcal W)^T \sigma^{-2} \mathcal I(\mathcal Y - \mathcal X \mathcal W)\right] \end{aligned}​=(2π)2N​σN1​exp[−2σ21​i=1∑N​(y(i)−WTx(i))2]=(2π)2N​σN1​exp[−21​(Y−XW)Tσ−2I(Y−XW)]​
观察上式,上式同样也是高斯分布的表达格式,这也从侧面证明后验概率P(Y∣W,X)\mathcal P(\mathcal Y \mid \mathcal W,\mathcal X)P(Y∣W,X)确实服从高斯分布。上述高斯分布格式可化简为:
中间的项σ−2I\sigma^{-2} \mathcal Iσ−2I表示’精度矩阵‘。需要注意~
P(Y∣W,X)∼N(XW,σ2I)\mathcal P(\mathcal Y \mid \mathcal W,\mathcal X) \sim \mathcal N(\mathcal X\mathcal W,\sigma^2 \mathcal I)P(Y∣W,X)∼N(XW,σ2I)
至此,后验分布P(W∣Data)\mathcal P(\mathcal W \mid Data)P(W∣Data)可表示为:
P(W∣Data)∝N(XW,σ2I)⋅N(0,Σprior)\mathcal P(\mathcal W \mid Data) \propto \mathcal N(\mathcal X \mathcal W,\sigma^2 \mathcal I) \cdot \mathcal N(0,\Sigma_{prior})P(W∣Data)∝N(XW,σ2I)⋅N(0,Σprior​)
言归正传,如何求解μW,ΣW\mu_{\mathcal W},\Sigma_{\mathcal W}μW​,ΣW​?
对上式进行如下转换:
这里只关心与W\mathcal WW相关的项,其他的项均视作常数。
P(W∣Data)∝{1(2π)N2σNexp⁡[−12(Y−XW)Tσ−2I(Y−XW)]}⋅{1(2π)p2∣Σprior∣12[−12WTΣprior−1W]}∝exp⁡[−12(Y−XW)Tσ−2I(Y−XW)]⋅exp⁡[−12WTΣprior−1W]=exp⁡{−12σ2(YT−WTXT)(Y−XW)−12WTΣprior−1W}\begin{aligned} \mathcal P(\mathcal W \mid Data) & \propto \left\{ \frac{1}{(2\pi)^{\frac{N}{2}}\sigma^N} \exp \left[- \frac{1}{2} (\mathcal Y - \mathcal X \mathcal W)^T \sigma^{-2} \mathcal I(\mathcal Y - \mathcal X \mathcal W)\right] \right\} \cdot \left\{\frac{1}{(2\pi)^{\frac{p}{2}}|\Sigma_{prior}|^{\frac{1}{2}}}\left[ - \frac{1}{2} \mathcal W^T \Sigma_{prior}^{-1}\mathcal W \right]\right\} \\ & \propto \exp \left[- \frac{1}{2} (\mathcal Y - \mathcal X \mathcal W)^T \sigma^{-2} \mathcal I(\mathcal Y - \mathcal X \mathcal W)\right] \cdot \exp \left[- \frac{1}{2} \mathcal W^T \Sigma_{prior}^{-1}\mathcal W\right] \\ & = \exp \left\{-\frac{1}{2\sigma^2}(\mathcal Y^T - \mathcal W^T\mathcal X^T)(\mathcal Y - \mathcal X\mathcal W) - \frac{1}{2} \mathcal W^T\Sigma_{prior}^{-1} \mathcal W\right\} \end{aligned}P(W∣Data)​∝{(2π)2N​σN1​exp[−21​(Y−XW)Tσ−2I(Y−XW)]}⋅{(2π)2p​∣Σprior​∣21​1​[−21​WTΣprior−1​W]}∝exp[−21​(Y−XW)Tσ−2I(Y−XW)]⋅exp[−21​WTΣprior−1​W]=exp{−2σ21​(YT−WTXT)(Y−XW)−21​WTΣprior−1​W}​
思路:使用配方法,将上式化简为12(W−μW)TΣW−1(W−μW)\frac{1}{2}(\mathcal W - \mu_{\mathcal W})^T\Sigma_{\mathcal W}^{-1}(\mathcal W - \mu_{\mathcal W})21​(W−μW​)TΣW−1​(W−μW​)的格式,从而求出μW,ΣW−1\mu_{\mathcal W},\Sigma_{\mathcal W}^{-1}μW​,ΣW−1​。
我们先对12(W−μW)TΣW−1(W−μW)\frac{1}{2}(\mathcal W - \mu_{\mathcal W})^T\Sigma_{\mathcal W}^{-1}(\mathcal W - \mu_{\mathcal W})21​(W−μW​)TΣW−1​(W−μW​)进行展开:用Δ\DeltaΔ表示。
这里的μWTΣW−1W\mu_{\mathcal W}^T \Sigma_{\mathcal W}^{-1} \mathcal WμWT​ΣW−1​WWTΣW−1μW\mathcal W^T\Sigma_{\mathcal W}^{-1}\mu_{\mathcal W}WTΣW−1​μW​互为转置并且均表示实数,因而有:μWTΣW−1W=WTΣW−1μW\mu_{\mathcal W}^T \Sigma_{\mathcal W}^{-1} \mathcal W = \mathcal W^T\Sigma_{\mathcal W}^{-1}\mu_{\mathcal W}μWT​ΣW−1​W=WTΣW−1​μW​.
Δ=−12[WTΣW−1W−μWTΣW−1W−WTΣW−1μW+μWTΣW−1μW]=−12[WTΣW−1W−2μWTΣW−1W+μWTΣW−1μW]\begin{aligned} \Delta & = -\frac{1}{2} \left[\mathcal W^T\Sigma_{\mathcal W}^{-1} \mathcal W - \mu_{\mathcal W}^T \Sigma_{\mathcal W}^{-1} \mathcal W - \mathcal W^T\Sigma_{\mathcal W}^{-1}\mu_{\mathcal W} + \mu_{\mathcal W}^T\Sigma_{\mathcal W}^{-1} \mu_{\mathcal W}\right] \\ & = -\frac{1}{2} \left[\mathcal W^T\Sigma_{\mathcal W}^{-1} \mathcal W - 2 \mu_{\mathcal W}^T \Sigma_{\mathcal W}^{-1} \mathcal W + \mu_{\mathcal W}^T\Sigma_{\mathcal W}^{-1} \mu_{\mathcal W}\right] \end{aligned}Δ​=−21​[WTΣW−1​W−μWT​ΣW−1​W−WTΣW−1​μW​+μWT​ΣW−1​μW​]=−21​[WTΣW−1​W−2μWT​ΣW−1​W+μWT​ΣW−1​μW​]​
其中二次项是−12WTΣW−1W- \frac{1}{2}\mathcal W^T\Sigma_{\mathcal W}^{-1} \mathcal W−21​WTΣW−1​W,一次项是μWTΣW−1W\mu_{\mathcal W}^T \Sigma_{\mathcal W}^{-1} \mathcal WμWT​ΣW−1​W,常数项是−12μWTΣW−1μW-\frac{1}{2}\mu_{\mathcal W}^T\Sigma_{\mathcal W}^{-1} \mu_{\mathcal W}−21​μWT​ΣW−1​μW​。对比这三项去寻找目标结果的相应项。
对上式完全展开
观察YTXW\mathcal Y^T\mathcal X\mathcal WYTXWWTXTY\mathcal W^T\mathcal X^T\mathcal YWTXTY这两项,它们是互为转置,并且均表示实数。因此有:YTXW=WTXTY\mathcal Y^T\mathcal X\mathcal W = \mathcal W^T\mathcal X^T\mathcal YYTXW=WTXTY。
P(W∣Data)∝exp⁡{−12σ2(YTY−YTXW−WTXTY+WTXTXW)−12WTΣpiror−1W}=exp⁡{−12σ2(YTY−2YTXW+WTXTXW)−12WTΣpiror−1W}\begin{aligned} \mathcal P(\mathcal W \mid Data) & \propto \exp \left\{- \frac{1}{2\sigma^2} (\mathcal Y^T\mathcal Y - \mathcal Y^T\mathcal X\mathcal W - \mathcal W^T\mathcal X^T\mathcal Y + \mathcal W^T\mathcal X^T\mathcal X\mathcal W) - \frac{1}{2} \mathcal W^T\Sigma_{piror}^{-1}\mathcal W\right\} \\ & = \exp\left\{- \frac{1}{2\sigma^2} \left(\mathcal Y^T\mathcal Y - 2\mathcal Y^T\mathcal X\mathcal W + \mathcal W^T\mathcal X^T\mathcal X\mathcal W\right)- \frac{1}{2} \mathcal W^T\Sigma_{piror}^{-1}\mathcal W\right\} \end{aligned}P(W∣Data)​∝exp{−2σ21​(YTY−YTXW−WTXTY+WTXTXW)−21​WTΣpiror−1​W}=exp{−2σ21​(YTY−2YTXW+WTXTXW)−21​WTΣpiror−1​W}​

  • 观察:该式中的二次项有
    −12σ2WTXTXW−12WTΣprior−1W=−12[WT(σ−2XTX+Σprior−1)W]- \frac{1}{2\sigma^2} \mathcal W^T\mathcal X^T\mathcal X\mathcal W - \frac{1}{2} \mathcal W^T\Sigma_{prior}^{-1}\mathcal W = - \frac{1}{2} \left[\mathcal W^T \left(\sigma^{-2} \mathcal X^T\mathcal X + \Sigma_{prior}^{-1}\right) \mathcal W\right]−2σ21​WTXTXW−21​WTΣprior−1​W=−21​[WT(σ−2XTX+Σprior−1​)W]
    对比一下Δ\DeltaΔ可以发现:ΣW−1=σ−2XTX+Σprior−1\Sigma_{\mathcal W}^{-1} = \sigma^{-2} \mathcal X^T\mathcal X + \Sigma_{prior}^{-1}ΣW−1​=σ−2XTX+Σprior−1​。
    这里令A=ΣW−1\mathcal A = \Sigma_{\mathcal W}^{-1}A=ΣW−1​
    {−12[WT(σ−2XTX+Σprior−1)W]−12WTΣW−1W\begin{cases} -\frac{1}{2}\left[\mathcal W^T \left(\sigma^{-2} \mathcal X^T\mathcal X + \Sigma_{prior}^{-1}\right) \mathcal W\right] \\ -\frac{1}{2}\mathcal W^T\Sigma_{\mathcal W}^{-1} \mathcal W \end{cases}{−21​[WT(σ−2XTX+Σprior−1​)W]−21​WTΣW−1​W​
  • 同理,该式中的一次项只有一项:
    −12σ2⋅(−2)YTXW=YTXσ2W- \frac{1}{2\sigma^2} \cdot (-2)\mathcal Y^T\mathcal X\mathcal W = \frac{\mathcal Y^T\mathcal X}{\sigma^2}\mathcal W−2σ21​⋅(−2)YTXW=σ2YTX​W
    对比一下Δ\DeltaΔ可以发现:μWTΣW−1=μWTA=YTXσ2\mu_{\mathcal W}^T\Sigma_{\mathcal W}^{-1} = \mu_{\mathcal W}^T \mathcal A = \frac{\mathcal Y^T\mathcal X}{\sigma^2}μWT​ΣW−1​=μWT​A=σ2YTX​
    {YTXσ2WμWTΣW−1W\begin{cases} \frac{\mathcal Y^T\mathcal X}{\sigma^2}\mathcal W \\ \mu_{\mathcal W}^T \Sigma_{\mathcal W}^{-1} \mathcal W \end{cases}{σ2YTX​WμWT​ΣW−1​W​

此时我们不需要在去观察’常数项部分‘。因为仅需要求解μW\mu_{\mathcal W}μW​ΣW\Sigma_{\mathcal W}ΣW​.此时已经得到了两个方程:
{μWTμW−1=YTXσ2μW−1=A\begin{cases} \mu_{\mathcal W}^T \mu_{\mathcal W}^{-1} = \frac{\mathcal Y^T\mathcal X} {\sigma^2} \\ \mu_{\mathcal W}^{-1} = \mathcal A \end{cases}{μWT​μW−1​=σ2YTX​μW−1​=A​
解这个方程,有:
{μW=A−1XYσ2ΣW−1=A\begin{cases} \mu_{\mathcal W} = \frac{\mathcal A^{-1}\mathcal X\mathcal Y}{\sigma^2} \\ \Sigma_{\mathcal W}^{-1} = \mathcal A \end{cases}{μW​=σ2A−1XY​ΣW−1​=A​

至此,μW,ΣW−1\mu_{\mathcal W},\Sigma_{\mathcal W}^{-1}μW​,ΣW−1​均已求解,那么后验概率分布P(W∣Data)\mathcal P(\mathcal W \mid Data)P(W∣Data)表示为:
P(W∣Data)∼N(μW,ΣW){μW=A−1XYσ2ΣW=A−1A=XTXσ2+Σpiror−1\begin{aligned} \mathcal P(\mathcal W \mid Data) \sim \mathcal N(\mu_{\mathcal W},\Sigma_{\mathcal W}) \quad \begin{cases} \mu_{\mathcal W} = \frac{\mathcal A^{-1}\mathcal X\mathcal Y}{\sigma^2} \\ \Sigma_{\mathcal W} = \mathcal A^{-1} \\ \mathcal A = \frac{\mathcal X^T\mathcal X}{\sigma^2} + \Sigma_{piror}^{-1} \end{cases} \end{aligned}P(W∣Data)∼N(μW​,ΣW​)⎩⎪⎨⎪⎧​μW​=σ2A−1XY​ΣW​=A−1A=σ2XTX​+Σpiror−1​​​

下一节将介绍预测任务(Prediction)。

相关参考:
机器学习-贝叶斯线性回归(3)-推导Inference

相关内容

热门资讯

【MySQL】锁 锁 文章目录锁全局锁表级锁表锁元数据锁(MDL)意向锁AUTO-INC锁...
【内网安全】 隧道搭建穿透上线... 文章目录内网穿透-Ngrok-入门-上线1、服务端配置:2、客户端连接服务端ÿ...
GCN的几种模型复现笔记 引言 本篇笔记紧接上文,主要是上一篇看写了快2w字,再去接入代码感觉有点...
数据分页展示逻辑 import java.util.Arrays;import java.util.List;impo...
Redis为什么选择单线程?R... 目录专栏导读一、Redis版本迭代二、Redis4.0之前为什么一直采用单线程?三、R...
【已解决】ERROR: Cou... 正确指令: pip install pyyaml
关于测试,我发现了哪些新大陆 关于测试 平常也只是听说过一些关于测试的术语,但并没有使用过测试工具。偶然看到编程老师...
Lock 接口解读 前置知识点Synchronized synchronized 是 Java 中的关键字,...
Win7 专业版安装中文包、汉... 参考资料:http://www.metsky.com/archives/350.htm...
3 ROS1通讯编程提高(1) 3 ROS1通讯编程提高3.1 使用VS Code编译ROS13.1.1 VS Code的安装和配置...
大模型未来趋势 大模型是人工智能领域的重要发展趋势之一,未来有着广阔的应用前景和发展空间。以下是大模型未来的趋势和展...
python实战应用讲解-【n... 目录 如何在Python中计算残余的平方和 方法1:使用其Base公式 方法2:使用statsmod...
学习u-boot 需要了解的m... 一、常用函数 1. origin 函数 origin 函数的返回值就是变量来源。使用格式如下...
常用python爬虫库介绍与简... 通用 urllib -网络库(stdlib)。 requests -网络库。 grab – 网络库&...
药品批准文号查询|药融云-中国... 药品批文是国家食品药品监督管理局(NMPA)对药品的审评和批准的证明文件...
【2023-03-22】SRS... 【2023-03-22】SRS推流搭配FFmpeg实现目标检测 说明: 外侧测试使用SRS播放器测...
有限元三角形单元的等效节点力 文章目录前言一、重新复习一下有限元三角形单元的理论1、三角形单元的形函数(Nÿ...
初级算法-哈希表 主要记录算法和数据结构学习笔记,新的一年更上一层楼! 初级算法-哈希表...
进程间通信【Linux】 1. 进程间通信 1.1 什么是进程间通信 在 Linux 系统中,进程间通信...
【Docker】P3 Dock... Docker数据卷、宿主机与挂载数据卷的概念及作用挂载宿主机配置数据卷挂载操作示例一个容器挂载多个目...