点估计:设总体XXX的分布函数为F(x;θ1,θ2,⋯,θl)F(x;\theta_1,\theta_2,\cdots,\theta_l)F(x;θ1,θ2,⋯,θl),其中θ1,θ2,⋯,θl\theta_1,\theta_2,\cdots,\theta_lθ1,θ2,⋯,θl是待估计的未知参数,(X1,X2,⋯,Xn)(X_1,X_2,\cdots,X_n)(X1,X2,⋯,Xn)是来自总体XXX的样本,(x1,x2,⋯,xn)(x_1,x_2,\cdots,x_n)(x1,x2,⋯,xn)是相应的样本值,点估计问题就是要构造lll个适当的统计量θ^i(X1,X2,⋯,Xn)(i=1,2,⋯,l)\hat{\theta}_i(X_1,X_2,\cdots,X_n)\,(i=1,2,\cdots,l)θ^i(X1,X2,⋯,Xn)(i=1,2,⋯,l),分别用观测值θ^i(x1,x2,⋯,xn)\hat{\theta}_i(x_1,x_2,\cdots,x_n)θ^i(x1,x2,⋯,xn)作为未知参数θi\theta_iθi的估计值。
估计量:估计用的统计量θ^i(X1,X2,⋯,Xn)\hat{\theta}_i(X_1,X_2,\cdots,X_n)θ^i(X1,X2,⋯,Xn)
估计值:估计量的观测值θ^i(x1,x2,⋯,xn)\hat{\theta}_i(x_1,x_2,\cdots,x_n)θ^i(x1,x2,⋯,xn)
在不致混淆的情况下统称估计量和估计值为估计,并都简记为θ^i\hat{\theta}_iθ^i。
估计量是样本的函数,是随机变量,不同的样本值得到的估计值往往是不同的。
设总体XXX的前lll阶原点矩αk=E(Xk)(k=1,2,⋯,l)\alpha_k=E\left(X^k\right)\,(k=1,2,\cdots,l)αk=E(Xk)(k=1,2,⋯,l)存在,且都是θ1,θ2,⋯,θl\theta_1,\theta_2,\cdots,\theta_lθ1,θ2,⋯,θl的函数,即αk=αk(θ1,θ2,⋯,θl)\alpha_k=\alpha_k(\theta_1,\theta_2,\cdots,\theta_l)αk=αk(θ1,θ2,⋯,θl)。把总体原点矩用样本原点矩代替(αk→Ak\alpha_k\to A_kαk→Ak),未知参数用其估计量代替(θi→θ^i\theta_i\to\hat{\theta}_iθi→θ^i),得{α1(θ^1,θ^2,⋯,θ^l)=A1α2(θ^1,θ^2,⋯,θ^l)=A2⋯αl(θ^1,θ^2,⋯,θ^l)=Al\begin{cases} \alpha_1\left(\hat{\theta}_1,\hat{\theta}_2,\cdots,\hat{\theta}_l\right)=A_1\\ \alpha_2\left(\hat{\theta}_1,\hat{\theta}_2,\cdots,\hat{\theta}_l\right)=A_2\\ \cdots\\ \alpha_l\left(\hat{\theta}_1,\hat{\theta}_2,\cdots,\hat{\theta}_l\right)=A_l \end{cases}⎩⎨⎧α1(θ^1,θ^2,⋯,θ^l)=A1α2(θ^1,θ^2,⋯,θ^l)=A2⋯αl(θ^1,θ^2,⋯,θ^l)=Al解此方程组可得θ^1,θ^2,⋯,θ^l\hat{\theta}_1,\hat{\theta}_2,\cdots,\hat{\theta}_lθ^1,θ^2,⋯,θ^l(是A1,A2,⋯,AkA_1,A_2,\cdots,A_kA1,A2,⋯,Ak的函数),并将它们分别作为θ1,θ2,⋯,θl\theta_1,\theta_2,\cdots,\theta_lθ1,θ2,⋯,θl的估计量。A1A_1A1一般写作X‾\overline{X}X。
矩估计法的理论依据是大数定律,当nnn充分大时,样本矩AkA_kAk以很大的概率落在总体矩αk\alpha_kαk的附近,因此可用AkA_kAk作为αk\alpha_kαk的矩估计量。
例 X~U(0,θ)\newcommand{\td}{\,\text{\large\textasciitilde}\,}X\td U(0,\theta)X~U(0,θ),求θ\thetaθ的矩估计量。
解:我们知道α1=E(X)=θ2\alpha_1=E(X)=\frac{\theta}{2}α1=E(X)=2θ把α1\alpha_1α1换成A1A_1A1(X‾\overline{X}X),θ\thetaθ换成θ^\hat{\theta}θ^得X‾=θ^2\overline{X}=\frac{\hat{\theta}}{2}X=2θ^因此θ\thetaθ的矩估计量为θ^=2X‾\hat{\theta}=2\overline{X}θ^=2X。
矩估计法不必知道总体的分布,优点是简单直接,但缺点是只利用了总体的局部特性而没有充分利用总体的信息。
思想:若存在某一分布,使得在此分布下抽中(x1,x2,⋯,xn)(x_1,x_2,\cdots,x_n)(x1,x2,⋯,xn)的概率最大,则认为(x1,x2,⋯,xn)(x_1,x_2,\cdots,x_n)(x1,x2,⋯,xn)来自这一分布。
似然函数:若总体XXX是离散型或连续型随机变量,其分布律为P{X=x}=p(x;θ1,θ2,⋯,θl)P\{X=x\}=p(x;\theta_1,\theta_2,\cdots,\theta_l)P{X=x}=p(x;θ1,θ2,⋯,θl),或其概率密度为f(x;θ1,θ2,⋯,θl)f(x;\theta_1,\theta_2,\cdots,\theta_l)f(x;θ1,θ2,⋯,θl),其中θ1,θ2,⋯,θl\theta_1,\theta_2,\cdots,\theta_lθ1,θ2,⋯,θl为未知参数,在参数空间Θ\ThetaΘ内取值,变量xxx在随机变量XXX的可能取值范围内取值。设(X1,X2,⋯,Xn)(X_1,X_2,\cdots,X_n)(X1,X2,⋯,Xn)是来自总体XXX的样本,则(X1,X2,⋯,Xn)(X_1,X_2,\cdots,X_n)(X1,X2,⋯,Xn)的分布律为L(x1,x2,⋯,xn;θ1,θ2,⋯,θl)=P{X1=x1,X2=x2,⋯,Xn=xn}=∏i=1np(xi;θ1,θ2,⋯,θl)\begin{aligned} L(x_1,x_2,\cdots,x_n;\theta_1,\theta_2,\cdots,\theta_l)&=P\{X_1=x_1,X_2=x_2,\cdots,X_n=x_n\}\\ &=\prod\limits_{i=1}^n p(x_i;\theta_1,\theta_2,\cdots,\theta_l) \end{aligned}L(x1,x2,⋯,xn;θ1,θ2,⋯,θl)=P{X1=x1,X2=x2,⋯,Xn=xn}=i=1∏np(xi;θ1,θ2,⋯,θl)或概率密度为L(x1,x2,⋯,xn;θ1,θ2,⋯,θl)=∏i=1nf(xi;θ1,θ2,⋯,θl)L(x_1,x_2,\cdots,x_n;\theta_1,\theta_2,\cdots,\theta_l)=\prod\limits_{i=1}^n f(x_i;\theta_1,\theta_2,\cdots,\theta_l) L(x1,x2,⋯,xn;θ1,θ2,⋯,θl)=i=1∏nf(xi;θ1,θ2,⋯,θl)当固定(x1,x2,⋯,xn)(x_1,x_2,\cdots,x_n)(x1,x2,⋯,xn),把LLL看成是θ1,θ2,⋯,θl\theta_1,\theta_2,\cdots,\theta_lθ1,θ2,⋯,θl的定义于Θ\ThetaΘ上的函数时,它称为参数θ1,θ2,⋯,θl\theta_1,\theta_2,\cdots,\theta_lθ1,θ2,⋯,θl的似然函数,并简记为L(θ1,θ2,⋯,θl)L(\theta_1,\theta_2,\cdots,\theta_l)L(θ1,θ2,⋯,θl)。即:似然函数就是样本的分布律/概率密度,然后看成参数的函数。
对数似然函数:似然函数的对数lnL(θ1,θ2,⋯,θl)\ln L(\theta_1,\theta_2,\cdots,\theta_l)lnL(θ1,θ2,⋯,θl)称为对数似然函数。
最大似然估计法:得到样本值(x1,x2,⋯,xn)(x_1,x_2,\cdots,x_n)(x1,x2,⋯,xn)后,取θ^1,θ^2,⋯,θ^n\hat{\theta}_1,\hat{\theta}_2,\cdots,\hat{\theta}_nθ^1,θ^2,⋯,θ^n使得L(θ^1,θ^2,⋯,θ^n)=max(θ1,θ2,⋯,θl)∈ΘL(θ1,θ2,⋯,θl)L(\hat{\theta}_1,\hat{\theta}_2,\cdots,\hat{\theta}_n)=\max\limits_{(\theta_1,\theta_2,\cdots,\theta_l)\in\Theta}L(\theta_1,\theta_2,\cdots,\theta_l) L(θ^1,θ^2,⋯,θ^n)=(θ1,θ2,⋯,θl)∈ΘmaxL(θ1,θ2,⋯,θl)这样得到的θ^1,θ^2,⋯,θ^n\hat{\theta}_1,\hat{\theta}_2,\cdots,\hat{\theta}_nθ^1,θ^2,⋯,θ^n与样本值(x1,x2,⋯,xn)(x_1,x_2,\cdots,x_n)(x1,x2,⋯,xn)有关,记为θ^i=θ^i(x1,x2,⋯,xn)\hat{\theta}_i=\hat{\theta}_i(x_1,x_2,\cdots,x_n)θ^i=θ^i(x1,x2,⋯,xn),并称为参数θi(i=1,2,⋯,l)\theta_i\,(i=1,2,\cdots,l)θi(i=1,2,⋯,l)的最大似然估计值,而相应的统计量θ^i=θ^i(X1,X2,⋯,Xn)(i=1,2,⋯,l)\hat{\theta}_i=\hat{\theta}_i(X_1,X_2,\cdots,X_n)\,(i=1,2,\cdots,l)θ^i=θ^i(X1,X2,⋯,Xn)(i=1,2,⋯,l)称为参数θi\theta_iθi的最大似然估计量。
由于lnx\ln xlnx是xxx的单调增函数,所以LLL取最大的时候lnL\ln LlnL也取最大,我们也可以考察lnL\ln LlnL的最大值。
在很多时候,LLL和lnL\ln LlnL关于参数θ1,θ2,⋯,θl\theta_1,\theta_2,\cdots,\theta_lθ1,θ2,⋯,θl的偏导数存在,此时θ^1,θ^2,⋯,θ^n\hat{\theta}_1,\hat{\theta}_2,\cdots,\hat{\theta}_nθ^1,θ^2,⋯,θ^n可从似然方程{∂L(θ1,θ2,⋯,θl)∂θ1=0∂L(θ1,θ2,⋯,θl)∂θ2=0⋯∂L(θ1,θ2,⋯,θl)∂θl=0\begin{cases} \cfrac{\partial L(\theta_1,\theta_2,\cdots,\theta_l)}{\partial\theta_1}=0\\ \cfrac{\partial L(\theta_1,\theta_2,\cdots,\theta_l)}{\partial\theta_2}=0\\ \cdots\\ \cfrac{\partial L(\theta_1,\theta_2,\cdots,\theta_l)}{\partial\theta_l}=0 \end{cases}⎩⎨⎧∂θ1∂L(θ1,θ2,⋯,θl)=0∂θ2∂L(θ1,θ2,⋯,θl)=0⋯∂θl∂L(θ1,θ2,⋯,θl)=0或对数似然方程{∂lnL(θ1,θ2,⋯,θl)∂θ1=0∂lnL(θ1,θ2,⋯,θl)∂θ2=0⋯∂lnL(θ1,θ2,⋯,θl)∂θl=0\begin{cases} \cfrac{\partial\ln L(\theta_1,\theta_2,\cdots,\theta_l)}{\partial\theta_1}=0\\ \cfrac{\partial\ln L(\theta_1,\theta_2,\cdots,\theta_l)}{\partial\theta_2}=0\\ \cdots\\ \cfrac{\partial\ln L(\theta_1,\theta_2,\cdots,\theta_l)}{\partial\theta_l}=0 \end{cases}⎩⎨⎧∂θ1∂lnL(θ1,θ2,⋯,θl)=0∂θ2∂lnL(θ1,θ2,⋯,θl)=0⋯∂θl∂lnL(θ1,θ2,⋯,θl)=0中解出。
例 设X~U(0,θ)\newcommand{\td}{\,\text{\large\textasciitilde}\,}X\td U(0,\theta)X~U(0,θ),求θ\thetaθ的最大似然估计量。
解:XXX的概率密度为f(x;θ)={1θ,0≤x≤θ0,其他f(x;\theta)=\begin{cases}\frac{1}{\theta},&0\le x\le\theta\\0,&\text{其他}\end{cases} f(x;θ)={θ1,0,0≤x≤θ其他则样本(X1,X2,⋯,Xn)(X_1,X_2,\cdots,X_n)(X1,X2,⋯,Xn)的联合概率密度为f(x1,x2,⋯,xn;θ)=∏i=1nf(xi;θ)={1θn,0≤x1,x2,⋯,xn≤θ0,其他f(x_1,x_2,\cdots,x_n;\theta)=\prod\limits_{i=1}^n f(x_i;\theta)=\begin{cases} \frac{1}{\theta^n},&0\le x_1,x_2,\cdots,x_n\le\theta\\ 0,&\text{其他} \end{cases} f(x1,x2,⋯,xn;θ)=i=1∏nf(xi;θ)={θn1,0,0≤x1,x2,⋯,xn≤θ其他把它看作θ\thetaθ的函数(x1,x2,⋯,xnx_1,x_2,\cdots,x_nx1,x2,⋯,xn为已知),那么θ\thetaθ的似然函数为L(θ)={1θn,θ≥max{x1,x2,⋯,xn}0,其他L(\theta)=\begin{cases} \frac{1}{\theta^n},&\theta\ge\max\{x_1,x_2,\cdots,x_n\}\\ 0,&\text{其他} \end{cases} L(θ)={θn1,0,θ≥max{x1,x2,⋯,xn}其他这个函数我们不用求导就能求出最大值。首先,它在θ≥max{x1,x2,⋯,xn}\theta\ge\max\{x_1,x_2,\cdots,x_n\}θ≥max{x1,x2,⋯,xn}时才是正数;其次,在θ\thetaθ满足这个条件的情况下,因为θn\theta^nθn在分母,所以我们希望θ\thetaθ尽量小。因此当θ=max{x1,x2,⋯,xn}\theta=\max\{x_1,x_2,\cdots,x_n\}θ=max{x1,x2,⋯,xn}时L(θ)L(\theta)L(θ)取最大值。θ\thetaθ的最大似然估计量为θ^=X(n)\hat{\theta}=X_{(n)}θ^=X(n)。这与矩估计法求得的估计量不同。
无偏估计量:设(X1,X2,⋯,Xn)(X_1,X_2,\cdots,X_n)(X1,X2,⋯,Xn)是来自总体XXX的一个样本,θ\thetaθ是包含在XXX的分布中的未知参数,θ\thetaθ的取值范围为Θ\ThetaΘ,θ^=θ^(X1,X2,⋯,Xn)\hat{\theta}=\hat{\theta}(X_1,X_2,\cdots,X_n)θ^=θ^(X1,X2,⋯,Xn)是θ\thetaθ的一个估计量。若∀θ∈Θ\forall\theta\in\Theta∀θ∈Θ,E(θ^)=θE\left(\hat{\theta}\right)=\thetaE(θ^)=θ,则称θ^\hat{\theta}θ^是θ\thetaθ的一个无偏估计量。
有偏估计量:有偏差的估计量,其中偏差(简称偏)等于E(θ^)−θE\left(\hat{\theta}\right)-\thetaE(θ^)−θ。
渐进无偏估计量:若E(θ^)−θ≠0E\left(\hat{\theta}\right)-\theta\ne0E(θ^)−θ=0,但当样本容量n→∞n\to\inftyn→∞时,有limn→∞[E(θ^)−θ]=0\lim\limits_{n\to\infty}\left[E\left(\hat{\theta}\right)-\theta\right]=0n→∞lim[E(θ^)−θ]=0,则称θ^\hat{\theta}θ^是θ\thetaθ的渐近无偏估计量。
设(X1,X2,⋯,Xn)(X_1,X_2,\cdots,X_n)(X1,X2,⋯,Xn)是来自总体XXX的样本,无论XXX服从什么分布,都有
(1) 若E(X)=μE(X)=\muE(X)=μ存在,则样本均值X‾\overline{X}X是E(X)E(X)E(X)的无偏估计量;
(2) 若D(X)=σ2D(X)=\sigma^2D(X)=σ2存在,则样本方差S2S^2S2是σ2\sigma^2σ2的无偏估计量;
(3) 若总体kkk阶矩E(Xk)=αkE\left(X^k\right)=\alpha_kE(Xk)=αk存在,则kkk阶样本原点矩Ak=1k∑i=1nXikA_k=\frac{1}{k}\sum\limits_{i=1}^n X_i^kAk=k1i=1∑nXik是kkk阶总体原点矩αk\alpha_kαk的无偏估计量。
例 可以证明,设总体X~U(0,θ)\newcommand{\td}{\,\text{\large\textasciitilde}\,}X\td U(0,\theta)X~U(0,θ),参数θ>0\theta>0θ>0,则2X‾2\overline{X}2X和n+1nX(n)\frac{n+1}{n}X_{(n)}nn+1X(n)都是θ\thetaθ的无偏估计量。
虽然S2S^2S2是σ2\sigma^2σ2的无偏估计量,但SSS不是σ\sigmaσ的无偏估计量,n−12Γ(n−12)Γ(n2)S\sqrt{\frac{n-1}{2}}\frac{\Gamma\left(\frac{n-1}{2}\right)}{\Gamma\left(\frac{n}{2}\right)}S2n−1Γ(2n)Γ(2n−1)S才是σ\sigmaσ的无偏估计量。这说明,若θ^\hat{\theta}θ^是θ\thetaθ的无偏估计量,一般情况下,g(θ^)g\left(\hat{\theta}\right)g(θ^)不是θ\thetaθ的无偏估计量,除非ggg是线性函数。
无偏估计量不一定是唯一的,所以我们需要选取其中取值最集中的,即方差最小的作为最好的估计量。
有效性:设θ^1\hat{\theta}_1θ^1和θ^2\hat{\theta}_2θ^2都是θ\thetaθ的无偏估计量,若D(θ^1)≤D(θ^2)D\left(\hat{\theta}_1\right)\le D\left(\hat{\theta}_2\right)D(θ^1)≤D(θ^2),则称θ^1\hat{\theta}_1θ^1较θ^2\hat{\theta}_2θ^2有效。
例 设X~U(0,θ)\newcommand{\td}{\,\text{\large\textasciitilde}\,}X\td U(0,\theta)X~U(0,θ),则θ^2=n+1nX(n)\hat{\theta}_2=\frac{n+1}{n}X_{(n)}θ^2=nn+1X(n)比θ^1=2X‾\hat{\theta}_1=2\overline{X}θ^1=2X有效(D(θ^1)=θ23n>D(θ^2)=θ2n(n+2)D\left(\hat{\theta}_1\right)=\frac{\theta^2}{3n}>D\left(\hat{\theta}_2\right)=\frac{\theta^2}{n(n+2)}D(θ^1)=3nθ2>D(θ^2)=n(n+2)θ2)。
最小方差无偏估计量:在所有估计量中方差最小的无偏估计量
相合估计量/一致估计量:设θ^=θ^(X1,X2,⋯,Xn)\hat{\theta}=\hat{\theta}(X_1,X_2,\cdots,X_n)θ^=θ^(X1,X2,⋯,Xn)是参数θ\thetaθ的估计量,如果当n→∞n\to\inftyn→∞时,θ^\hat{\theta}θ^依概率收敛于θ\thetaθ,即∀ε>0,limn→∞P{∣θ^−θ∣<ε}=1\forall\varepsilon>0,\,\lim\limits_{n\to\infty}P\left\{\left|\hat{\theta}-\theta\right|<\varepsilon\right\}=1 ∀ε>0,n→∞limP{θ^−θ<ε}=1则称θ^\hat{\theta}θ^为θ\thetaθ的相合估计量/一致估计量,并记(p)limn→∞θ^=θ(p)\lim\limits_{n\to\infty}\hat{\theta}=\theta(p)n→∞limθ^=θ或θ^⟶Pθ(n→∞)\hat{\theta}\overset{P}{\longrightarrow}\theta(n\to\infty)θ^⟶Pθ(n→∞)。
均方相合估计量:如果当n→∞n\to\inftyn→∞时,θ^\hat{\theta}θ^均方收敛于θ\thetaθ,即limn→∞E[(θ^−θ)2]=0\lim\limits_{n\to\infty}E\left[{\left(\hat{\theta}-\theta\right)}^2\right]=0 n→∞limE[(θ^−θ)2]=0则称θ^\hat{\theta}θ^为θ\thetaθ的均方相合估计量,并记(m. s. )limn→∞θ^=θ\newcommand{\ms}{(\text{m. s. })}\ms\lim\limits_{n\to\infty}\hat{\theta}=\theta(m. s. )n→∞limθ^=θ或θ^⟶L2θ(n→∞)\hat{\theta}\overset{L^2}{\longrightarrow}\theta(n\to\infty)θ^⟶L2θ(n→∞)。
相合性是对估计量的最基本的要求,它要求当样本容量无限增加时,用估计量估计参数可以达到任意小的精度。
可以证明,常见的矩估计量都是相合估计量(例如Ak→αkA_k\to\alpha_kAk→αk、X‾→E(X)\overline{X}\to E(X)X→E(X)、S2→σ2S^2\to\sigma^2S2→σ2、S→σS\to\sigmaS→σ)。均方相合估计量一定是相合估计量,但反之不一定成立。
无偏性:E(θ^)=θE\left(\hat{\theta}\right)=\thetaE(θ^)=θ
有效性:方差越小越好
相合性:依概率收敛(样本容量足够大时估计值与真实值之间的差距可以任意小)
P{θ^1(X1,X2,⋯,Xn)<θ<θ^2(X1,X2,⋯,Xn)}=1−α⇓\underset{\large\Downarrow}{P\left\{ \hat{\theta}_1(X_1,X_2,\cdots,X_n)<\theta<\hat{\theta}_2(X_1,X_2,\cdots,X_n) \right\}=1-\alpha} ⇓P{θ^1(X1,X2,⋯,Xn)<θ<θ^2(X1,X2,⋯,Xn)}=1−α随机区间(θ^1,θ^2)\left(\hat{\theta}_1,\hat{\theta}_2\right)(θ^1,θ^2)为参数θ\thetaθ的置信度为1−α1-\alpha1−α的双侧置信区间。
θ^1\hat{\theta}_1θ^1:置信下限
θ^2\hat{\theta}_2θ^2:置信上限
1−α1-\alpha1−α:置信度
α\alphaα:区间(θ^1,θ^2)\left(\hat{\theta}_1,\hat{\theta}_2\right)(θ^1,θ^2)不包含θ\thetaθ的概率(一般很小)
在置信度1−α1-\alpha1−α给定的情况下,置信区间的长度E(θ^2−θ^1)E\left(\hat{\theta}_2-\hat{\theta}_1\right)E(θ^2−θ^1)越小越好。
求未知参数θ\thetaθ的双侧置信区间的具体做法:
(1) 寻求枢轴量Z=Z(X1,X2,⋯,Xn,θ)Z=Z\left(X_1,X_2,\cdots,X_n,\theta\right)Z=Z(X1,X2,⋯,Xn,θ),我们需要知道ZZZ的分布,并且此分布不依赖于任何未知参数,也不依赖于θ\thetaθ。
(2) 对于给定的置信度1−α1-\alpha1−α,求出两个常数k1,k2k_1,k_2k1,k2使得P{k1
例 设X~N(μ,σ2)\newcommand{\td}{\,\text{\large\textasciitilde}\,}X\td N(\mu,\sigma^2)X~N(μ,σ2),σ2\sigma^2σ2已知,μ\muμ未知,求参数μ\muμ的置信度为1−α1-\alpha1−α的置信区间。
解:取枢轴量U=X‾−μσ/n~N(0,1)\newcommand{\td}{\,\text{\large\textasciitilde}\,}U=\cfrac{\overline{X}-\mu}{\sigma/\sqrt{n}}\td N(0,1)U=σ/nX−μ~N(0,1),可以看出N(0,1)N(0,1)N(0,1)不依赖任何参数。
现在要找到k1,k2k_1,k_2k1,k2使得P{k1k1k1})=1−α2−[1−(1−α2)]=α\begin{aligned} P\{k_1k_1\right\}\right)\\ &=1-\frac{\alpha}{2}-\left[1-\left(1-\frac{\alpha}{2}\right)\right]\\ &=\alpha \end{aligned}P{k1U≥k2}−P{U≤k1}=1−2α−(1−P{U>k1})=1−2α−[1−(1−2α)]=α
既然P{−uα/2
其实,选取枢轴量的过程就是从XXX的分布中剔除参数θ\thetaθ的影响的过程。XXX的分布受θ\thetaθ影响,我们就需要消除这种影响,所以我们提出统计量ZZZ,它的分布是完全确定的,只有这样我们才能确定参数k1,k2k_1,k_2k1,k2。如果XXX的分布不是确定的,那么我们很难求出置信区间。
P{θ‾(X1,X2,⋯,Xn)<θ}=1−α⟹(θ‾,+∞)P\left\{\underline{\theta}(X_1,X_2,\cdots,X_n)<\theta\right\}=1-\alpha\implies\left(\underline{\theta},+\infty\right)P{θ(X1,X2,⋯,Xn)<θ}=1−α⟹(θ,+∞)是θ\thetaθ的置信度为1−α1-\alpha1−α的单侧置信区间,θ‾\underline{\theta}θ为置信下界;
P{θ<θ‾(X1,X2,⋯,Xn)}=1−α⟹(−∞,θ‾)P\left\{\theta<\overline{\theta}(X_1,X_2,\cdots,X_n)\right\}=1-\alpha\implies\left(-\infty,\overline{\theta}\right)P{θ<θ(X1,X2,⋯,Xn)}=1−α⟹(−∞,θ)是θ\thetaθ的置信度为1−α1-\alpha1−α的单侧置信区间,θ‾\overline{\theta}θ为置信上界。
即:(θ‾,+∞)\left(\underline{\theta},+\infty\right)(θ,+∞)包含θ\thetaθ的概率为1−α1-\alpha1−α,(−∞,θ‾)\left(-\infty,\overline{\theta}\right)(−∞,θ)包含θ\thetaθ的概率为1−α1-\alpha1−α。
在置信度1−α1-\alpha1−α给定的情况下,置信下界越大越好,置信上界越小越好。
对于单个总体的情形,我们设X~N(μ,σ2)\newcommand{\td}{\,\text{\large\textasciitilde}\,}X\td N(\mu,\sigma^2)X~N(μ,σ2);对于两个总体的情形,我们设X~N(μ1,σ12)\newcommand{\td}{\,\text{\large\textasciitilde}\,}X\td N(\mu_1,\sigma_1^2)X~N(μ1,σ12),Y~N(μ2,σ22)\newcommand{\td}{\,\text{\large\textasciitilde}\,}Y\td N(\mu_2,\sigma_2^2)Y~N(μ2,σ22)。XXX的样本容量为nnn,样本方差为SX2S_X^2SX2;YYY的样本容量为mmm,样本方差为SY2S_Y^2SY2。
枢轴量U=n(X‾−μ)σ~N(0,1)\newcommand{\td}{\,\text{\large\textasciitilde}\,}U=\cfrac{\sqrt{n}\left(\overline{X}-\mu\right)}{\sigma}\td N(0,1)U=σn(X−μ)~N(0,1)
注意P{−uα/2−uα/2 P{UU P{U>−uα}=1−αP\left\{U>-u_\alpha\right\}=1-\alphaP{U>−uα}=1−α
枢轴量T=n(X‾−μ)S~t(n−1)\newcommand{\td}{\,\text{\large\textasciitilde}\,}T=\cfrac{\sqrt{n}\left(\overline{X}-\mu\right)}{S}\td t(n-1)T=Sn(X−μ)~t(n−1)
注意P{−tα/2
枢轴量χ2=∑i=1n(Xi−μ)2σ2~χ2(n)\newcommand{\td}{\,\text{\large\textasciitilde}\,}\chi^2=\cfrac{\sum\limits_{i=1}^n{\left(X_i-\mu\right)}^2}{\sigma^2}\td\chi^2(n)χ2=σ2i=1∑n(Xi−μ)2~χ2(n)
枢轴量χ2=∑i=1n(Xi−X‾)2σ2=(n−1)S2σ2~χ2(n−1)\newcommand{\td}{\,\text{\large\textasciitilde}\,}\chi^2=\cfrac{\sum\limits_{i=1}^n{\left(X_i-\overline{X}\right)}^2}{\sigma^2}=\cfrac{(n-1)S^2}{\sigma^2}\td\chi^2(n-1)χ2=σ2i=1∑n(Xi−X)2=σ2(n−1)S2~χ2(n−1)
注意P{χ2>χα/22(n−1)}=α2P\left\{\chi^2>\chi^2_{\alpha/2}(n-1)\right\}=\frac{\alpha}{2}P{χ2>χα/22(n−1)}=2α,P{χ2>χ1−α/22(n−1)}=1−α2P\left\{\chi^2>\chi^2_{1-\alpha/2}(n-1)\right\}=1-\frac{\alpha}{2}P{χ2>χ1−α/22(n−1)}=1−2α,故P{χ1−α/22(n−1)<χ2<χα/22(n−1)}=1−αP\{\chi^2_{1-\alpha/2}(n-1)<\chi^2<\chi^2_{\alpha/2}(n-1)\}=1-\alphaP{χ1−α/22(n−1)<χ2<χα/22(n−1)}=1−α。
P{χ2<χα2(n−1)}=1−αP\left\{\chi^2<\chi^2_{\alpha}(n-1)\right\}=1-\alphaP{χ2<χα2(n−1)}=1−α
P{χ2>χ1−α2(n−1)}=1−αP\left\{\chi^2>\chi^2_{1-\alpha}(n-1)\right\}=1-\alphaP{χ2>χ1−α2(n−1)}=1−α
枢轴量U=(X‾−Y‾)−(μ1−μ2)σ12n+σ22m~N(0,1)\newcommand{\td}{\,\text{\large\textasciitilde}\,}U=\cfrac{\left(\overline{X}-\overline{Y}\right)-(\mu_1-\mu_2)}{\sqrt{\frac{\sigma_1^2}{n}+\frac{\sigma_2^2}{m}}}\td N(0,1)U=nσ12+mσ22(X−Y)−(μ1−μ2)~N(0,1)
注意D(X‾−Y‾)=σ12n+σ22mD\left(\overline{X}-\overline{Y}\right)=\frac{\sigma_1^2}{n}+\frac{\sigma_2^2}{m}D(X−Y)=nσ12+mσ22。
枢轴量T=(X‾−Y‾)−(μ1−μ2)SW1n+1m~t(n+m−2)\newcommand{\td}{\,\text{\large\textasciitilde}\,}T=\cfrac{\left(\overline{X}-\overline{Y}\right)-(\mu_1-\mu_2)}{S_W\sqrt{\frac{1}{n}+\frac{1}{m}}}\td t(n+m-2)T=SWn1+m1(X−Y)−(μ1−μ2)~t(n+m−2),其中SW=(n−1)SX2+(m−1)SY2n+m−2S_W=\sqrt{\cfrac{(n-1)S_X^2+(m-1)S_Y^2}{n+m-2}}SW=n+m−2(n−1)SX2+(m−1)SY2
注意U=(X‾−Y‾)−(μ1−μ2)σ1n+1m~N(0,1)\newcommand{\td}{\,\text{\large\textasciitilde}\,}U=\frac{\left(\overline{X}-\overline{Y}\right)-(\mu_1-\mu_2)}{\sigma\sqrt{\frac{1}{n}+\frac{1}{m}}}\td N(0,1)U=σn1+m1(X−Y)−(μ1−μ2)~N(0,1),V=(n−1)SX2+(m−1)SY2σ2~χ2(n+m−2)\newcommand{\td}{\,\text{\large\textasciitilde}\,}V=\frac{(n-1)S_X^2+(m-1)S_Y^2}{\sigma^2}\td\chi^2(n+m-2)V=σ2(n−1)SX2+(m−1)SY2~χ2(n+m−2)。
枢轴量F=∑i=1n(Xi−μ1)2σ12/n∑j=1m(Yj−μ2)2σ22/m=σ22σ12m∑i=1n(Xi−μ1)2n∑j=1m(Yj−μ2)2~F(n,m)\newcommand{\td}{\,\text{\large\textasciitilde}\,}F=\cfrac{\left.\sum\limits_{i=1}^n\cfrac{{(X_i-\mu_1)}^2}{\sigma_1^2}\right/n}{\left.\sum\limits_{j=1}^m\cfrac{{(Y_j-\mu_2)}^2}{\sigma_2^2}\right/m}=\cfrac{\sigma_2^2}{\sigma_1^2}\cfrac{m\sum\limits_{i=1}^n{(X_i-\mu_1)}^2}{n\sum\limits_{j=1}^m{(Y_j-\mu_2)}^2}\td F(n,m)F=j=1∑mσ22(Yj−μ2)2/mi=1∑nσ12(Xi−μ1)2/n=σ12σ22nj=1∑m(Yj−μ2)2mi=1∑n(Xi−μ1)2~F(n,m)
枢轴量F=σ22σ12S12S22~F(n−1,m−1)\newcommand{\td}{\,\text{\large\textasciitilde}\,}F=\cfrac{\sigma_2^2}{\sigma_1^2}\cfrac{S_1^2}{S_2^2}\td F(n-1,m-1)F=σ12σ22S22S12~F(n−1,m−1)
注意P{F>Fα/2(n−1,m−1)}=α2P\left\{F>F_{\alpha/2}(n-1,m-1)\right\}=\frac{\alpha}{2}P{F>Fα/2(n−1,m−1)}=2α,P{F>F1−α/2(n−1,m−1)}=1−α2P\left\{F>F_{1-\alpha/2}(n-1,m-1)\right\}=1-\frac{\alpha}{2}P{F>F1−α/2(n−1,m−1)}=1−2α,故P{F1−α/2(n−1,m−1)
ttt分布和标准正态分布N(0,1)N(0,1)N(0,1)类似,概率密度曲线都是关于x=0x=0x=0对称的,u1−α=−uαu_{1-\alpha}=-u_\alphau1−α=−uα,t1−α(n)=−tα(n)t_{1-\alpha}(n)=-t_\alpha(n)t1−α(n)=−tα(n);
FFF分布和χ2\chi^2χ2分布类似,概率密度都只在x>0x>0x>0时为正。
不论XXX服从何分布,都满足P{q1−α/2
关于自由度是多少,可以这么考虑:如果总体均值μ\muμ已知,那么自由度就是样本容量;如果总体均值μ\muμ未知,而用样本均值X‾\overline{X}X代替的话,就要损失一个自由度。对于检验样本均值差时所用的ttt分布,它的自由度是二者的自由度之和。