前言

假设检验是我们在日常研究中,经常碰到的统计问题。对于追求实用与效率的科研人员来说,各种不同的假设检验是可以用软件,点点鼠标,或者写写代码,就可以完成的。

不过,对于我们这些想要在生物信息领域深入和进阶,并且最终有所建树的学生来说,我们光会拧螺丝和用板子,用轮子是不够的,当有新的技术,新的需求出来之后,我们得要造新轮子,开发新方法。因此,我们还是得学学火箭是咋飞起来和板子以及轮子是咋造出来的知识。

我们以学习和介绍研究中比较基础的χ2, t, F三种检验的所对应的分布推导,开始我们的进阶之旅。

说明:本文的推导来自《概率统计讲义》第三版附录二,陈家鼎等编著,高等教育出版社出版。略微有所修改,阅读本文,只需修过本科阶段非数学专业的三门基础数学课:高等数学(不是很深,也不是很浅的数学分析),线性代数,概率论与数理统计。 ## 正交矩阵与正态分布

在线性代数课程中,我们知道,若n阶方阵A = (aij)n × n满足ATA = I,写成标量的形式就是:



此时,我们称方阵A为正交矩阵。而且,通过线性代数的课程,我们知道,正交矩阵满足如下性质: + 1-1 设A是正交矩阵,则AAT = I,并且结合(1)可得:



  • 1-2 设A是正交矩阵,则AT也是正交矩阵,并且|A| = 1|A| =  − 1,其中| ⋅ |表示行列式。

  • 1-3 若A = (aij)n × n是正交矩阵,而x1, x2, …, xn是任意n个实数,对于



    我们有

很抱歉,开头罗列了这么多线性代数的事实,不过,也没办法,要做菜,我们得先备料不是吗。下面我们开始做菜了。

定理1X1, X2, …, Xn相互独立,且都服从N(0, σ2),又A = (aij)是正交矩阵,构造随机变量

证明Xi的分布密度是,且Xi是独立同分布样本(i.i.d.),故X1, X2, …, Xn联合密度为:

构造n维空间中的区域D:

则有:



注意到

于是(利用正交矩阵的性质)

容易验证,变换的雅可比式为



Y1, Y2, …, Yn相互独立,且不难看出,都服从N(0, σ2)。定理1证毕。

定理2X1, X2, …, Xn相互独立,且X ∼ N(μ, σ2)A = (aij)是n阶正交矩阵,构造随机变量,

Y1, Y2, …, Yn相互独立,且

证明Zi = Xi − μ,则Z1, Z2, …, Zn相互独立,都服从N(0, σ2),根据定理1知,相互独立。 且

但是

Y1, Y2, …, Yn相互独立,且

关于χ2分布

前面的的都是小菜,接下来上主菜。我们要开始证明一系列很fancy的定理

定理3X1, X2, …, Xn相互独立,并且都服从N(0, 1),则服从n个自由度的χ2分布,其PDF(probability density function)为

证明 我们证明的策略是,先求出CDF(cumulative distribution function)F(u) = P{ξ ≤ u},然后利用中值定理,证明F(u) = kn(u)

显然,当u ≤ 0, F(u) = 0, F(u) = kn(u)

u > 0时,由于X1, X2, …, Xn相互独立,故X1, X2, …, Xn联合密度为, 故

故对于h > 0,有





问题现在变为如何求S(x)

做代换,则

由此

有趣的是,我们可以看出

n维单位球体的体积。不过在我们的问题中,我们可以看出它只和n有关的量。故

根据之前的不等式,结合中值定理:



所以

综上

由归一化条件 − ∞ + ∞p(u)du = 1 而在数学分析的知识告诉我们



定理得证。

这个定理的一个副产物是,告诉了我们n维单位球体的体积

推论ξ ∼ χ2(n),则有E(ξ) = n

证明 由定理1,结合数学期望的性质,知

 □

定理4ξη相互独立,且ξ ∼ χ2(n1), η ∼ χ2(n2),则ξ + η ∼ χ2(n1 + n2)

证明ξ, ηξ + η的分布函数分别为p1(x), p2(x), p(x),我们先分别不加证明的引用概率论和Gamma函数的两个结论:

1).已知(X,Y)的联合密度是p(x, y)Z = Y + Y的PDF为:
pz(z) = ∫ − ∞p(x, z − x)dx
2).(p,q为正整数)

下面开始证明: 当 x ≤ 0时,P(ξ + η ≤ 0) = 0, p(x) = 0,定理成立。

x > 0时,



综上:



定理5x1, x2, …, xn相互独立,且都服从分布N(0, 1),则有如下三条结论:

  1. 相互独立

证明 构造正交矩阵



由此正交矩阵,我们可以构造随机变量:



有定理1可知,Y1, Y2, …, Yn相互独立,且都服从N(0, 1), 我们发现Y1 ∼ N(0, 1),因此,第一条结论得证。

由于



第二条结论得证。

由于Y1, Y2, …, Yn相互独立,且

独立,第三条结论得证

推论x1, x2, …, xn相互独立,且都服从分布N(μ, σ2),则有如下三条结论:

  1. 相互独立

关于t分布

定理6ξ, η相互独立,且ξ ∼ N(0, 1), η ∼ χ2(n), 则,其PDF为:

证明 与定理3证明的思路类似,设F(u) = P{ζ ≤ u}证明F(u) = tn(u), 由已知:

F(u) = tn(u) □

定理5,6可以用来证明下面这个在统计学里很有作用的定理:

定理7X1, X2, …, Xn(n ≥ 2)相互独立,且都服从N(μ, σ2),则其中

证明 构造随机变量

根据定理5的推论,我们知道ξ, η相互独立,且ξ ∼ N(0, 1), η ∼ χ2(n − 1) 故根据定理6,

## 关于F分布

定理8ξ, η相互独立,且ξ ∼ χ2(n1), η ∼ χ2(n2) 其PDF为:

证明 跟之前一样,令F(u) = P{ξ ≤ u} ,证明F(u) = fn1, n2(u)

u ≤ 0, F(u) = 0,

F(u) = fn1, n2(u)  □

定理9X1, X2, …, Xn1, Y1, Y2, …, Yn, 这n1 + n2个随机变量相互独立,且都服从N(μ, σ2),则

证明 构造随机变量



由之前的结论,我们知道ξ ∼ χ2(n1 − 1), η ∼ χ2(n2 − 1), 接下来证明ξ, η的独立性,构造随机变量:



由已知U1, U2, …, Un1, V1, V2, …, Vn2 相互独立,且都服从N(0, 1),于是其联合分布密度为

所以,对于任意的实数a, b, c, d

独立性得证。

再结合定理8,