几个重要假设检验的推导

前言

假设检验是我们在日常研究中，经常碰到的统计问题。对于追求实用与效率的科研人员来说，各种不同的假设检验是可以用软件，点点鼠标，或者写写代码，就可以完成的。

不过，对于我们这些想要在生物信息领域深入和进阶，并且最终有所建树的学生来说，我们光会拧螺丝和用板子，用轮子是不够的，当有新的技术，新的需求出来之后，我们得要造新轮子，开发新方法。因此，我们还是得学学火箭是咋飞起来和板子以及轮子是咋造出来的知识。

我们以学习和介绍研究中比较基础的χ², t, F三种检验的所对应的分布推导，开始我们的进阶之旅。

说明：本文的推导来自《概率统计讲义》第三版附录二，陈家鼎等编著，高等教育出版社出版。略微有所修改，阅读本文，只需修过本科阶段非数学专业的三门基础数学课：高等数学(不是很深，也不是很浅的数学分析)，线性代数，概率论与数理统计。 ## 正交矩阵与正态分布

在线性代数课程中，我们知道，若n阶方阵A = (a_ij)_n × n满足A^TA = I，写成标量的形式就是：

此时，我们称方阵A为正交矩阵。而且，通过线性代数的课程，我们知道，正交矩阵满足如下性质： + 1-1 设A是正交矩阵，则AA^T = I，并且结合（1）可得：

1-2 设A是正交矩阵，则A^T也是正交矩阵，并且|A| = 1或|A| = − 1，其中| ⋅ |表示行列式。
1-3 若A = (a_ij)_n × n是正交矩阵，而x₁, x₂, …, x_n是任意n个实数，对于

我们有

很抱歉，开头罗列了这么多线性代数的事实，不过，也没办法，要做菜，我们得先备料不是吗。下面我们开始做菜了。

定理1 设X₁, X₂, …, X_n相互独立，且都服从N(0, σ²)，又A = (a_ij)是正交矩阵，构造随机变量

证明因X_i的分布密度是,且X_i是独立同分布样本（i.i.d.），故X₁, X₂, …, X_n联合密度为：

构造n维空间中的区域D:

则有：

注意到

于是（利用正交矩阵的性质）

容易验证，变换的雅可比式为

又故

故Y₁, Y₂, …, Y_n相互独立，且不难看出，都服从N(0, σ²)。定理1证毕。

定理2设X₁, X₂, …, X_n相互独立，且X ∼ N(μ, σ²)。A = (a_ij)是n阶正交矩阵,构造随机变量，

则Y₁, Y₂, …, Y_n相互独立，且

证明令Z_i = X_i − μ，则Z₁, Z₂, …, Z_n相互独立，都服从N(0, σ²),根据定理1知，相互独立。且

但是

故Y₁, Y₂, …, Y_n相互独立，且

关于χ²分布

前面的的都是小菜，接下来上主菜。我们要开始证明一系列很fancy的定理

定理3 设X₁, X₂, …, X_n相互独立，并且都服从N(0, 1),则服从n个自由度的χ²分布，其PDF(probability density function)为

证明我们证明的策略是，先求出CDF(cumulative distribution function)F(u) = P{ξ ≤ u}，然后利用中值定理，证明F^′(u) = k_n(u)。

显然，当u ≤ 0, F(u) = 0, F^′(u) = k_n(u)

当u > 0时，由于X₁, X₂, …, X_n相互独立，故X₁, X₂, …, X_n联合密度为，故

故对于h > 0,有

令则

问题现在变为如何求S(x)

做代换,则

由此

有趣的是，我们可以看出

是n维单位球体的体积。不过在我们的问题中，我们可以看出它只和n有关的量。故

根据之前的不等式，结合中值定理：

所以

综上

由归一化条件∫_− ∞^+ ∞p(u)du = 1知而在数学分析的知识告诉我们

定理得证。

这个定理的一个副产物是，告诉了我们n维单位球体的体积

推论若ξ ∼ χ²(n)，则有E(ξ) = n

证明由定理1，结合数学期望的性质，知

□

定理4 若ξ与η相互独立，且ξ ∼ χ²(n₁), η ∼ χ²(n₂)，则ξ + η ∼ χ²(n₁ + n₂)

证明设ξ, η，ξ + η的分布函数分别为p₁(x), p₂(x), p(x)，我们先分别不加证明的引用概率论和Gamma函数的两个结论：

1).已知(X,Y)的联合密度是p(x, y)，Z = Y + Y的PDF为：
p_z(z) = ∫_− ∞^∞p(x, z − x)dx
2).(p,q为正整数)

下面开始证明：当 x ≤ 0时，P(ξ + η ≤ 0) = 0, p(x) = 0,定理成立。

当 x > 0时，

$（$

综上：

□

定理5 若x₁, x₂, …, x_n相互独立，且都服从分布N(0, 1),则有如下三条结论：

X̄与相互独立

证明构造正交矩阵

由此正交矩阵，我们可以构造随机变量：

有定理1可知，Y₁, Y₂, …, Y_n相互独立，且都服从N(0, 1)，我们发现Y₁ ∼ N(0, 1)，因此，第一条结论得证。

由于故

第二条结论得证。

由于Y₁, Y₂, …, Y_n相互独立，且

故X̄与独立，第三条结论得证 □

推论若x₁, x₂, …, x_n相互独立，且都服从分布N(μ, σ²),则有如下三条结论：

X̄与相互独立

关于t分布

定理6 设ξ, η相互独立，且ξ ∼ N(0, 1), η ∼ χ²(n)，则，其PDF为：

证明与定理3证明的思路类似，设F(u) = P{ζ ≤ u}证明F^′(u) = t_n(u), 由已知：

故F^′(u) = t_n(u) □

定理5,6可以用来证明下面这个在统计学里很有作用的定理：

定理7 设X₁, X₂, …, X_n(n ≥ 2)相互独立，且都服从N(μ, σ²),则其中

证明构造随机变量

根据定理5的推论，我们知道ξ, η相互独立，且ξ ∼ N(0, 1), η ∼ χ²(n − 1) 故根据定理6，故

## 关于F分布

定理8 设ξ, η相互独立，且ξ ∼ χ²(n₁), η ∼ χ²(n₂) 则其PDF为：

证明跟之前一样，令F(u) = P{ξ ≤ u} ，证明F^′(u) = f_n₁, n₂(u)

当 u ≤ 0, F(u) = 0,

故F^′(u) = f_n₁, n₂(u) □

定理9 设X₁, X₂, …, X_n₁, Y₁, Y₂, …, Y_n, 这n₁ + n₂个随机变量相互独立，且都服从N(μ, σ²),则

证明构造随机变量

由之前的结论，我们知道ξ ∼ χ²(n₁ − 1), η ∼ χ²(n₂ − 1), 接下来证明ξ, η的独立性，构造随机变量：

则

由已知U₁, U₂, …, U_n₁, V₁, V₂, …, V_n₂ 相互独立，且都服从N(0, 1),于是其联合分布密度为

所以,对于任意的实数a, b, c, d

独立性得证。

再结合定理8，

Coding for Life Science

Coding for Life Science

前言

关于χ2分布

关于t分布

关于χ²分布