| 2020-06-19
阅读976


连结:初等的机率论(8)随机变数及其种种性质

摘要:本文以丢铜板问题,逐步探讨机率论中几个重要的法则:「大数法则(law of large numbers)」、「Poisson小数法则(Poisson’s law of small numbers)」、及「中央极限定理(central limit theorem)」。

机率论的两个核心问题就是要问:

什幺是一个事件的机率(probability)?
什幺是机率法则(the laws of chance)?(甚至是,有没有机率法则?)

要探索这些问题,我们要遵循德国伟大数学家D. Hilbert (1862-1943) 所说的一句名言:

初等的机率论(9)什幺是机率与机率法则?(What are

这是机率论的美妙与幸运,也许是机运女神泰姬(Tyche)特别眷顾机率论吧。

为了追究什幺是「机率」?什幺是「机率法则」?于是我们接续地丢一个铜板就产生铜板序列(the coin-tossing sequence),由此逐步寻幽探径,就可以走入美丽而广阔的机率天地。因此,丢铜板犹如机率论的「原子」,是构成机率论的最基本要素。这跟凡是物质皆原子所组成,具有平行的类推。

甲、铜板序列

丢一个铜板,假设出现正面的机率为 $$p$$,反面为 $$q$$,$$0

我们可以用一个随机变数来表现:$$\xi=\left\{\begin{array}{ll}1,&p\\0,&q\end{array}\right.$$

将此铜板在相同条件下独立地丢 $$n$$ 次,我们就得到一列随机变数 $$\xi_1,\xi_2,…\xi_n,…$$ 叫做铜板序列,它们是独立的且具有相同的机率分布(简称为独立且同布,i.i.d.)。我们可以把它们看作是 $$\xi$$ 的独立抄本(copies)。

接着我们定义:$$S_n=\xi_1+\xi_2+\cdots+\xi_n$$

这是要用来点算丢 $$n$$ 次铜板中,正面出现的次数,$$S_n$$ 是一个随机变数。

乙、大数法则──什幺是机率?

对于上述的铜板,我们说:丢此铜板出现正面的机率为 $$p$$,这是什幺意思呢?这大致是说,丢「很多次」铜板后,出现正面的相对频率「大约」就跟 $$p$$ 相近。精确的说法,必须做许多计算,透过大数法则来表现。

【定理 10】(Bernoulli 弱大数法则,WLLN,1713 年)

考虑铜板序列 $$(\xi_k)$$ 以及 $$S_n=\xi_1+\xi_2+\cdots+\xi_n$$,则对于任意 $$\varepsilon>0$$,恆有

$$\displaystyle\lim_{n\to\infty}P\left(\Big|\frac{S_n}{n}-p\Big|<\varepsilon\right)=1$$ 或等价地 $$\displaystyle\lim_{n\to\infty}P\left(\Big|\frac{S_n}{n}-p\Big|\ge\varepsilon\right)=0$$

【证明】

因为 $$E(S_n)=np$$ 且 $$var(S_n)=npq$$(参见例 15),

所以 $$E(S_n/n)=p$$ 且 $$var(S_n/n)=\frac{1}{n^2}npq=\frac{pq}{n}$$。

由 Chebyshev 不等式得到 $$\displaystyle P\left(\Big|\frac{S_n}{n}-p\Big|\ge \varepsilon\right)\le\frac{var(S_n/n)}{\varepsilon^2}=\frac{pq}{n\varepsilon^2}$$

从而 $$\displaystyle\lim_{n\to\infty}P\left(\Big|\frac{S_n}{n}-p\Big|\ge\varepsilon\right)=0~~~~~~~~~\blacksquare$$

【注】Jakob Bernoulli (1654-1705) 在死后8年的1713年才发表这个弱大数法则(Weak law of large number, WLLN)。这是在机率论中第一个出现的机率法则。

弱大数法则是说,丢 $$n$$ 次铜板出现正面的相对频率 $$S_{n}/n$$ 跟 $$p$$ 接近在 $$\varepsilon$$ 的範围内,这个事件的机率在 $$n\rightarrow\infty$$ 时,会趋近于 $$1$$。说起来有点麻烦,并且不是简单明了。

【定义 11】设 $$(X_n)$$ 为一列随机变数,$$X$$ 也是一个随机变数。若对于任意 $$\varepsilon>0$$,恆有 $$\lim\limits_{n\to\infty}P\{|X_n-X|\ge\varepsilon\}=0$$,我们就说 $$(X_n)$$ 机率收敛到 $$X$$(converges in probability),记为 $$X_n\overset{P}{\longrightarrow} X$$。

因此定理 $$10$$ 我们就说成:$$\displaystyle\frac{S_n}{n}$$ 按机率收敛到 $$p$$,记为 $$\displaystyle\frac{S_n}{n}\overset{P}{\longrightarrow} p$$

我们只要注意到,$$p=E(\xi)$$,那幺由 Jakob Bernoulli 的弱大数法则立即可以推广成为一般的弱大数法则。

【定理 11】(一般的弱大数法则)

假设 $$X_1,X_2,X_3,\cdots$$ 为一列独立且同布(i.i.d.)的随机变数,具有有限的期望值 $$\mu=E(X_1)$$,则对于任意 $$\varepsilon>0$$,恆有

$$\displaystyle\lim_{n\to\infty}P\left(\Big|\frac{X_1+\cdots+X_n}{n}-\mu\Big|<\varepsilon\right)=1$$ 或等价地 $$\displaystyle\lim_{n\to\infty}P\left(\Big|\frac{X_1+\cdots+X_n}{n}-\mu\Big|\ge\varepsilon\right)=0$$

【证明】

我们只证变异数 $$\sigma^2=E[X_1-E(X_1)]^2$$ 是有限的情形。

因为 $$\displaystyle E\left[\frac{X_1+\cdots+X_n}{n}\right]=\mu$$ 且 $$\displaystyle var\left[\frac{X_1+\cdots+X_n}{n}\right]=\frac{\sigma^2}{n}$$

所以由 Chebyshev 不等式得到 $$\displaystyle P\left(\Big|\frac{X_1+\cdots+X_n}{n}-\mu\Big|\ge \varepsilon\right)\le\frac{\sigma^2}{n\varepsilon^2}$$

从而 $$\displaystyle\lim_{n\to\infty}P\left(\Big|\frac{X_1+\cdots+X_n}{n}-\mu\Big|\ge\varepsilon\right)=0~~~~~~~~~\blacksquare$$

数学家对于弱大数法则之解释机率或其推广的期望值还不够满意,想要追寻更强的结果。在1909年终于由法国数学家Borel (1871-1956) 对于铜板序列的情形,提出了强大数法则(Strong Law of Large Numbers, SLLN)。

【定理 12】(Borel 的强大数法则,1909 年)

设 $$(\xi_k)$$ 为一个铜板序列,$$S_n=\xi_1+\xi_2+\cdots+\xi_n$$,则有

$$\displaystyle P\left(\lim_{n\to\infty}\frac{S_n}{n}=p\right)=1$$

我们说 $$\displaystyle \frac{S_n}{n}$$ 殆确收敛到 $$p$$,记为

$$\displaystyle\frac{S_n}{n}\overset{a.s.}{\longrightarrow} p$$

要谈清楚这个定理的证明必须用到测度积分论,而这也是当初发展测度积分论的强大的动机之一。Borel的强大数法则对“机率” 的解释更明朗:丢 $$n$$ 次铜板出现正面的相对频率 $$S_n/n$$ ,在 $$n\rightarrow\infty$$ 时,殆确(almost sure)会趋近于 $$p$$,也就是不趋近于 $$p$$ 的机率为$$0$$。

【定义 12】若存在一个机率为零的集合 $$N$$,使得当 $$\omega\in\Omega\backslash N$$ 时,

$$\displaystyle \lim_{n\to\infty}X_n(\omega)=X(\omega)$$,有限数

我们就说 $$(X_n)$$ 殆确收敛(converges almost surely)到 $$X$$,记为 $$X_n\to X,~a.s.$$

【注】在测度论中,称做 $$(X_n)$$ 殆遍收敛(converges almost everywhere)到 $$X$$。若 $$X_n\rightarrow X,~a.s$$,则极限 $$X$$ 殆确唯一决定。

将 Borel 的强大数法则的铜板序列 $$(\xi_n)$$ 推广到一般的随机序列 $$(X_n)$$ 就得到一般的强大数法则(Strong Law of Large Numbers)。

【定理 12】(强大数法则,SLLN)

假设 $$X_1,X_2,X_3,\cdots$$ 为一列独立且同布(即 i.i.d.)的随机变数,并且期望值 $$\mu=E[X_1]$$ 为有限数,则有

$$\displaystyle P\left(\lim_{n\to\infty}\frac{X_1+X_2+\cdots+X_n}{n}=\mu\right)=1$$

这个定理的证明,难度高了许多,真正需要用到测度积分论以及一些分析学的工具,因此在此我们省略掉证明。

我们来说明这个定理的意思。想像有个随机实验,对应有一个机率空间,我们在其上定义有一个随机变数 $$X$$,期望值为 $$E(X)\equiv\mu$$(期望值是事件的机率之推广),我们独立地重複观测 $$X$$(或不断地重複做这个随机实验),就得到一列独立且同布(即 i.i.d.)的随机变数 $$X_1,X_2,X_3,…$$(每个 $$X_k$$ 都跟 $$X$$ 具有相同的机率分布)。

现在考虑算术平均值 $$(X_1+X_2,+…+X_n)/n$$,那幺当 $$n\rightarrow\infty$$ 时,就殆确会趋近于期望值 $$\mu$$,也就是不趋近于 $$\mu$$ 的机率为 $$0$$。

这个定理的数学理论基础是,我们可以适当造一个机率空间来「承载」随机序列 $$X_1,X_2,X_3,…$$,并且证得强大数法则。

在逻辑上,殆确收敛比机率收敛还要强:殆确收敛必为机率收敛,反之不然。在机率学家中,对于强弱两型的大数法则有两极的看法:有人认为弱大数法则就足够统计之用,强大数法则只是数学家的吹毛求疵;有人认为强大数法则才够味道,展现真正的数学本色。

丙、Poisson小数法则(或叫Poisson稀有事件法则)

Poisson (1781-1840)考虑一列铜板,出现正面的机率 $$p_1,p_2,…,p_n,…$$ 逐渐变小,也就是铜板出现正面的事件越来越变成稀有事件。

但是要让“稀有化” 遵循 $$n\cdot p_n\to \lambda$$ 的方式,其中 $$\lambda>0$$

亦即 $$p_n$$ 以 $$\displaystyle\frac{\lambda}{n}$$ 的方式来变小

以此来达到所要的目标,这纯是为了要利用微积分的一个极限公式:

$$\displaystyle\lim_{n\to\infty}\left(1-\frac{\lambda}{n}\right)^n=e^{-\lambda}$$

第 $$1$$ 个铜板出现正面的机率为 $$p_1$$,对应的铜板序列为 $$\xi_{11},\xi_{12},\xi_{13},\cdots$$
第 $$2$$ 个铜板出现正面的机率为 $$p_2$$,对应的铜板序列为 $$\xi_{21},\xi_{22},\xi_{23},\cdots$$
第 $$3$$ 个铜板出现正面的机率为 $$p_3$$,对应的铜板序列为 $$\xi_{31},\xi_{32},\xi_{33},\cdots$$
$$\vdots$$
第 $$n$$ 个铜板出现正面的机率为 $$p_n$$,对应的铜板序列为 $$\xi_{n1},\xi_{n2},\xi_{n3},\cdots$$

现在令 $$S_n^{(n)}=\xi_{n1},+\xi_{n2}+…+\xi_{nn}$$,那幺我们就有 Poisson 小数法则(Poisson’s law of small numbers)或 Poisson 稀有事件法则(Poisson’s law of rare event)。此地的「小数」指的是,当 $$n$$ 越来越大时,$$p_n$$ 是一个越来越小的数之意。

【定理 13】(Poisson 小数法则 或 Poisson 稀有事件法则,1832 年)

假设 $$\displaystyle p_n=\frac{\lambda}{n}$$ 或 $$\displaystyle p_n\sim\frac{\lambda}{n}$$,则有

$$\displaystyle \lim_{n\to\infty} P(S^{(n)}_n=k)=\frac{\lambda^k}{k!\ }e^{-\lambda},~~~k=0,1,2,3,\cdots$$

亦即当 $$n\to\infty$$ 时,$$S^{(n)}_n$$ 的分布,终究会是 Poisson 分布,以 $$\lambda$$ 为参数,$$0<\lambda<\infty$$

【证明】

因为 $$p_n$$ 形如 $$\displaystyle p_n=\frac{\lambda}{n}$$ 或 $$\displaystyle p_n\sim\frac{\lambda}{n}$$

并且记号「$$a_n\sim b_n$$」表示「$$a_n$$ 与 $$b_n$$ 渐进地相等」(asymptotically equal),

意指 $$\lim\limits_{n\to\infty}\frac{a_n}{b_n}=1$$。于是

$$\begin{array}{ll}\displaystyle\lim_{n\to\infty}P(S^{(n)}_n=k)&\displaystyle=\lim_{n\to\infty}C^{n}_{k}(p_n)^k(1-p_n)^{n-k}=\lim_{n\to\infty}C^n_k\left(\frac{\lambda}{n}\right)^{k}\left(1-\frac{\lambda}{n}\right)^{n-k}\\&=\displaystyle\frac{\lambda^k}{k!\ }\lim_{n\to\infty}\left[\frac{n(n-1)\cdots(n-k+1)}{n^k}\frac{(1-\frac{\lambda}{n})^n}{(1-\frac{\lambda}{n})^k}\right]\\&=\displaystyle\frac{\lambda^k}{k!\ }e^{-\lambda},~~~k=0,1,2,\cdots~~~~~~~~~~~~\blacksquare\end{array}$$

Poisson (1781-1840) 是一位杰出的法国数学家和物理学家,在1806年继承Fourier在巴黎工艺大学的教授职位。他说:「生命就是工作(Life is work.)。」他又说:「生命只有两样东西是美好的,那就是发现数学与教数学(Life is good for only two things, discovering mathematics and teaching mathematics.)。」

丁、中央极限定理──什幺是机率法则?

在随机说不準中,发现有一些说得準的事物,这就是机率法则。强弱两型的大数法则是机率法则、Poisson小数法则(或叫Poisson稀有事件法则),以及下面要介绍的中央极限定理当然也都是机率法则。

光是看命名为“中央极限定理”,就知道那是机率论的核心结果,除了定理本身美丽之外,更有广泛的应用。但是中央极限定理的证明,相对的深奥且複杂,所以我们省略,只列出定理并且解释它的意义。

【定理 14】(De Moivre-Laplace 的中央极限定理,1706、1801 年)

设 $$(\xi_n)$$ 为公正的铜板序列,i.i.d.,$$P(\xi_n=+1)=1/2=P(\xi_n=-1)$$。令 $$S_n=\xi_1+\xi_2+\cdots+\xi_n$$,则有

$$\displaystyle\lim_{n\to\infty}P\left(\frac{S_n}{\sqrt{n}}\le x\right)=\frac{1}{\sqrt{2\pi}}\int^{x}_{-\infty}e^{-u^2/2}du,~~~\forall x\in\mathbb{R}~~~~~~~~~(1)$$

亦即当 $$n\to\infty$$ 时,随机变数 $$S_n/\sqrt{n}$$ 的机率分布趋近于标準正规分布 $$N(0,1)$$。

这个定理又叫做「$$n$$ 的平方根法则」(the law of square root n)。

【注意】:在上述定理中,铜板是公正的,并且随机变数 $$\xi_n$$ 的定义是 $$\xi_n=+1$$ 表示铜板丢出正面,$$\xi_n=-1$$ 表示铜板丢出反面。此时 $$E(S_n)=0$$,$$var(S_n)=n$$。

$$\displaystyle \frac{S_n}{\sqrt{n}}$$ 其实就是 $$\displaystyle \frac{S_n-E(S_n)}{\sqrt{var(S_n)}}$$,这是一个关键要点:将一个随机变数 $$X$$ 减掉其期望值 $$E(X)$$ 再除以标準偏差 $$\sqrt{var(X)}$$,得到 $$Y\equiv\frac{X-E(X)}{\sqrt{var(X)}}$$,这可使得 $$E(Y)=0$$ 且 $$var(Y)=1$$,所以叫做「标準化程序」。

如果公正铜板的 $$\mathrm{i.i.d.}$$ 序列 $$(\xi_n)$$,其随机变数改定义为取值 $$0$$ 或 $$1$$,并且 $$P(\xi_{n}=+1)=1/2=P(\xi_{n}=0)$$,那幺对于同样的 $$S_n$$ 作标準化程序,我们就得到如下的结果。

【定理 15】(De Moivre-Laplace 的中央极限定理)

对于任意 $$x\in\mathbb{R}$$,恆有

$$\displaystyle\lim_{n\to\infty}P\left(\frac{S_n-n/2}{\sqrt{n}/2}\le x\right)=\frac{1}{\sqrt{2\pi}}\int^{x}_{-\infty}e^{-u^2/2}du~~~~~~~~~(2)$$

如果是不公正的铜板序列 $$(\xi_n)$$,并且定义 $$(\xi_n)$$为:$$P(\xi_{n}=1)=p$$ 且 $$P(\xi_{n}=0)=q(=1-p)$$,那幺同样对 $$S_n$$ 作标準化程序,就得到如下的结果:

【定理 16】(De Moivre-Laplace 的中央极限定理)

对于任意 $$x\in\mathbb{R}$$,恆有

$$\displaystyle\lim_{n\to\infty}P\left(\frac{S_n-np}{\sqrt{npq}}\le x\right)=\frac{1}{\sqrt{2\pi}}\int^{x}_{-\infty}e^{-u^2/2}du~~~~~~~~~(3)$$

再推广到一般随机变数序列,我们就得到:

【定理 17】(中央极限定理)

设 $$(X_n)$$ 为一列 $$\mathrm{i.i.d.}$$ 的随机变数,期望值 $$\mu$$,变异数 $$\sigma^2$$ 皆为有限数,则有

$$\displaystyle\lim_{n\to\infty}P\left(\frac{X_1+\cdots+X_n-n\mu}{\sigma\sqrt{n}}\le x\right)=\frac{1}{\sqrt{2\pi}}\int^{x}_{-\infty}e^{-u^2/2}du,~~~\forall x\in\mathbb{R}~~~~~~~~~(4)$$

中央极限定理的意思是说:大量 $$n$$ 个独立同布的微小的随机变量之和,经过标準化的程序之后,在 $$n\rightarrow\infty$$ 时,它的分布就会是标準的正规分布。因此,在机率论中,正规分布是「鹤立鸡群」,佔有核心的地位。这是 $$\mathrm{Central~limit~theorem}$$ 名称的由来。

标準正规分布函数 $$y=\displaystyle\frac{1}{\sqrt{2\pi}}e^{-x^2/2}$$ 的图形是美丽的钟形曲线,它在机率论与统计学中是主角。见下图:

初等的机率论(9)什幺是机率与机率法则?(What are

假设随机变数 $$X$$ 具有正规分布 $$N(\mu,\sigma^2)$$,我们只要做一个平移与尺度伸缩,令 $$Y=(X-\mu)/\sigma$$,那幺 $$Y$$ 就具有标準正规分布 $$N(0,1)$$。因此,对于正规分布,我们只要列出标準正规分布的机率积分表,就可以计算所有的有关正规分布的机率了。

通常机率论或统计学的书都会附有一个数值表,对各 $$\lambda$$ 列着:

$$\displaystyle\Phi(\lambda)\equiv\int^{\lambda}_{-\infty}\frac{1}{\sqrt{2\pi}}e^{-x^2/2}~dx$$

的值。注意到:因为 $$\displaystyle \int^{\lambda}_{-\lambda}\frac{1}{\sqrt{2\pi}}e^{-x^2/2}~dx=2\Phi(\lambda)-1$$

所以这也可经由查表得到。

【例20】独立地丢一个公正骰子 $$100$$ 次,求点数和介于 $$320$$ 与 $$380$$ 之间的机率。

【解答】设 $$X_k$$ 表示丢掷第 $$k$$ 次骰子出现的点数,于是

$$S_{100}=X_1+X_2+…+X_{100}$$

表示丢掷 $$100$$ 次骰子的点数和。我们欲求机率 $$P(320\leq S_{100}\leq 380)$$。虽然我们知道 $$S_{100}$$ 具有二项分布,但是这个机率难算,我们利用中央极限定理来估算。因为

$$\displaystyle E(S_{100})=100\times E(X_1)=100\cdot\frac{7}{2}=350$$
$$\displaystyle var(S_{100})=100\times var(X_1)=100\cdot\frac{35}{12}=\frac{875}{3}$$

所以由中央极限定理知($$n=100$$ 已足够大):$$\displaystyle\frac{S_{100}-350}{\sqrt{875/3}}\sim N(0,1)$$

又因为 $$\begin{array}{ll}(320\le S_{100}\le 380)&=\displaystyle\left(\frac{-30}{\sqrt{875/3}}\le\frac{S_{100}-350}{\sqrt{875/3}}\le\frac{30}{\sqrt{875/3}}\right)\\&=\displaystyle\left(-1.75\le\frac{S_{100}-350}{\sqrt{875/3}}\le 1.75\right)\end{array}$$

所以 $$\begin{array}{ll}P(320\le S_{100}\le 380)&\approx 2\Phi(1.75)-1\\&=2\times 0.9599-1=0.9198\end{array}$$(查表)

在统计上,Gauss的误差律告诉我们误差的随机变数遵循正规分布。这件事让英国的统计学家兼优生学家Galton (1822-1911) 说:

初等的机率论(9)什幺是机率与机率法则?(What are 初等的机率论(9)什幺是机率与机率法则?(What are

英国逻辑家兼哲学家罗素 (Bertrand Russell, 1872-1970) 说:

初等的机率论(9)什幺是机率与机率法则?(What are

罗素当然是俏皮的提问。事实上,数学家与科学家都相信宇宙中任何事物的运作都按自然律来发生,即使在说不準的机率世界也有「法则」(laws)可循,数学与科学的研究就是努力要去找出它们。

连结:初等的机率论(10)推理统计学简介

参考书目:

注:通常要讲述机率论必须用到「测度积分论」的数学工具,或至少要用到微积分。因此要为一般读者介绍机率论的读物诚属不容易。上述八本书尽量压低要用到的数学工具,大部分只需排列与组合,只有少部份要用到一点儿微积分。

从科学方法论的观点来看,机率论与统计学是一体的两面,机率论是「演绎法」,统计学是「归纳法」。因此,本文的主题虽然是机率论,但是也顺便介绍一点点统计学的概念。