概率论

概率与统计

随机实验

满足条件:

  1. 可以被重复;
  2. 具有多种可能结果并均明确可知;
  3. 试验结果不可预先获知。

随机实验可能出现的每一种结果称为样本点,每一个样本点都彼此不相容,因而它是构成试验结果的最基础原子,故而样本点也被称为基本事件

所有样本点(也即所有的可能结果)的集合就被称为样本空间

一次试验可能出现的结果称为随机事件,随机事件是一个集合,内部元素均为随机实验的样本点

为什么要引入样本空间:

引入样本空间是为了给予“随机”这一相对较为暧昧的机制一个严格的数学范围。在这以后,一切事件的概率才得以在其相对应的样本空间之下具备良好的定义。

这就像样本空间(Sample space)产生出了事件域,而我们讨论相应的事件概率,就只在其定义的样本空间下具有意义,而同一事件在不同样本空间下,其发生的概率可能截然不同

样本空间的引入实际上是在为概率的定义提供了一个严格的范围。

一个样本空间可以是有限的,可数无穷的和不可数无穷的

假如S是可数的,包括有限和可数无穷的,那么S为一个离散的样本空间

假如S是不可数的,即不可数无穷的,那么S为一个连续的样本空间

对于随机试验的结果,即随机事件,其描述可以由多个观测量组成,因此样本空间可以是有不同维度的,维度数即描述一个随机时间的测量量的数目

概率的定义:(概率的本质)

直觉:概率就是事件发生的可能性。

古典概型:

进行\(n\)次随机实验,得到的某一结果的次数记作\(N_k(n)\),则得到该结果的相对次数为\(f_k(n)=\frac{N_k(n)}{n}\)

\(n\)的数值足够大时,\(f_k(n)\)则收敛于一个稳定的数值,即\(lim_{n->\infty}f_k(n)=p_k\)\(p_k\)称作概率

古典概型的前提:

  1. 在古典概型的样本空间中,样本点也即基本事件的个数是有限的(骰子只能掷出6个数字)
  2. 每个样本点也即每个基本事件发生的可能性是相等的(投出6和投出1或任意其它一种结果的可能性完全一致)

古典概型是先验的,因为我们先验的认为,这个骰子掷出任意一个数字的可能性都是相同的。并且同样先验的确定,掷出任意一个数字的频率都会稳定于古典概型计算出的这个先验概率附近。

先验来自于我们的直觉,来自于实践中的观察

后验认为,对于事件发生的先验假设,我们不应当存在任何的偏好——即基本事件等可能这种事,并不是理所当然的

后验中我们可以随意假设一个估计性质的开始概率,重要的是,我们可以通过后续的重复试验,来不断的更新纠正这一概率,而当通过试验获取的信息趋近于无穷时,我们最终就可以获得一个收敛于某个具体数值的后验概率。

让我们能够摆脱“可能性”的束缚,从而绕开先验与后验的争论,来在数学上精确的定义概率呢?

在有了样本空间将事件构造成的集合以后,再通过测度的方式,将它们映射至0到1取值范围内的实数域 \([0,1]\)上。

若以这样的方式来定义概率,我们不就可以将它从事件发生可能性这样的束缚上解脱出来,从而获得一个纯粹的数学定义。为了实现这种测度的构造,就可以人为的对样本空间到实数域的映射规则进行规定,即:

  1. 概率必然是非负的,即 \(P(A)\ge 0\)
  2. 样本空间所代表的全集,概率规定为1,即 \(P(\Omega)=1\)
  3. 对于任意可列的互不相容事件(即两两交集均为 \(\varnothing\) 的子集),它们并集的概率等于它们概率的和,即 \(P(A\cup B)=P(A)+P(B)\)

满足这三个条件的映射,即有概率 \(P\) ,这也被称为概率的公理化定义。

也由于这种定义的实质就是将样本空间对实数进行映射,故而这种映射也被称为概率测度

条件概率公式所反映的,实际上是决策树的剪枝过程。而条件概率的本质,则是由于前提事件的发生所导致的待计算事件其样本点与样本空间的同时缩小(如同上文中文氏图所示的右侧聚焦过程)

全概率公式

假设:样本空间 \(S\) 有一个完备的事件组 \(A_1,A_2,A_3\):也就是样本空间被这三个事件瓜分完了

满足两个条件:三个事件:

  1. \(A_1 \cup A_2 \cup A_3=\Omega\)
  2. \(A_1 \cap A_2 \cap A_3=\varnothing\)

则又有一事件 \(B\) 时,\(P(B)=P(B \cap \Omega)=P[B\cup (A_1 \cup A_2 \cup A_3)]=P(BA_1 \cup BA_2 \cup BA_3)\)

因为 \(A_1 \cap A_2 \cap A_3=\varnothing\),所以 \(BA_1 \cup BA_2 \cup BA_3=\varnothing\)

所以:\(P(BA_1 \cup BA_2 \cup BA_3)=P(BA_1)+P(BA_2)+P(BA_3)\)

由条件概率公式可得:

\(P(B)=P(A_1)P(B|A_1)+P(A_2)P(B|A_2)+P(A_3)P(B|A_3)\)

即全概率公式事实上是一种对事件的先验分解

全概率公式的使用条件,就是连续做多次实验,可以画出决策树,然后每一种分支可能性会发生变化,即前一次的选择会对下一次的选择产生影响;这是若求解第二轮即以后某个结果发生的可能性,则使用全概率公式

贝叶斯公式:

贝叶斯公式是后验的,即,我们已经做了实验,然后通过实验结果我们不断去修正导致这一结果发生的某些概率值

贝叶斯公式可以由全概率公式变形得来: \[ \begin{aligned} P(A_1|B)&=\frac{P(A_1B)}{P(B)}\\ &=\frac{P(A_1B)}{P(A_1)P(B|A_1)+P(A_2)P(B|A_2)+P(A_3)P(B|A_3)}\\ &=\frac{P(A_1)P(B|A_1)}{P(A_1)P(B|A_1)+P(A_2)P(B|A_2)+P(A_3)P(B|A_3)} \end{aligned} \]

随机变量:随机变量的本质实际上就是随机事件的数字化

现实世界中各色各样具象的随机事件,可以被映射成数学世界中抽象的数字,而这种映射规则就叫做随机变量。

离散随机变量的(概率分布律)概率质量函数(\(pmf\)):

离散性随机变量记作 \(X\)\(X\) 的可能值是一个可数集合中的元素:\(S_X={x_1,x_2,x_3...}\)

\(X\) \(x=1\) \(x=0\) \(x=2\)
\(pmf\) \(P(x=1)=0.125\) \(p(x=0)=0.25\) \(P(x=2)=0.625\)

\(pmf\) 的性质:

  • \[ 对于所有\;x\; 都有 \;P_X(x)\ge 0 \]

  • \[ \sum_{x\in S}P_X(x)=1 \]

  • \[ P(X\;in\;B)=\sum_{x\in B}P_X(x)\;其中B\subset S_X \]

随机变量可以是离散的,连续的和混合的

累积分布函数(\(cdf\):cumulative distribution function),常被使用在随机变量的正式定义中,可以处理三种类型的随机变量

一个离散性随机变量的 \(pmf\) 是由 \(\{X=b\}\) 来定义的,累计分布函数(\(cdf\):cumulative distribution function)则是由 \(\{X\le b\}\) 来定义的。

累计分布函数的优点在于它不局限于离散型随机变量,而是可以在所有类型的随机变量中使用

  1. \(F_X(x)\)必然是一个单调不减函数——因概率不可为负,随着对应样本点的增多,概率的累加必然是单调不减的;
  2. \(F_X(x)\) 必然是一个右连续函数;
  3. \(\lim_{n \to -\infty}F_X(x)=0\)\(\lim_{n \to \infty}F_X(x)=1\) ——即对应样本点集合为空时,概率必然为0,而对应样本点集合为整个样本空间时,概率必然为1。

可以看到,无论分布函数以何种形式构造,又呈现出何种性质,其最最核心的效用,就是为了能够良好的表示出样本空间的这一性质: \[ P_1+P_2+P_3+...+P_n=\sum_iP_i=1 \] 即实现样本空间 \(S\) 对应的概率归向于1,从而完成样本空间向值域 \([0,1]\) 的映射。因此,分布函数的本质实际上是随机变量的归一化

而当随机变量由离散型扩展至连续型时,在把握到分布函数的本质是样本点概率的累加函数以后,便可以推测连续型随机变量的分布函数 \(F_X(x)\) 必然会表现为一种积分形式。

但是与离散型概率分布中,每个随机变量对应着一个确定的概率值所不同,若以类似的方式来通过分布函数计算连续型随机变量中任意一点的概率,即用这一点的分布函数值减去这一点处左极限的分布函数值: \[ P\{x=x_0\}=F_X(x_0)-\lim_{n \to x_0^-}F_X(x_0) \] 由于 \(F_X(x)\) 是连续的概率累加,因此它在性质上也必然是一个非负不减的连续函数,故根据连续的性质,有: \[ F_X(x_0)=\lim_{n \to x_0^+}F_X(x_0)= \lim_{n \to x_0^-}F_X(x_0) \] 故有: \[ P\{x=x_0\}=0 \] 由此可以看到,无论我们怎么计算,在连续型随机变量的分布函数上想要直接计算某一点处的概率,它将始终都会是0。

从这一结论,你应该就能明白,在概率论的开篇中,我们提到通过引入测度,将事件的概率测度与它在现实中发生的可能性这两个概念分开具有怎样重要的意义。

可以看到,在连续型随机变量中,某一点出的概率为0,并不意味着它在事件发生的角度来看是不可能的,而只是意味着这一点处的概率测度为0。

而之所以会出现概率测度为0的原因,是因为在这里一开始所着眼的计算目标就错了。打个比方来说就相当于,你并不会去计算一个点的长度,不会去计算一条线的面积,不会去计算一个面的体积。换句话说,在连续型随机变量中,计算某一点处的概率就相当于在求一条线的面积。

在认识到这一点之后,为了刻画连续型随机变量中某点处局部的概率性质就需要另外的工具,而这个工具在微积分的阶段就已经准备好早已被我们熟稔于胸——当然就是导数,即有: \[ F^{'}_X(x_0)=\lim_{x\to x_0}\frac{F_X(x)-F_X(x_0)}{x-x_0} \] 换句话说,对于连续型随机变量,我们用以刻画在一点处局部性质的量不是概率,而应该是概率测度的变化率。

借用我们在散度与测度一章中的两个相类似的例子来说,就是:

  • 在位移运动中,刻画某一瞬时性质的不是位移而是速度;
  • 在有质物体中,刻画某一质点性质的不是质量而是密度。

也因此,以质量与密度的关系来考量概率与概率变化率,才会将连续型随机变量的分布函数,一个变上限积分:\(F(x)=\int^x_{-\infty}f(t)dt\) 的导函数: \(F'(x)=f(x)\) 命名为概率密度

更要值得一提的是,如果用离散型随机变量的概率分布即:

一个随机变量对应一个确定的概率测度 \(x_i\sim P_i\)

来进行类比的话,连续型随机变量的概率分布实际上应当为:

一个随机变量对应其附近领域的概率测度 \(x_i\sim f(x_i)dx_i\)

而非直接对应概率密度函数 \(f(x)\),从这个类比,可以更直观的认为,若视离散型随机变量的分布函数为一个楼层分明的阶梯,那么连续型随机变量的分布函数就是一个将楼层无限增加细分从而使层次分明的阶梯最终转换为一个平滑化的斜坡。