统计学(六)——概率的频率估计

统计学(六)——概率的频率估计

在最初接触概率的时候,我们学习的是古典概率,是频率派的解释。最常见的一个例子是抛硬币。如果一枚硬币是没有磨损的,那么抛一枚硬币出现正面和反面的概率都是0.5。以出现正面为例,其概率为0.5的含义是:重复抛硬币,抛N次,当N越大时,硬币出现正面的频次就越接近0.5*N。0.5这个概率是客观存在的,但是我们只能通过对事件结果发生的频率来猜测这个值。如果我们将重复抛硬币抽象为重复发生的事件,抛硬币的结果抽象为事件发生的结果,那么概率是可重复事件不停发生时,出现某种结果的频率。如果某种结果的概率越大,意味着出现某种结果的频率越高,很自然地,我们认为出现某种结果的可能性越大。

一、频率与概率

频率,描述了事件发生的频繁程度。频率和概率是不同的概念,我们经常把频率说成了概率。如:当我们抛一枚硬币100次,出现40次正面朝上,60次反面朝上,这时有人说,正面朝上的概率是 2/5,这就是没能将频率和概率区分出来。在上面这个例子中,关于40次出现正面朝上,只能说正面朝上的频率是 2/5,而不能说概率是 2/5。

概率是理想值,频率是实验值。概率指的是,在所有发生的事件中,某一个事件发生的次数占所有事件次数的百分比。这里的“所有发生的事件”,在现实中几乎是无法统计的,如:统计从古至今所有人抛硬币的数量、统计全国的民众对某个政策的满意度等,因此,通常的做法是通过大量的实验或抽样样本来估算出总体的概率值。例如:抛硬币100次,出现正面的频率是 3/10,如果是1000次,出现正面的频率是 4/10,如果是10000次,出现正面的频率是5/10,也就是抛硬币的次数越多,频率值越接近1/2,这时的频率值就可以作为概率值。

1.1 频率

在相同的条件下,进行了\(n\)次试验,在这\(n\)次试验,事件A发生的次数\(f_A\)称为事件A发生的频数。比值\(\frac{f_A}{n}\)称为事件A发生的频率,并记为\(f_n(A)\)。事件A发生的频率是它发生的次数与试验次数之比,其大小表示A发生的频繁程度。

大量试验证实,当重复试验的次数n逐渐增大时,频率\(f_n(A)\)呈现出稳定性,逐渐稳定于某个常数.这种“频率稳定性”即通常所说的统计规律性。我们让试验重复大量次数,计算频率\(f_n(A)\),以它来表征事件A发生可能性的大小,是合适的。但是,在实际中,我们不可能对每一个事件都做大量的试验,然后求得事件的频率,用以表征事件发生可能性的大小.同时,为了理论研究的需要,我们从频率的稳定性和频率的性质得到启发,给出如下表征事件发生可能性大小的概率的定义.

1.2 概率

设E是随机试验,S是它的样本空间。对于E的每一事件A赋予一个实数,记为\(P(A)\),称为事件A的概率,如果集合函数\(P(\cdot)\)满足下列条件:

非负性: 对于每一个事件A,有\(P(A)\geq 0\)

规范性 : 对于必然事件S,有\(P(S)=1\)

可列可加性: 设\(A_1,A_2,\cdots\)是两两互不相容的事件,即对于\(A_i,A_j=\empty,i\neq j,i,j=1,2,\cdots\)有

\[P(A_1\cup A_2 \cup \cdots )=P(A_1)+P(A_2)+\cdots

\]

可以证明,当\(n→∞\)时频率\(f_n(A)\)在一定意义下接近于概率P(A)。基于这一事实,我们就有理由将概率P(A)用来表征事件A在一次试验中发生的可能性的大小。长期的实践中总结得到“概率很小的事件在一次试验中实际上几乎是不发生的"(称之为实际推断原理)。

二、伯努利大数定理

切比雪夫不等式

设随机变量\(X\)具有数学期望\(E(X)=\mu\),方差\(D(X)=\sigma^2\)。则对于任意正数ϵ,不等式

\[P\{|X-\mu| \geq \epsilon\}\leq \frac{\sigma^2}{\epsilon^2}

\]

切比雪夫不等式给出了在随机变量的分布未知,而只知道\(E(X)和D(X)\)的情况下估计概率$$P\{|X- E(X)|<\epsilon\}$$的界限。

伯努利大数定理

设\(f_A\)是\(n\)次独立重复试验中事件A发生的次数,\(p\)是事件A在每次试验中发生的概率,则对于任意正数\(\epsilon\geq 0\),有

\[\lim_{n\rightarrow \infty} P\{|\frac{f_A}{n}-p| \geq \epsilon\} =0

\]

伯努利大数定理的结果表明,对于任意ε>0,只要重复独立试验的次数\(n\)充分大,事件$${ |\frac{f_A}{n}-p| \geq \epsilon}$$是一个小概率事件。亦即对于给定的任意小的正数ε,在\(n\)充分大时,事件“频率\(\frac{f_A}{n}\)与概率\(p\)的偏差小于\(\epsilon\)”实际上几乎是必定要发生的。这就是我们所说的频率稳定性的真正含义。

三、频率的平均性

“0-1分布”、“两点分布”亦称伯努利分布。若随机变量\(X\)服从伯努利分布, 参数为\(p(0

在实际问题中我们只关注某个概率结果,将其他结果视作这个结果的对立事件,这是最简单的看问题方法(二分法)。所以可将我们要做的试验看作只有两个可能结果的试验,比如正面或反面,成功或失败,有缺陷或没有缺陷,病人康复或未康复。为方便起见,记这两个可能的结果为0和1,这就是两点分布的来源。

如果随机变量\(X\)只取0和1两个值,并且相应的概率为\(p\)和\(1-p\),则

\(X\) 服从0-1分布或两点分布,记为\(X\)~\(b(1,p)\)。该分布的期望\(EX=p\),方差\(DX=p(1-p)\)。

在频数计数时,我们可将要计数的类别(组别)视作成功,其他视作失败,取值恰好就是1和0。每一次计数就是一个两点分布,\(n\)次计数就是\(n\)个两点分布。若设这样的两点分布服从随机变量\(X\),那么\(n\)次计数就得\(n\)个独立的两点分布\({X_1},{X_2},...,{X_n}\),就得:

\[\frac{\sum_{k=1}^{n}{X_k}}{n}=\frac{f_A}{n}

\]

即知频率是一组随机变量的平均数,这就是频率的平均意义。

中心极限定理

设随机变量\(X_1,X_2,...,X_n,...\)相互独立,服从同一分布,且具有数学期望和方差:\(E(X_k)=\mu\),\(D(X_k)=\sigma^2>0\) (\(k=1,2,..\)) 则随机变量之和 \(\sum_{k=1}^{n}{X_k}\) 的标准化变量

\[Y_n=\frac{\sum_{k=1}^{n}{X_k}-n\mu}{\sqrt{n}\sigma}

\]

的分布函数\(F_n(x)\),对于任意\(x\)满足

\[{F_n(x)}=lim_{n\rightarrow \infty}{P\{Y_n\leq x}\}=\int_{-\infty}^{x}\frac{1}{\sqrt{2\pi}}e^{-\frac{t^2}{2}}dt=\Phi(x)

\]

中心极限定理表明,当\(n\)充分大时,\(n\)个具有期望和方差的独立同分布随机变量之和近似服从正态分布。

伯努利大数定理是中心极限定理的特例。

设随机变量\(X_1,X_2,...,X_n,...\)相互独立,服从两点分布,其“成功”取1时的概率为\(p\),“不成功”取0时的概率为\(1-p\),那么

\[\sum_{k=1}^{n}{X_k}=f_A

\]

\[\frac{\sum_{k=1}^{n}{X_k}}{n}=\frac{f_A}{n}

\]

就是统计的频率。由上面定理结论可知,频率是对概率的有效近似,也是平均的近似、稳定的近似,这就是频率的稳定性。

设总体服从二项分布 $ X \sim B(n, p) $,表示在 $ n $ 次独立重复试验中,成功次数为 \(X\),单次成功概率为 \(p\)。记样本比例为:$$\hat{p} = \frac{X}{n}$$

希望推导当 $ n $ 较大时,$ \hat{p} $ 近似服从正态分布的结果。

拆解为 0-1 型随机变量之和

由于 $ X \sim B(n, p) $,可以看作 $ n $ 个相互独立的伯努利随机变量之和:

\[X = \sum_{i=1}^n X_i

\]

其中,$ X_i $ 表示第 $ i $ 次试验的结果,若成功则 $ X_i = 1 $,失败则 $ X_i = 0 $,且每个 $ X_i $ 满足:

\[E(X_i) = p, \quad D(X_i) = p(1-p)

\]

应用中心极限定理

根据中心极限定理,当 $ n $ 较大时,独立同分布随机变量和的分布趋于正态分布,即:

\[\frac{\sum_{i=1}^n X_i - n p}{\sqrt{n p (1-p)}} \overset{approx}{\sim} N(0,1)

\]

将 $ X $ 代入,得到:

\[\frac{X - n p}{\sqrt{n p (1-p)}} \sim N(0,1)

\]

转化为样本比例(频率)形式

由于 $ \hat{p} = \frac{X}{n} $,对上式两边同时除以 $ n $,变形得:

\[\frac{\hat{p} - p}{\sqrt{\frac{p(1-p)}{n}}} \sim N(0,1)

\]

因此,样本比例(频率) $ \hat{p} $ 的抽样分布近似服从正态分布:

\[\hat{p} \sim N\left(p, \frac{p(1-p)}{n}\right)

\]

四、概率的贝叶斯解释

概率在现代已经是一个深入人心的词语和概念。我们有的时候会说某件事发生的概率很大,实际上想表达的应该是某件事发生的可能很大。可能性是一种定性的概念,概率则是其度量。就好像一个人的能力好坏是定性的概念,而一个人的考试分数则可作为其好坏程度的度量。但是当我们试图将生活中遇到的所有“可能”替换为频率派的概率解释时,将会遇到一些困难。例如,我明天不带口罩出门,感染新型冠状病毒肺炎的可能有多大?如果直接套用频率派的解释,我需要不带口罩出门很多次,不停地作实验,最后得到一个频率,作为概率的近似。这显然是不合理的。为了解释这类非重复事件,频率派需要借助“替代现实”的概念。“替代现实”可以理解为“平行世界”。在N个“平行世界”中,观察我明天出门是否得肺炎,统计我得肺炎的频率,当N趋于无穷大时,这个频率趋近于我明天出门得肺炎的概率。这样的一个概率是客观存在的,但是需要假想所谓的“平行世界”才能通过观测推断得到。可以看到,非重复事件发生的可能性很难用概率派的解释去自然地描述。

此时,贝叶斯派的解释就显得更为自然了。概率被解释为一种“信念”,即个人对此事件发生可能性的主观判断。这种解释避免了频率派解释中需要事件可重复的麻烦。概率即“信念”是可以根据观测到的事实进行修正的。先验概率是原先对事件的判断,后验概率是我在得到新的信息之后的判断。此时,事件的可能性并不是如频率派解释中那样是客观存在的,而是一种主观的判断。对于同样的事件,不同人的判断可能不一样。我可能认为我出门得肺炎得概率为0.3,而我妈可能认为是0.9。在贝叶斯派看来,这都是合理的,因为两人的先验判断和得到的信息不一样,得到的判断也会不一样。

记我明天出门会得肺炎这个事件为A。我在没有其他额外信息,仅基于我过去对肺炎的认知,我会对我明天出门得肺炎发生的可能性有一个初步的判断,这可以称之为先验概率。我可能认为我得肺炎的可能性不大。如果可能性的大小以0到1的数度量,我的”信念“可能是0.3。此时,先验概率P(A)=0.3。如果我今晚看新闻,发现我的小区已经发现了一例肺炎患者。假设这个事件为X,那么我对我是否会得肺炎的判断可能会发生变化,可能从0.3上升为0.5。那么根据我得到的新的信息X,或者说我观察到的事件X,我修正后的”信念“即后验概率为P(A|X)=0.5。

这样的“Belief信念”变化的过程比频率派的解释更符合我们日常的思维方式。频率派在对不能重复发生的事件的概率进行解释时,需要假想“平行世界”。

总结

无论是频率派还是贝叶斯派,其概率的解释都是对于世界的可能性的一种建模。二者对于可能性的理解有所不同。在频率派看来,事件发生的可能性是客观的,可以通过不停地观察重复事件的结果推断。在贝叶斯派看来,可能性是一种“信念”,是一种主观判断,可以通过不停地接收新的信息而更新。这两种解释看似矛盾,但在我看来这两种解释都是对可能性的合理建模,虽然适用范围可能稍有不同,却是相互统一的。虽然我无法虚构出多个“平行世界”观察我是否得肺炎,但我得肺炎的可能性应该是一种客观的存在。但是日常做决策时,我只能在我固有的偏见(先验概率)的基础上,通过得到的新信息得出一个主观的可能性判断。

参考文献

频率与概率

概率的频率解释和贝叶斯解释

频率和概率、平均值和期望值

🌟 相关推荐

支付宝转账到银行卡,多久能到账?详解到账时间及影响因素
啤酒炸鸡的做法与步骤
bt365体育开户

啤酒炸鸡的做法与步骤

📅 08-16 👁️ 530
三控电子狗原理分析——光控、磁控、声控
365bet365网址

三控电子狗原理分析——光控、磁控、声控

📅 07-19 👁️ 2432