没有应用数学,只有数学的应用。概率论作为数学的一个重要分支,成功的让许多人望而却步。其实日常生活中有很多概率论的实际应用。想不想让随机迷茫的人生变得明朗可控?带着具体问题出发,让好奇心战胜恐惧感,尽情感受数学之美吧。
[生活概率论-3]中提到的共轭先验是什么意思?经过[生活概率论-4]的铺垫,终于可以来到重头戏了。我们先从贝叶斯定理(Bayes' theorem)出发,给出贝叶斯推断(Bayesian inference)的直观解释,之后自然的引出共轭先验(Conjugate priors)以及其应用。
考虑这样一个场景。一个国家由A、B、C三个省组成,P(A) 给出 A省的面积,P(F, A) 是 A省的森林面积,则 A省的森林覆盖率为 P(F, A) / P(A),记作 P(F|A)。现在想知道 A省的森林面积占全国森林面积的比重,记作 P(A|F),就可以用下面的式子计算:
其中 P(F) 是 全国森林的面积。此时只要把面积看作概率,加上条件:全国面积 P(A) + P(B) + P(C) = 1,就变成大名鼎鼎的贝叶斯定理了。这种转变无论是直观上,还是数学上,都十分自然。
概率就是事件在样本空间中的“面积”
函数P具体描述了从事件到面积的映射关系
只是概率中的“面积”被限制为[0, 1]之间的实数而已
0表示事件不可能发生
1表示事件一定发生
0~1之间的就是随机发生,值越大越可能发生
P(X|Y)是条件概率的写法
P(F|A)表示在事件A已发生的情况下,事件F发生的概率(当站在A省内时,有多大概率是在森林里)
P(A|F)表示在事件F已发生的情况下,事件A发生的概率(当站在森林里时,有多大概率是在A省内)
注意上式中的 P(A|F) 和 P(F|A) 正好是颠倒的。这种已知“正向”概率,求解“逆向”概率的应用在现实中非常多。比如掷一枚不均匀的硬币,其均匀程度由 Θ 描述。扔这枚硬币10次,发现有3次正面,7次反面,问 Θ 的情况。这类问题都有一个共性:
已知每次实验产生的结果(每次扔硬币的结果)
结果的产生遵循给定模型(伯努利分布)
模型中的参数 Θ 是未知的(硬币的均匀程度)
希望根据有限的观察来推测出 Θ(找到背后的真相)
还可以继续进行实验,获得新的数据,不断迭代更新对 Θ 的估计
我们把 Θ 当作随机变量,计算其分布。也就是算出每一个 Θ 取值的可能性。这就是贝叶斯推断
那为什么非要估计?难道不能通过分析实验结果,精确的得到参数 Θ 吗?答案是,理论上可以,但实际上不行。因为现实世界里,影响实验结果的因素非常多,比如周围各种风吹草动的干扰。我们不可能把所有因素都考虑进来,所以即使是重复同样的实验,也可能得到不同的结果。把所有干扰统统计入随机变量,就可以靠贝叶斯推断获得一个比较“有弹性”的结论了(在峰值附近的一个分布)。
让我们把森林面积问题抽象成标准的贝叶斯推断形式:
或者简要写成:
其中:
Θ 是模型参数,θ 是模型参数的一个取值
P(Θ=θ) 是模型参数为 θ 的概率,也叫先验概率(Prior Probability)。因为这个值是在实验进行之前,我们从其他途径或主观认为的概率。比如认为大部分硬币都是均匀的,θ=0.5 作为其扔出正面的概率。P(Θ=0.5)=0.9 表示我们主观认为,90%的情况下,掷硬币获得正面的概率是50%
D 是由当前模型生成出来的样本(实验结果)。掷硬币的话,D 就是 {0, 1, 1, 0, ...} 的序列,1 代表正面,0 代表反面
P(D|Θ=θ) 叫做似然(Likelihood),表示样本 D 由给定模型生成出来的概率。比如 P( {0,0,0,0} |Θ=0.5)=1/16,这个概率很低,因为对于一个均匀的硬币,连续四次都扔出正面的概率就是1/16;但对于Θ=0.9的硬币时,即90%概率出现正面,连续四次都扔出正面的概率就增大到0.6561了
P(Θ=θ|D) 是在观察到样本 D 后,模型参数 Θ=θ 的概率,叫做后验概率(Posterior Probability)
分母部分对所有可能的 θ 值积分(若θ是离散的就求和,类比不同城市的森林面积之和)。分母的作用是归一化,让后验概率的值在 [0, 1] 之间
把 P(Θ=θ)、P(Θ=θ|D) 看作是 θ 的函数,就成了先验、后验分布
一次实验后得到的后验分布,可以作为下一次实验前的先验分布
通过不断的进行实验,不断的收集数据,可以不断的更新后验分布
可以对后验分布做分析,比如求平均值、方差等,从而得出结论
其实日常生活中,人们本能的在使用贝叶斯推断。其中先验概率也叫 信念(Belief),就是人们对某种规律的相信程度。比如俩人还没怎么交往时,初始信念为“我男朋友一定是白马王子”。在与其相处的半年中,不断吵架、失望、被出轨(不断更新后验分布)。基于这些惨痛经历,当初的信念动摇了,认为“他就是个渣男”(信念改变了)。
好吧,用定量描述来实践一下。还是掷硬币问题,我们用下述先验分布(随便选取的):
θ 越接近 1,函数的值越大。意味着,我们认为此枚不均匀的硬币有更大可能性扔出正面结果。下面就是真的做5次实验,结果连续5次得到了反面(即跟我们预想的有很大差距)。注意每次实验的结果对后验概率分布的影响:
后验概率的表达式
后验概率分布的图像
其中0号曲线代表先验分布,1-5号曲线代表获得第几次反面后的后验分布。可以看出,概率密度逐渐向 θ = 0 的一侧集中,表示贝叶斯推断基于实际结果,逐步纠正了我们当初的信念。另外,值得注意的是,后验分布的表达式也越来越复杂(如何简化?)。
刚才我们看到了实验结果是如何更新后验分布的,这回再看看先验分布起什么作用。换个先验分布:
此分布的概率密度更集中于 θ = 1 的区域,说明我们坚信这枚硬币扔出正面的概率更大,不是一两次反面结果所能动摇的。
经过5次反面结果的啪啪打脸,后验分布虽然也向 θ = 0 侧移动,但没有之前移动得多。说明如果当初的信念很坚定,那么就需要更多次的打脸,才能改变初心。当然了,在残酷的现实面前,只要持续的教育,就算是直男癌也能被掰弯。当我们对实验的结果知之甚少时,一般会使用高熵的先验分布(熵是什么?),比如均匀分布(一种Uninformative prior),认为各种不均匀硬币出现的概率一样,即不对 θ 做过多预先假设。
如果先验分布是Uninformative prior,则后验分布主要受实验数据支配
如果先验分布是Informative prior,则后验分布同时受先验分布和实验数据支配
具有越多信息的Informative prior,就需要越多的实验数据才能影响后验分布
如果有充分多的实验数据,则后验分布受实验数据支配,先验分布的影响可以忽略
还有一点需要注意,就是先验分布是不需要归一化的。比如上面两个先验分布,外面的常数系数是可以省略的。因为贝叶斯推断的分母部分也会包含同样的内容,可以约分抵消掉。那些没有归一化的先验分布,叫做(Improper prior)。
现在来回答如何简化后验分布的表达式。是啊,这才迭代5次,就这么复杂了,而现实中的实验数据往往成百上千,那岂不是没法应用贝叶斯推断了?一方面,我们要选择尽可能简单的似然函数 P(D|Θ),这个关乎模型的选择。越复杂的模型,越能发现事物深层次的规律,学习能力越强,代价是更多的计算量。假设模型已经选定,那么先验分布 P(Θ) 应该如何选择呢?严格的讲,先验分布是我们内心的信念,是独立于模型的。但有没有可能,我们不精确的表达内心的信念,而是选择一个特殊的先验分布,能够近似的描述这个信念,同时又能起到简化计算的作用?答案是 可能!聪明的统计学家们已经帮我们找到一条路,这就是共轭先验。
给定似然 P(D|Θ),如果能找到一个先验分布 P(Θ) ,使得经过贝叶斯推断的计算,所得到的后验分布 P(Θ|D) 与先验分布属于同类分布(比如都是正态分布),则 P(Θ) 是 似然 P(D|Θ) 的共轭先验(共轭就是 Mathematically compatible)。 对于掷硬币的例子,似然是伯努利分布,其共轭先验是Beta分布(具体的推导方式以后再说),其PDF为:
其中 α, β 叫做Hyperparameter,因为它们是描述模型参数Θ的参数。分母的积分用于归一化。θ 代表扔出正面的概率,取值在 [0, 1] 之间,所以分母完整的覆盖了这一区域,起到了归一化的作用。再看看后验分布:
棒极了!仍然是Beta分布的形式。我把程序中设置先验分布的那行改为 prior = PDF[ BetaDistribution[3, 1], s ],看看每次得到的后验分布:
嗯,一直保持很简洁的Beta分布形式。更有趣的是,注意 (s - 1) 的指数在不断+1,代表实验获得反面结果的累计次数。而我指定先验分布时,也设置了 3-1=2次 正面,1-1=0次 反面 的Beta分布。这意味着,Beta分布的两个Hyperparameter起到了Pseudo counter的作用。也就是在我对此实验有某些直觉的时候,可以用 α, β 来表达进行实验之前就已经“观察”到的正反面次数。α+β 的值越大,就表示越相信自己的直觉。这样,后验分布就不会被少量数据牵着鼻子走。
不只是伯努利分布与Beta分布了,其实很多常见的分布,都是更广泛的指数族的成员(Exponential family)。这个家族中的分布具有一些很棒的性质,其中之一就是都有对应的共轭先验,后者往往也在指数族中,这为贝叶斯推断提供了极大便利。这些内容以后找合适的场合再进行解释。
【引文】
《程序员的数学2-概率统计》 [日]平冈和幸,(日)堀玄 著
https://stats.stackexchange.com/questions/58564/help-me-understand-bayesian-prior-and-posterior-distributions
http://lesswrong.com/lw/5sn/the_joys_of_conjugate_priors/
https://courses.engr.illinois.edu/cs598jhm/sp2010/Slides/Lecture02HO.pdf
还没有评论,来说两句吧...