赫尔辛基大学AI基础教程:贝叶斯定理(3.2节)

2018年05月30日 由 yuxiangyu 发表 394563 0


赫尔辛基大学AI基础教程合集:赫尔辛基大学AI基础教程


在本章中我们不会过分介绍概率微积分的细节以及它用于各种AI应用程序的方法。但我们将讨论一个非常重要的定理。






我们之要讨论他,因为这个特殊的定理简单而且强大。它可以用来衡量医学,法庭和许多(可能不是全部)科学学科的相互矛盾的证明。它被曾为被称为贝叶斯定理(Bayes rule或者Bayes formula)。





我们将首先通过一个简单的医学诊断问题来展示贝叶斯定理的强大力量,这个问题突出了我们的直觉多么组合冲突的证据。然后,我们将展示如何使用贝叶斯定理来构建处理冲突和噪声观测的AI方法。







关键术语




先验和后验赔率


贝叶斯定理可以以多种形式表达。最简单的就是赔率。它的概念是取得正在发生的事物的赔率(对立于没有发生的),我们将其写成先验赔率(prior odds)。“先验”一词是指我们在获得一些相关的新信息之前对赔率进行的评估。它的目的是在新信息变得可用时更新先验赔率,获得后验赔率或者说获得信息后的赔率。(后的意思是“后来发生的事”。)







赫尔辛基大学AI基础教程:贝叶斯定理

赔率如何变化




为了权衡新信息,并决定赔率变得可用的时候怎样进行变化,我们需要考虑在其他情况下我们会遇到这种信息的可能性。举个例子,今天晚些时候下雨的可能性。想象一下,在芬兰早上起床。在这里365天下雨的天数为206天(还包括下雪和冰雹,呵呵!)。也就是说不下雨的天数为159,因此转换为先验赔率为206:159,所以在你睁开眼睛之前,概率已经现实对你不利了。





然而,在睁开眼睛看一看外面,你会发现天是阴的。假设在下雨天早上阴天的可能是十分之九 - 这意味着只有十分之一的雨天早上是晴天。但是有时候也有阴天不下雨的情况:在无雨的日子里有云的机会是10分之一。现在雨天早上多云的几率比无雨日早上多云的几率高多少?仔细思考这个问题,因为它对于理解问题并得到答案是很重要。





答案是,雨天早上多云的几率是无雨日早上多云几率的9倍:雨天有云的几率是9/10,无雨天有云的几率是1/10。




关键术语




似然比


上述比率被称为似然比(雨天早上多云的几率是无雨日早上多云几率的9倍的这个比率)。通常,似然比是有感兴趣事件情况下观测的概率(上文雨天多云的比率)除以在没有感兴趣事件的情况下观察的概率(上文无雨日多云的比率)的情况下观察的概率。请把前面的句子读几遍。可能有点绕,但只要你集中精力,消化并不是不可能的。我们将详细介绍这些步骤,打起精神来。





所以我们得出结论:在阴天早晨,我们有:似然比=(9/10)/(1/10)= 9





贝叶斯定理将先验赔率转换为后验赔率:后验赔率=似然比×先验赔率





现在你也许在想:等下,这就是公式?只是一个乘法而已!这就是公式 - 我们说过这很简单,不是吗?但你不会想到,一个简单的乘法可以用在各种令人不可思议的有用的应用程序,但它可以。下面,我们研究几个例子来证明这一点。




注意


许多形式的贝叶斯


如果你在以下练习中遇到任何问题,你可能需要花些时间阅读上述材料,或者,也可以网上查找更多材料。贝叶斯定理有很多不同的形式,我们使用的概率形式不是最常见的。此外你可以访问以下两个链接,可能会对你有用。




  • https://www.youtube.com/watch?v=tRE6mKAIkno

  • https://betterexplained.com/articles/understanding-bayes-theorem-with-ratios/


 

练习10:贝叶斯定理(第1部分)





应用贝叶斯法则来计算在赫尔辛基早晨观测到的云之后降雨的后验概率。

正如我们上面计算的那样,观测到的云降雨的先验概率是206:159,似然比是 9

以赔率形式给出结果,xx:yy,其中xx和yy是数字。请记住,当乘以赔率时,你应该只乘以分子部分(xx部分)。给出没有简化的答案(即使两遍有同一公分母)。




贝叶斯定理实践:乳腺癌筛查




我们的第一个现实应用是使用贝叶斯定理的经典例子,医学诊断。这个例子也说明了处理不确定信息的一个普遍的偏见,叫做基础比率谬论(base-rate fallacy)。




赫尔辛基大学AI基础教程:贝叶斯定理

赫尔辛基大学AI基础教程:贝叶斯定理

思考乳腺癌的X光照相检查。为了简化数据,我们假设百分之五的女性患有乳腺癌。假设,如果一个人患有乳腺癌,X光检查会在100次中80次有机会发现(技术性的说法是测试的灵敏度为80%)。当检查结果显示存在乳腺癌时,我们说结果是阳性的





这种检查也可能出现另一种失误,即没有乳腺癌存在时误报乳腺癌。我们称这样的结果为假阳性。假设,如果接受检查的人实际上没有患乳腺癌,检测结果为阳性的概率是10比100。





基于上述概率,你可以计算似然比。在下一个练习中你会发现它的用处。




练习11:贝叶斯定理(第2部分)





思考上述乳腺癌的情况。一名普通妇女进行X光照相检查,得到阳性检测结果,提示乳腺癌。你认为她患有乳腺癌的几率是多少?

使用你的直觉而不应用贝叶斯定理,并记录下来,你认为在阳性检查结果之后,她实际患乳腺癌的几率是多少。然后,使用贝叶斯定理计算患乳腺癌的后验概率。

首先计算先验赔率,然后乘以似然比。

以xx:yy形式给出答案,其中xx和yy是数字,给出没有简化的答案(即使两遍有同一公分母)。



 

 

练习8:概率预测





思考以下四个概率预测和结果。根据预测结果的正确性可以得出什么结论?我们能否得出推断:预测给出的概率确实是正确的(选择“对”),预测是错误的(选择“错”),或者无法得出结论(选择“不能得出结论”)。



1.天气预报称,明天天气将以90%的概率下雨,但全天都是晴。(不能得出结论)


我们不能基于单一事件推测天气预报是错的。题干说,天气预报说90%下雨,也相当于说,百分之十不下雨,或者说这样的天气十天里有一天不会下雨。所有有问题的一天是十个事件中的一个完全合理。90%的概率既可能正确的也可能是错误的,否则,我们也可以推断80%的降雨概率也是正确的,然而他们不能同时正确。


2.天气预报称,明天天气将以0%的概率下雨,但这天下雨了。(错)


这个显然不对,0%的概率意味着绝对不下雨,但它下了。


3.假设你长时间监视天气预报员。你只统计预测会有70%的降雨机率的日子。你发现从长远来看,这些日子平均每五天就有三天下雨。(错)


如果他们预测有70%的降雨,但在长期内只有60%下雨,那么严格的说,天气预报是错的。实际上,天气预报员现实中倾向于提供这样一种“错误”的预测,只是为了保险起见:当天气变得比预测的更糟糕时,人们往往会感到非常失望,但当结果比预期的要好时,人们就不会那么失望了。


4.在2016年美国总统大选中,一个著名的政治预测博客Five-Thomson认为希拉里·克林顿的胜率为71.4%(vs特朗普的28.6%)。然而,与预测相反,唐纳德·特朗普当选为第45任美国总统。(不能得出结论)


当一些不太可能的事情发生时不能判断对错。首先考虑之前的题,如果没有足够的信息预测结果的话,预测特朗普的胜率,比如说90%或100%都是错的。换句话说,或许特朗普的胜利有一个罕见的事件,概率为23.1%。



练习9:赔率





如上所述,赔率3:1等于概率的0.75(或百分比75%)。

一般来说,如果赞成事件的赔率是x:y,则事件的概率等于x /(x + y)。

正如我们前文说的那样,6:2的概率等于和3:1完全相同的概率,因为对于x = 6和y = 2,我们得到相同的结果:x /(x + y)= 6 /(6 + 2)= 6 / 8 = 3/4 = 0.75。

你的任务:

对于前三题1-3,从赔率转换为整数的比值; 例如从1:1到1/2。

对于后三题4-6,将概率转换为百分比(例如4.2%)。以百分比形式给出答案,取一位小数,例如12.2%。

提示:计算要用一个简单的计算器,公式可以在上面找到。



1.在扑克中获得三条机会大概是1:46。(1/47)


2.赫尔辛基下雨的可能性为206:159。(206/365)


3.圣地亚哥的降雨可能性为23:342。(23/365)


4.在扑克中获得三条机会大概是1:46。(2.1%)


5.赫尔辛基下雨的可能性为206:159。(56.4%)


6.圣地亚哥的降雨可能性为23:342。(6.3%)


 

 
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消