贝叶斯公式的通俗解释理论如何应用于事件的预测

大多数时候贝叶斯公式的通俗解释统计在结果在最好的情况下是魔法,在最糟糕时是一种完全主观的废话在用到贝叶斯公式的通俗解释方法的理论体系中,马尔可夫鏈蒙特卡洛方法尤其神秘

这篇文章将介绍马尔可夫链蒙特卡洛方法,极其背后的基本数学推理

首先,什么是马尔可夫链蒙特卡洛(MCMC)方法呢

“MCMC就是一种通过在概率空间中随机采样来近似感兴趣参数的后验分布的方法”

在这篇文章中,我不用任何数学知识就可以解释上媔这个简短的答案

贝叶斯公式的通俗解释理论体系基本术语

感兴趣的参数只是用来抽象我们感兴趣的现象的一些数字。通常我们会使用統计的方法来估计这些参数例如,如果我们想了解成年人的身高那么我们需要的参数可能就是以英寸为单位的平均身高。

分布就是参數的各个可能值和我们能观察到每个参数的可能性的数学表示

最好的例子就是钟形曲线:

在贝叶斯公式的通俗解释统计方式中,分布还囿另一个解释贝叶斯公式的通俗解释不仅仅代表参数的值和每个参数的真实值有多大,而是认为分布描述了我们对参数的确信度因此,上面的钟形曲线可以表明我们非常确定参数的值接近于零同时我们认为真实值高于或低于该值的可能性是相等的。

事实上人的身高昰遵循一个正态分布的,所以我们假设平均人体高度的真实值遵循如下的钟形曲线:

显然这个图表显示这个人群以巨人的身高生活了很哆年,因为据调查所知最有可能的平均成年身高是6'2''英寸。

让我们想象某人去收集了一些数据然后他们观察到了一批5英寸和6英寸之间的囚。 我们可以用另一个正态分布曲线来表示这些数据这个曲线显示了哪个人体平均身高值最能解释数据:

在贝叶斯公式的通俗解释统计Φ,表示我们对参数确信度的分布被称为先验分布因为它在看到任何数据之前捕捉到了我们的知识。

似然分布以参数值范围的形式总结叻数据可以告诉我们什么而参数值中的每个参数解释了我们正在观察的数据的可能性。估计最大似然分布的参数值就是回答了这个问题:什么样的参数值能使分布最有可能观察到我们观察到的数据在没有先验信息的情况下,我们可能会就此打住了

然而,贝叶斯公式的通俗解释分析的关键是将先验信息和似然分布结合起来去确定后验分布这告诉我们,在有先验数据的情况下哪些参数值能够最大化观察到我们指定数据的概率。在上面的例子中后验分布应该是这样的:

在上面的图中,红线表示后验分布你可以把它看作一种先验和可能性分布的平均值。由于先验分布较短且较为分散所以它代表了一组关于平均人体身高真实值“不太确定”的概率。 同时可能性分布茬相对较窄的范围内就可以总结数据,因此它代表了对真实参数值“更确定”的概率

当先验和可能性结合在一起时,数据(可能性分布表示)弱化了个体在巨人中长大的可能性 尽管那个人仍然认为人的平均身高比数据告诉他的稍高一些,但是他最相信的还是数据

在两條钟形曲线的情况下,求解后验分布是非常容易的 有一个简单的方程来结合这两者。 但是如果我们的先验分布和可能性分布不那么好呢

有时,使用不是常规形状的分布来模型化我们的数据或我们先验信息是最准确的如果我们的可能性分布用两个峰值来表示更好,而且甴于某种原因我们想要解释一些非常古怪的先验分布时该怎么办呢?我已经通过手工绘制了一个丑陋的先验分布:

如之前所讲有一些後验分布可以给出每个参数值的可能性。但是很难确定分布曲线的具体样子而且通过分析也无法解决。

因此进入MCMC方法

MCMC方法允许我们估計后验分布的形状,以防我们无法直接计算事实上,MCMC就是马尔可夫链蒙特卡洛方法为了理解它们是如何工作的,我将首先介绍蒙特卡洛估计然后是讨论马尔可夫链。

蒙特卡洛估计是一种通过重复生成随机数来估计固定参数的方法在通过生成随机数并对其进行一些计算时,有时直接计算这个参数不现实时蒙特卡洛估计可以提供一个参数的近似值。

假设我们想估计下面圆圈的面积:

由于圆是在边长为10渶寸的正方形内因此可以容易地计算出它的面积为78.5平方英寸。 另一种方式我们可以在正方形内随机抽取20个点。然后我们计算在圆内嘚点的比例,并乘以正方形的面积而这个数字是一个非常好的圆圈面积的近似值。

由于20个点中有15个都位于圆内所以看起来圆的面积大約是75平方英寸。这个结果对于只有20个随机点的蒙特卡罗模拟方法来说也不算太坏

现在,想象一下我们想要计算蝙蝠侠曲线方程(Batman Equation)绘制的形狀的面积:

这是一个我们从来没有学过的方程的形状!因此找到蝙蝠信号的区域非常困难。不过通过在包含蝙蝠形状的矩形内随机地咑点,蒙特卡罗模拟方法就可以非常容易地找到该形状面积的近似值!

蒙特卡罗模拟不仅仅是用于估计复杂形状的面积通过生成大量的隨机数,它们可以用来模拟非常复杂的过程在实践中,习惯用该方法来预测天气或者估计赢得选举的可能性。

理解MCMC方法的第二个要素僦是马尔可夫链 这个就是事件相互关联概率的序列。每个事件来自一组结果而其中的每个事件的结果根据一组固定的概率来确定下一個事件的结果。

马尔可夫链的一个重要性质就是它们是无记忆的:在当前状态下你可能需要一切可用的事件来预测下一个事件,并且不能有从旧事件来的新信息像Chutes和Ladders这样的游戏展现了这种无记忆性或者叫马尔科夫属性。

?但是在现实世界中实际上很少有事件以这种方式工作。不过马尔可夫链是一种理解世界的有力方式。

在十九世纪钟形曲线被看作是自然界中一种常见的模式。(例如我们已经注意到,人的身高分布是一个钟形曲线)Galton Boards通过在装有钉子的木板上放置大理石来模拟重复随机事件的平均值,重现了大理石分布的正态曲線:

俄罗斯数学家和神学家帕维尔·涅克拉索夫(Peter Pavel Nekrasov)认为钟形曲线以及更一般的大数定律只不过是儿童游戏和琐碎谜题的产物,因为它嘚假设是每个事件都是完全独立的而涅克拉索夫认为现实世界中的事物是相互依存的,比如人的行为所以现实中的事物并不符合好的數学模式或分布。

安德烈·马尔可夫试图证明非独立事件也有可能符合这种模式。他最著名的实验例子之一就是要从俄罗斯诗歌作品中计算數以千计的两个字符对使用这些字符对,他计算出了每个角色的条件概率也就是说,给定某个前面的字母或空格下一个字母就有可能是一个A,一个T或一个空格

使用这些概率,马尔可夫能够模拟任意长的字符序列这就是一个马尔可夫链。

尽管前几个字母很大程度上取决于起始字符的选择但是马尔可夫表明,从长远来看字符的分布是一种模式。因此即使是相互依赖的事件,如果它们受到固定概率的影响也是一致的。

举一个更有说服力的例子假设你住在一个有五个房间的房子里,其中有一间卧室卫生间,客厅饭厅和厨房。

让我们收集一些数据假设你在任何时间点所在的房间都是我们认为的下一个可能进入的房间。例如如果你在厨房,你有30%的机会留茬厨房30%的机会进入餐厅,20%的机会进入客厅10%的机会去浴室,有10%的机会进入卧室利用每个房间的进入的概率,我们可以构建一個预测你下一个可能去的房间的马尔可夫链

如果我们想要预测房子里某个人在厨房里待一小会儿后会去哪里,那么马尔可夫链可以用于這一类预测但是由于我们的预测只是基于一个人在家里的一个观察,所以这类预测结果并不可靠

例如,如果有人从卧室走到浴室那麼他们更有可能直接回到卧室,而不是从厨房里出来所以马尔可夫属性通常不适用于现实世界。

然而将马尔可夫链进行数千次迭代,確实能够长期的预测你接下来可能会进入哪个房间更重要的是,这个预测并没有受到人们从哪个房间开始的影响!直观地说这是有道悝的:为了模拟和描述他们可能长期或通常所在地在哪里,某个时间点某人在家里的位置并不重要

因此,在一段时期内对随机变量建模並不合理的马尔可夫链方法却可以用来计算该变量的长期趋势。

有了蒙特卡洛模拟和马尔可夫链的一些知识我希望MCMC方法的零数学解释昰非常直观的。

回想一下我们试图估计我们感兴趣参数的后验分布,即人均身高:

我不是一个可视化的专家我也没有把我的例子放在瑺识的范围之内:我这个后验分布的例子严重地高估了人的平均身高。

我们知道后验分布在先验分布和似然分布范围内但是,我们很难矗接计算它 使用MCMC方法,我们就可以有效地从后验分布中抽取样本然后计算比如抽样样本的平均值。

首先MCMC方法考虑选择一个随机参数徝。然后模拟会继续生成随机值(这是蒙特卡罗的一部分)但要根据一些规则来确定什么是一个好的参数值。这个诀窍就是对于一对參数值,基于先验信息通过计算每个值在解释数据时的可能性有多大,来计算哪个参数值更好如果随机生成的参数值比最后一个参数徝更好,则以一定的概率值将其添加到参数值链中(这是马尔科夫链部分)

分布中某个值的高度代表了观察该值的概率。因此我们可鉯想象我们的参数值(x轴)在y轴上呈现出高低概率的区域。对于单个参数MCMC方法是沿x轴开始随机采样:

由于随机样本受到固定概率的影响,经过一段时间之后它们往往会在我们感兴趣参数概率最高的区域收敛:

蓝点只代表当预计会出现收敛时的随机样本。注意:为了说明嘚目的我垂直叠加了点。

在数据收敛之后MCMC抽样产生一组来自后验分布的样本点。 在这些点周围绘制直方图并计算任何您喜欢的统计數据:

根据MCMC模拟生成的样本集计算出的任何统计量就是我们对该真实后验分布统计量的最佳预测。

MCMC方法也可以用来估计多个参数的后验分咘(比如说人的身高和体重)

对于n个参数,存在n维空间中的高概率区域这些区域中的某些参数值组可以更好地解释观察到的数据。 因此我认为MCMC是一种在概率空间内进行随机采样来接近后验分布的方法。

回想一下“什么是马尔可夫链蒙特卡罗方法”这个问题的简短答案。那就是:

“MCMC就是一种通过在概率空间中随机采样来接近感兴趣参数的后验分布的方法”

全概率公式与贝叶斯公式的通俗解释公式的运用举例 一、全概率公式 是一个完备事件组并且P P(B)= 全概率公式针对的是某一个过程中已知条件求出最后结果的概率解题步骤如丅: ① 找出条件事件里的某一个完备事件组,分别命名为 ②命名目标的概率事件为事件B ③带入全概率公式求解 下面是具体实例对全概率公式的运用 1、甲盒子里面有4个红球3个白球乙口袋有2个红球,5个白球从甲口袋随机拿出一个球放到乙口袋,然后从一口袋中随机拿一个球求这个球是红球的概率。 解 :①完备事件组命名 ②目标事件B=“从乙里面取出红球” ③全概率公式求解 P(B)=P()P(B|+ P()P(B|= 2、甲袋中有5只白球, 7 只红球;乙袋中有4呮白球, 2只红球.从两个袋子中任取一袋, 然后从所取到的袋子中任取一球,求取到的球是白球的概率. ? ②目标事件B=“从袋子里面取出白球” ③全概率公式求解 P(B)=P()P(B|+ P()P(B|= 3、某射击小组共有20名射手,其中一级射手4人, 二级射手8人, 三级射手7人, 四级射手1人. 一、二、三、四级射手能通过选拔进入比赛的概率汾别是0.9、0.7、0.5、0.2 . 求任选一名射手能通过选拔进入比赛的概率. ? ②目标事件B=“射手通过选拔赛” ③全概率公式求解 P(B)=P()P(B|+ P()P(B|+ P()P(B|+ P()P(B| = = 二、贝叶斯公式的通俗解释公式 是一个完备事件组并且P P(|B)= 贝叶斯公式的通俗解释公式针对的是某一个过程中已知结果发生求出事件过程的某个条件成立的概率解题步骤洳下: ①找出目标条件所在的完备事件组,并命名 ②命名已知会发生的结果事件 ③带入贝叶斯公式的通俗解释公式求解 下面是具体实例对铨概率公式的运用 4、某学生接连参加同一课程的考试两次两次相互独立,第一次及格的概率是P如果第一次及格,那么第二次及格的概率也是P如果第一次不及格,那么第二次几个的概率就是,如果他第二次考试及格了求第一次考试及格的概率 解 :①完备事件组命名 ②目標事件B=“第二次考试及格” ③贝叶斯公式的通俗解释公式求解 == 5、 设某公路上经过的货车与客车的数量之比为2:1,货车中途停车修理的概率为0.02客车为0.01,今有一辆汽车中途停车修理求该汽车是货车的概率。 解 :①完备事件组命名 ②目标事件B=“汽车停车修理” ③贝叶斯公式的通俗解释公式求解 = 6、甲袋中有4个红球3个白球,乙袋中2个红球5个白球,从两个袋子里任取一个袋子出来然后从这个袋子里面拿出一个球,结果是红球求这个球是从甲袋取出来的概率。 解 :①完备事件组命名 ②目标事件B=“取到红球” ③贝叶斯公式的通俗解释公式求解 == 论文題目 贝叶斯公式的通俗解释公式的推广及其应用研究 学生姓名 晏围 学 号 专 业 数学与应用数学 班 级 01 指导教师 易艳春 职 称 一、选题的目的、意義及国内外研究动态 (一)研究目的与意义 1、研究目的 本文研究的对象是贝叶斯公式的通俗解释公式的推广及其应用研究探讨如何在当前社會决策中灵活运用贝叶斯公式的通俗解释公式,从而解决现实生活中的难题贝叶斯公式的通俗解释公式是概率论中重要的公式,用于计算比较复杂事件的概率它们实质上是加法公式和乘法公式的综合运用。随着经济全球化、知识资源化、信息网络化企业的面临的竞争越來越激烈决策者必须综合考察以往的信息及现状从而做出综合判断,决策概率分析这门学科越来越显示其重要性,其中贝叶斯公式的通俗解释公式主要用于处理先验概率与后验概率是进行决策的重要工具(二)国内外研究动态 1、国内研究动态 概率论和数理统计是研究随机現象统计规律性的一门数学学科,起源于17世纪发展到现在,已经深入到科学和社会的一切领域与国外相比较,贝叶斯公式的通俗解释悝论在我国的应用与发展尚属起步阶段但近年来我国学者逐步认识到该理论的重要性,并对此开展了一系列的研究因此我们相信贝叶斯公式的通俗解释统计理论在我国能得到迅速发展,并很快跟上世界主流1765 年。在一篇题为《机会学说中一个问题的解》的论文中,贝叶斯公式的通俗解释给出了逆概率思想,创立了贝叶斯公式的通俗解释定理统计学家巴纳德(C. Barnard, 1922)赞誉其为“科学史上最 著名的论文之一” 。贝叶斯公式的通俗解释定理原本是概率论中的一个定理 这一定理可用一个数学公式来表达, 这个公式就是著名的贝叶斯公式的通俗解释公式貝叶斯公式的通俗解释公式又称逆概率公式。 二、主要研究内容、创新之处 (一)主要研究内容 本文主要研究的内容: 第一部分主要阐述貝叶斯公式的通俗解释公式的内容; 第二部分主要分析贝叶斯公式的通俗解释公式的推广; 第三部分主要研究贝叶斯公式的通俗解释公式嘚应用研究 (二)可能的创新之处 (1)本文阐述了贝

先从摇骰子开始在古装电视中經常看到大侠听声辨点,还有小混混在骰子中加入重物使得某个数字更容易摇到。
假使有2个骰子一个是正常骰子,一个是不正常骰子正常骰子的质量均匀, 不正常骰子质量不均(更容易摇到1)
以图片的方式展现摇到1的占比,一个骰子6个面正常骰子的 1 就占 1个面的面積,非正常骰子的 1 占 3个面的面积
则,第一次两个骰子同时摇到 1 的概率是(粉色面积占总面积的比):

概率算法:两独立事件(全盖概率)

粉色的 1 面积 = 粉色中的占比 (1/4)* 粉色的面积 4 = 正常骰子这边粉色的占比(1/6)* 正骰子的面积 12 * 1/2

我要回帖

更多关于 贝叶斯公式的通俗解释 的文章

 

随机推荐