《统计学习方法》笔记--蒙特卡洛法

摘要:
蒙特卡罗方法,又称统计模拟方法,是一种通过随机抽样概率模型进行近似数值计算的方法。一般的蒙特卡罗方法包括直接抽样、接受拒绝抽样、重要性抽样等。图1-1接受拒绝抽样蒙特卡罗法也可用于数学期望估计。蒙特卡罗方法也可以用于定积分的近似计算,称为蒙特卡罗积分法。例如,使用蒙特卡罗积分法求解:让我们假设随机变量x在(0,1)区间内遵循均匀分布。

蒙特卡洛法(Monte carlo method),也称为统计模拟方法,通过从概率模型的随机抽样进行近似数值计算的方法。

它要解决的问题是,假设概率分布的定义已知,通过抽样获得概率分布的随机样本,并通过得到的随机样本对概率分布的特征进行分析。故这种方法的核心即是随机抽样

一般的蒙特卡洛法有直接抽样法、接受-拒绝抽样法、重要性抽样法等。

接受-拒绝抽样法(accept-reject sampling method),适合于概率密度函数复杂,比如其概率密度函数有多个变量,各变量相互不独立,密度函数形式复杂,从而导致其不能直接进行抽样的情况。

假设p(x)不能直接抽样,接受-拒绝法先找一个可以直接抽样的分布q(x),称为建议分布,且q(x)的c倍一定大于等于p(x)。按照q(x)进行抽样,假设得到结果是x*,按的《统计学习方法》笔记--蒙特卡洛法第1张比例随机决定是否接受x*。

《统计学习方法》笔记--蒙特卡洛法第2张

图1-1 接受-拒绝抽样法

蒙特卡洛法还可以用于数学期望估计。假设有随机变量x,其概率密度函数为p(x),f(x)为定义在X上的函数,目标是求函数f(x)关于密度函数p(x)的数学期望《统计学习方法》笔记--蒙特卡洛法第3张

做法是按照概率分布p(x)独立地抽取n个样本《统计学习方法》笔记--蒙特卡洛法第4张,之后计算函数f(x)的样本均值《统计学习方法》笔记--蒙特卡洛法第5张

《统计学习方法》笔记--蒙特卡洛法第6张

作为数学期望《统计学习方法》笔记--蒙特卡洛法第7张的近似值。当抽样的样本容量增大时,样本的均值以概率1收敛于数学期望。

蒙特卡洛法还可以用于定积分的近似计算,称为蒙特卡洛积分法。假设有一函数h(x),目标是计算该函数的积分

《统计学习方法》笔记--蒙特卡洛法第8张

如果能够将h(x)分解成一个函数f(x)和一个概率密度函数p(x)的乘积的形式,那么就有

《统计学习方法》笔记--蒙特卡洛法第9张

这样h(x)的积分就可以表示成一个函数f(x)关于一个概率密度函数p(x)的数学期望。而函数的数学期望又可以通过函数的样本均值估计。那么样本均值就能来近似地计算积分了。

《统计学习方法》笔记--蒙特卡洛法第10张

例如,用蒙特卡洛积分法求《统计学习方法》笔记--蒙特卡洛法第11张

解:令《统计学习方法》笔记--蒙特卡洛法第12张

即假设随机变量x在(0,1)区间遵循均匀分布。

使用蒙特卡洛积分法,在(0,1)区间按照均匀分布抽取10个随机样本《统计学习方法》笔记--蒙特卡洛法第13张,计算样本的函数均值《统计学习方法》笔记--蒙特卡洛法第14张

《统计学习方法》笔记--蒙特卡洛法第15张

样本

X1

X2

X3

X4

X5

X6

X7

X8

X9

X10

f(x)

0.043

0.045

0.054

0.059

0.076

0.094

0.111

0.111

0.115

0.124

表1-1 10个随机样本对应f(x)的值

故原式子的近似积分为《统计学习方法》笔记--蒙特卡洛法第16张

马尔可夫链的一些定义和性质

设有马尔可夫链《统计学习方法》笔记--蒙特卡洛法第17张,其状态空间《统计学习方法》笔记--蒙特卡洛法第18张,转移概率矩阵《统计学习方法》笔记--蒙特卡洛法第19张

平稳分布

如果存在状态空间《统计学习方法》笔记--蒙特卡洛法第20张上的一个分布《统计学习方法》笔记--蒙特卡洛法第21张使得《统计学习方法》笔记--蒙特卡洛法第22张生成,则称《统计学习方法》笔记--蒙特卡洛法第23张为马尔可夫链《统计学习方法》笔记--蒙特卡洛法第24张的平稳分布。

也即,以该平稳分布作为初始分布,面向未来进行随机转给转移,之后的任意一个时刻的状态分布都是该平稳分布。

分布《统计学习方法》笔记--蒙特卡洛法第25张为马尔科夫链平稳分布充分必要条件为《统计学习方法》笔记--蒙特卡洛法第26张是下列方程组的解:

《统计学习方法》笔记--蒙特卡洛法第27张

例如有图1-2 的马尔可夫链,其转移概率矩阵为

《统计学习方法》笔记--蒙特卡洛法第28张

求其平稳分布。

《统计学习方法》笔记--蒙特卡洛法第29张

图1-2 实例马尔可夫链

解:设平稳分布为《统计学习方法》笔记--蒙特卡洛法第30张,有方程组得

《统计学习方法》笔记--蒙特卡洛法第31张

解方程组,得到唯一的平稳分布《统计学习方法》笔记--蒙特卡洛法第32张

不可约性

如果时刻0从状态j起,时刻t为状态i的概率大于0,《统计学习方法》笔记--蒙特卡洛法第33张,则称此马尔可夫链是不可约的。

也即,一个不可约的马尔可夫链,从任意状态出发,经过充分长的时间后,可以到达任意状态。

而下图的马尔可夫链是可约的,

《统计学习方法》笔记--蒙特卡洛法第34张

图1-3 可约的马尔可夫链

通过计算,该马尔可夫链的平稳分布为《统计学习方法》笔记--蒙特卡洛法第35张,表明此链,转移到状态3后,就在该状态上循环跳转,不能到达状态1和状态2。

非周期性

如果一马尔可夫链在时刻0从状态i出发,时刻t返回到该状态i的所有时间长 《统计学习方法》笔记--蒙特卡洛法第36张 的最大公约数是1,则称此马尔可夫链是非周期的。

也即,一个非周期性的马尔可夫链,不存在一个状态,从这个状态出发,再返回到这个状态时所经历的时间长呈一定的周期性。

而下图的马尔可夫链是周期的,

《统计学习方法》笔记--蒙特卡洛法第37张

图1-4 周期的马尔可夫链

通过计算,该马尔可夫链的平稳分布为《统计学习方法》笔记--蒙特卡洛法第38张,表明此链,从每个状态出发,返回该状态的时刻都是3的倍数,具有周期性,最总停留着每个状态的概率都为1/3。

正常返性

定义概率《统计学习方法》笔记--蒙特卡洛法第39张为马尔可夫链在时刻0从状j出发,时刻t首次转移到该状态i的概率,即《统计学习方法》笔记--蒙特卡洛法第40张,若对所有的状态i,j都满足《统计学习方法》笔记--蒙特卡洛法第41张,则称此马尔可夫链是正常返的。

也即,一个正常返的马尔可夫链,其中任意一个状态,从其他任意一个状态出发,当时间趋近于无穷是,首次转移到这个状态的概率不为0。

可逆马尔可夫链

如果任意状态i,j,对任意一个时刻t满足

《统计学习方法》笔记--蒙特卡洛法第42张

则称此马尔可夫链为可逆马尔可夫链,上面的等式组也称细致平衡方程。

也即,一可逆马尔可夫链,以平稳分布作为初始分布,进行随机状态转移,无论是面向未来还是面向过去,任何一个时刻的状态分布都是该平稳分布。

而下图的马尔可夫链是不可逆的,

《统计学习方法》笔记--蒙特卡洛法第43张

图1-5 不可逆的马尔可夫链

通过计算,该马尔可夫链的平稳分布为《统计学习方法》笔记--蒙特卡洛法第44张,不满足细致平衡方程。

而通过分析和推理,能得到:

  1. 不可约且非周期的有限状态马尔可夫链,有唯一平稳分布存在
  2. 不可约、非周期正常返的马尔可夫链,有唯一平稳分布存在
  3. 可逆的马尔可夫链一定有唯一平稳分布存在

免责声明:文章转载自《《统计学习方法》笔记--蒙特卡洛法》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇初识linuxCA证书安装以及SSLH协议转发下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

大数据技术之_19_Spark学习_08_Spark 机器学习_01_机器学习概述 + 机器学习的相关概念 + 算法常用指标

第1章 机器学习概述1.1 机器学习是啥?1.2 机器学习能干啥?1.3 机器学习有啥?1.4 机器学习怎么用?第2章 机器学习的相关概念2.1 数据集2.2 泛化能力2.3 过拟合和欠拟合2.4 维度、特征2.5 模型2.6 学习第3章 算法常用指标3.1 精确率和召回率3.2 TPR、FPR & TNR3.3 综合评价指标 F-measure...

机器学习 —— 概率图模型(推理:MAP)

  MAP 是最大后验概率的缩写。后验概率指的是当有一定观测结果的情况下,对其他随机变量进行推理。假设随机变量的集合为X ,观察到的变量为 e, W = X-e , AP = P(W|e). 后验概率和联合概率是不同的两个概念。事实上,后验概率更接近推理本身的“意义”,并且被越来越多的用于诊断系统中。在医疗诊断系统中,存在包括病症,症状等许多随机变量,使用...

统计学基础知识(一)---描述统计(Descriptive Statistics)

描述统计(Descriptive Statistics):将数据的信息以表格,图形或数值的形式进行汇总。 数据类型:分为定量数据(数值型数据)和定性数据(类别型数据)。数值型数据又可以分为连续型和离散型,类别型数据又可以分为有序型和无序型。 定性数据: 频数(frequency):数据出现的次数。 相对频数(relative frequency):数据出现...

SPSS Modeler数据挖掘:回归分析

SPSS Modeler数据挖掘:回归分析 1 模型定义 回归分析法是最基本的数据分析方法,回归预测就是利用回归分析方法,根据一个或一组自变量的变动情况预测与其相关的某随机变量的未来值。 回归分析是研究一个变量(被解释变量)与另一个或几个变量(解释变量)的具体依赖关系的计算方法和理论。 回归分析的主要内容: 从一组数据出发,确定某些变量之间的定量关系,...

QuantLib 金融计算——原理之蒙特卡洛(Monte Carlo)

目录 QuantLib 金融计算——原理之蒙特卡洛(Monte Carlo) 概述 蒙特卡洛与设计模式 随机路径的模拟效率的瓶颈与变通的办法 扩展阅读 QuantLib 金融计算——原理之蒙特卡洛(Monte Carlo) 概述 在金融工程计算中,蒙特卡洛最常见的应用场景是为衍生品定价,特别是路径依赖的奇异期权。 作为金融工程计算的三大方...

提高机器学习模型准确率的八大方法

原文连接:http://www.techweb.com.cn/network/system/2016-01-27/2269274.shtml 此文仅是一个小品文,详细理论请读论文,参考书籍。 前言:我的概述 机器学习面对的是一个受限有穷空间 到 一个扩大的有穷空间 的泛化问题。若假设空间足以覆盖真实的数据空间,机器学习方法可以弃之不用,专家的人工归纳可以...