指数加权移动平均

摘要:
指数移动加权平均的另一个特点是它能够吸收瞬时爆发,即它的平稳性。如果过去估计的权重较低,则其较小,则其平稳性将较差,否则,其平稳性会增强。指数移动加权平均的原理是什么?因此,在机器学习中,大多数使用指数加权平均法来计算平均值。
指数加权移动平均

以下内容来自 https://zhuanlan.zhihu.com/p/32335746,纯用作记录

指数加权移动平均(Exponentially Weighted Moving Average),他是一种常用的序列处理方式。在(t)时刻,移动平均值公式是

[v_t = eta v_{t-1} + (1 - eta) heta_t ]

其中(v_t)(t)时刻的指数加权移动平均值,( heta_t)(t)时刻的真实值,(eta)是权重,是一个超参数。系数 (eta) 越小就说明对过去测量值的权重越低,也就是对当前抽样值的权重越高。这个时候移动平均估计值的时效性就越强(其实也就是更加拟合点分布的趋势)。反之,则会越弱。指数移动加权平均还有另一个特点就是能吸收瞬时突发的能力也就是平稳性(使得得到的曲线趋势能够更加平缓),如果对过去估计值的权重越低也就是 (eta) 越小,那么他的平稳性就差一点,反之平稳性会增强。

我们使用 (eta=0.9) 来看看指数移动加权平均的原理是什么?

[egin{split} v_{100}&=0.9v_{99}+0.1 heta_{100} \ v_{99}&=0.9v_{98}+0.1 heta_{99}\ v_{98}&=0.9v_{97}+0.1 heta_{98}\ cdots &= cdots end{split} ]

我们将式子一步一步的带入得到最终式子:

[egin{split} v_100 &= 0.1 imes 0.9 ^0 imes heta_{100}\ &+ 0.1 imes 0.9^1 imes heta_{99}\ & + 0.1 imes 0.9^2 heta_{98} \ &+ cdots\ & + 0.1 imes 0.9^{99} imes heta_{1} end{split} ]

我们认为,上述操作,实际上是10天的平均结果,因为(0.9^9 imes 0.1)非常小了,后续的可以近似为0。当(eta)为其他值时,平均的天数可以通过以下公式进行计算

[n_{average} = dfrac{1}{1 - eta} ]

计算指数加权平均数只占单行数字的存储和内存。他的效率和资源的占有率会大大的减小。 所以在机器学习中大部分采用指数加权平均的方法计算平均值。

指数加权移动平均的偏差修正

如同推荐系统,指数加权移动平均也存在着冷启动的问题,举个例子:当(eta = 0.98) 的时候,我们假设(v_0 = 0, heta_1 = 40), 那么通过指数移动加权平均的公式可以得到(v_1 = 0.98 imes v_0 + 0.02 imes 40 = 8),这很明显不符合真实的结果,偏离真实值太远,因此需要进行修正。下面是带有偏差修正的指数加权移动平均

[v_t = dfrac{eta v_{t-1} + ( 1- eta) imes heta_t}{1 - eta^t} ]

我们假设(v_0 = 0, heta_1 = 40), 那么通过指数移动加权平均的公式可以得到(v_1 = (0.98 imes v_0 + 0.02 imes 40)/0.02^1 = 40),很明显经过修正后的结果比没有修正的结果好得多。当(t)足够大的时候,也就是说已经度过了冷启动阶段,(eta^t)的结果趋于0,分母趋于1,不再进行修正。

免责声明:文章转载自《指数加权移动平均》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇vue-cli3实现分环境打包步骤(给不同的环境配置相对应的打包命令)monkey基础使用教程,如何安装和monkey分析日志下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

Adam和学习率衰减(learning rate decay)

目录 梯度下降法更新参数 Adam 更新参数 Adam + 学习率衰减Adam 衰减的学习率 References 本文先介绍一般的梯度下降法是如何更新参数的,然后介绍 Adam 如何更新参数,以及 Adam 如何和学习率衰减结合。 梯度下降法更新参数 梯度下降法参数更新公式: [ heta_{t+1} = heta_{t} - eta c...

维纳滤波(1)

1. 概述 当系统中的有效信号和噪声都是随机过程,信号和噪声的频谱还可能重叠(比如有效信号是高斯-马尔可夫过程,噪声是白噪声),根据频域参数设计滤波器的方法就不再适用。 维纳滤波器可以在一些场合解决上述为题,其设计原则是均方误差(的期望)最小。我们从相对简单的单参数滤波器开始。 2. 参数滤波器 设输入信号为$x(t)+n(t)$,其中$n(t)$为噪声,...

Latex常用符号

Todo: 添加数学符号名称和用途 优化界面 希腊字母: 字母名称 小写 latex 大写 latex alpha $alpha$ alpha A A beta $eta$ eta B B gamma $gamma$ gamma $Gamma$ Gamma delta $delta$ delta $Delta$ Delta ep...

Beta分布

Beta分布 beta分布可以看做一个概率的概率分布。首先试验是伯努利试验,它符合二项式分布。而Beta分布是先有一些试验结果,比如说有100个试验结果,其中30次成功,70次失败,然后在这个基础上继续试验,把新的试验结果加到原有结果上,beta分布就是这一系列操作后是某一概率的可能性大小,分布曲线的x轴是概率。beta分布描述的就是我们不知道概率是多少,...