拉普拉斯平滑(Laplace Smoothing)

摘要:
计算实例的概率时,它不会出现在观察样本库(训练集)中,这将导致整个实例的概率结果为0。在文本分类问题中,当一个单词没有出现在训练样本中时,当使用连续乘法时,文本出现的概率也为0。你不能任意假设事件的概率为0,因为它没有被观察到。拉普拉斯的理论支持为了解决零概率问题,法国数学家拉普拉斯首先提出了加1的方法来估计一种以前没有发生过的现象的概率。可以忽略由每个分量x的计数加1引起的估计概率的变化。

拉普拉斯平滑(Laplace Smoothing)又称 加1平滑,常用平滑方法。解决零概率问题。

背景:为什么要做平滑处理?

零概率问题:在计算实例的概率时,如果某个量x,在观察样本库(训练集)中没有出现过,会导致整个实例的概率结果是0。
在文本分类的问题中,当一个词语没有在训练样本中出现,该词语调概率为0,使用连乘计算文本出现概率时也为0。
这是不合理的,不能因为一个事件没有观察到就武断的认为该事件的概率是0。

拉普拉斯的理论支撑

为了解决零概率的问题,法国数学家拉普拉斯最早提出用加1的方法估计没有出现过的现象的概率,所以加法平滑也叫做拉普拉斯平滑。
假定训练样本很大时,每个分量x的计数加1造成的估计概率变化可以忽略不计,但可以方便有效的避免零概率问题。

应用举例

假设在文本分类中,有3个类,C1、C2、C3,在指定的训练样本中,某个词语K1,在各个类中观测计数分别为0,990,10,K1的概率为0,0.99,0.01,对这三个量使用拉普拉斯平滑的计算方法如下:
  1/1003 = 0.001,991/1003=0.988,11/1003=0.011

在实际的使用中也经常使用加 lambda(1≥lambda≥0)来代替简单加1。如果对N个计数都加上lambda,这时分母也要记得加上N*lambda。

https://www.cnblogs.com/bqtang/p/3693827.html

拉普拉斯平滑(Laplace Smoothing)第1张
https://blog.csdn.net/zyq11223/article/details/90209782

免责声明:文章转载自《拉普拉斯平滑(Laplace Smoothing)》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇如何优雅的做参数校验-JSR303规范linux下把一个用户从某个组中删除,而不删除用户下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

提高Interface Builder高效工作的8个技巧

转自“破船之家”的翻译文章,真的很不错的技巧,在此转发分享给大家。转自这里。 本文译自:8 Tips for working effectively with Interface Builder(需FQ) 先来看看目录: 介绍 使view的Size与view中的Content相适应  按住option键—观察所选中view与另外view边缘之间的距离 E...

【Python 多进程】

" 一、模块介绍 multiprocess模快 仔细说来,multiprocess不是一个模块,而是python中的一个操作、管理进程的包,之所以叫multi是取自multiple的多功能的意思,这个包中几乎包含了和进程有关的所有子模块。 multiprocess.Process模块 Process能够帮助我们创建子进程,以及对子进程的一些控制....

selenium 定位方式

在使用selenium webdriver进行元素定位时,通常使用findElement或findElements方法结合By类返回的元素句柄来定位元素。其中By类的常用定位方式共八种,现分别介绍如下。 1. By.name() 假设我们要测试的页面源码如下: <button aria-label="Google Search" name="bt...

PostgreSQL物理坏块和文件损坏案例分享

作者简介 王睿操,平安好医数据库架构岗,多年postgresql数据库运维开发工作。曾就职于中国民航信息,迪卡侬。对其他数据库产品也有一定的涉猎。 背景 笔者最近发现很多朋友经常遇到PostgreSQL坏块或者数据混乱的情况,网上中文资料比较少,于是整理了一下笔者遇到各种各样的报错以及解决方案 案例一:物理坏块 逻辑备份时报错 pg_dump: Dumpi...

iOS性能优化之内存管理:Analyze、Leaks、Allocations的使用和案例代码

最近接了个小任务,和公司的iOS小伙伴们分享下instruments的具体使用,于是有了这篇博客...性能优化是一个很大的话题,这里讨论的主要是内存泄露部分。 一. 一些相关概念 很多人应该比较了解这块内容了...可以权当复习复习... 1.内存空间的划分: 我们知道,一个进程占用的内存空间,包含5种不同的数据区:(1)BSS段:通常是存放未初始化的全局变...

Laravel模型事件的实现原理详解

模型事件在 Laravel 的世界中,你对 Eloquent 大多数操作都会或多或少的触发一些模型事件,下面这篇文章主要给大家介绍了关于Laravel模型事件的实现原理,文中通过示例代码介绍的非常详细,需要的朋友可以参考借鉴。 前言 Laravel的ORM模型在一些特定的情况下,会触发一系列的事件,目前支持的事件有这些:creating, created,...