PCA和LDA的对比

摘要:
PCA和LDA是经典的降维算法。PCA是无监督的,即训练样本不需要标签;LDA受到监督,即培训样本需要贴标签。PCA是从原始数据中删除冗余维度,而LDA是找到一个维度,以便在原始数据投影到维度上后,可以尽可能分离不同类型的数据。LDA用一句话概括了LDA的思想,即投影后类内方差最小,类间方差最大。PCA和LDA的相同点PCA和LDAA是经典的降维算法;PCA和LDA都假设数据是高斯分布的;PCA和LDA都使用了矩阵特征分解的思想。

PCA和LDA都是经典的降维算法。PCA是无监督的,也就是训练样本不需要标签;LDA是有监督的,也就是训练样本需要标签。PCA是去除掉原始数据中冗余的维度,而LDA是寻找一个维度,使得原始数据在该维度上投影后不同类别的数据尽可能分离开来。

PCA

PCA是一种正交投影,它的思想是使得原始数据在投影子空间的各个维度的方差最大。假设我们要将N维的数据投影到M维的空间上(M<N),根据PCA,我们首先求出这N维数据的协方差矩阵,然后求出其前M个最大的特征值所对应的特征向量,那么这M个特征向量即为所求的投影空间的基。

LDA

用一句话来概括LDA的思想就是,投影后类内方差最小,类间方差最大。如下图所示有两种投影方式,左边的投影后红色数据和蓝色数据还有重叠部分,右边的投影后红色数据和蓝色数据则刚好被分开。LDA的投影即类似右边的投影方式,投影后使得不同类别的数据尽可能分开,而相同类别的数据则尽可能紧凑地分布。

PCA和LDA的对比第1张
图片来源于网络

LDA的计算步骤:

  1. 计算类间散度矩阵(S_b)

[S_b=(mu_0-mu_1)(mu_0-mu_1)^T ]

其中(mu_0)是第0类样本的均值,(mu_1)是第1类样本的均值。
2. 计算类内散列矩阵(S_w)

[S_w=sum_{xin X_0}(x-mu_0)(x-mu_1)^T+sum_{xin X_1}(x-mu_1)(x-mu_1)^T ]

其中(X_0)是第0类样本的集合,(X_1)是第1类样本的集合。
3. 求出最佳投影方向(w)(w)即为(S_w^{-1}S_b)的最大特征值所对应的特征向量。

PCA和LDA的相同点

  1. PCA和LDA都是经典的降维算法;
  2. PCA和LDA都假设数据是符合高斯分布的;
  3. PCA和LDA都利用了矩阵特征分解的思想。

PCA和LDA的不同点

  1. PCA是无监督(训练样本无标签)的,LDA是有监督(训练样本有标签)的;
  2. PCA是去掉原始数据冗余的维度,LDA是选择一个最佳的投影方向,使得投影后相同类别的数据分布紧凑,不同类别的数据尽量相互远离。
  3. LDA最多可以降到k-1维(k是训练样本的类别数量,k-1是因为最后一维的均值可以由前面的k-1维的均值表示);
  4. LDA可能会过拟合数据。

Reference:

  1. https://blog.csdn.net/yaoqi_isee/article/details/71036320
  2. https://www.cnblogs.com/pinard/p/6244265.html

免责声明:文章转载自《PCA和LDA的对比》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇php string谷歌开源图片压缩算法Guetzli实测体验报告下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

R语言代写之文本分析:主题建模LDA

原文:http://tecdat.cn/?p=3897 文本分析:主题建模 library(tidyverse) theme_set( theme_bw()) 目标 定义主题建模 解释Latent Dirichlet分配以及此过程的工作原理 演示如何使用LDA从一组已知主题中恢复主题结构 演示如何使用LDA从一组未知主题中恢复主题结构 确定为k 选择适...

计算LDA模型困惑度

http://www.52nlp.cn/lda-math-lda-%E6%96%87%E6%9C%AC%E5%BB%BA%E6%A8%A1 LDA主题模型评估方法--Perplexityhttp://www.52nlp.cn/lda-math-lda-%E6%96%87%E6%9C%AC%E5%BB%BA%E6%A8%A1 LDA-math-LDA 文本建...

比较语义分割的几种结构:FCN,UNET,SegNet,PSPNet和Deeplab

简介 语义分割:给图像的每个像素点标注类别。通常认为这个类别与邻近像素类别有关,同时也和这个像素点归属的整体类别有关。利用图像分类的网络结构,可以利用不同层次的特征向量来满足判定需求。现有算法的主要区别是如何提高这些向量的分辨率,以及如何组合这些向量。 几种结构 全卷积网络FCN:上采样提高分割精度,不同特征向量相加。[3] UNET:拼接特征向量;编码...

理解 LDA 主题模型

前言 gamma函数 0 整体把握LDA 1 gamma函数 beta分布 1 beta分布 2 Beta-Binomial 共轭 3 共轭先验分布 4 从beta分布推广到Dirichlet 分布 Dirichlet 分布 1 Dirichlet 分布 2 Dirichlet-Multinomial 共轭 主题模型LDA 1 各个基础模型...

R包ropls的偏最小二乘判别分析(PLS-DA)和正交偏最小二乘判别分析(OPLS-DA)

R包ropls的偏最小二乘判别分析(PLS-DA)和正交偏最小二乘判别分析(OPLS-DA) Original生信小白鱼 鲤小白小白鱼的生统笔记2020-01-08 收录于话题 #多变量的降维分析35 #聚类和分类23 R包ropls的PCA、PLS-DA和OPLS-DA在代谢组学分析中经常可以见到主成分分析(PCA)、偏最小二乘判别分析(par...

R语言代写线性判别分析(LDA),二次判别分析(QDA)和正则判别分析(RDA)

原文链接:http://tecdat.cn/?p=5689 判别分析包括可用于分类和降维的方法。线性判别分析(LDA)特别受欢迎,因为它既是分类器又是降维技术。二次判别分析(QDA)是LDA的变体,允许数据的非线性分离。最后,正则化判别分析(RDA)是LDA和QDA之间的折衷。 本文主要关注LDA,并探讨其在理论和实践中作为分类和可视化技术的用途。由于Q...