协方差,皮尔逊相关性,卡方检验

摘要:
方差是协方差的一种特殊情况,即当两个变量相同时。估计样本的协方差和标准差,以获得样本相关系数,通常用英文小写字母r表示:数据标准化后,夹角余弦和皮尔逊相关相同???

1、协方差

协方差(Covariance)在概率论统计学中用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。

期望值分别为E(X)=muE(Y)= u的两个具有有限二阶实数随机变量X 与Y 之间的协方差定义为:

{displaystyle operatorname {cov} (X,Y)=operatorname {E} ((X-mu )(Y- u ))=operatorname {E} (Xcdot Y)-mu u .}

协方差表示的是两个变量的总体的误差,这与只表示一个变量误差的方差不同。 如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。 如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。

2、

两个变量之间的皮尔逊相关系数定义为两个变量之间的协方差标准差的商:

{displaystyle ho _{X,Y}={mathrm {cov} (X,Y) over sigma _{X}sigma _{Y}}={E[(X-mu _{X})(Y-mu _{Y})] over sigma _{X}sigma _{Y}}}

上式定义了总体相关系数,常用希腊小写字母 ρ (rho) 作为代表符号。估算样本的协方差和标准差,可得到样本相关系数(样本皮尔逊系数),常用英文小写字母 r 代表:

{displaystyle r={frac {sum limits _{i=1}^{n}(X_{i}-{overline {X}})(Y_{i}-{overline {Y}})}{{sqrt {sum limits _{i=1}^{n}(X_{i}-{overline {X}})^{2}}}{sqrt {sum limits _{i=1}^{n}(Y_{i}-{overline {Y}})^{2}}}}}}
数据标准化之后,(服从标准正太分布的话)夹角余弦,皮尔逊相关度是一样的
3、卡方检验
这个还不是太明白数学意义,这是怎么来的,为啥这么算???,而且没实际使用过。
具体介绍参考这篇博客

https://blog.csdn.net/bitcarmanlee/article/details/52279907 

参考资料:

https://www.zhihu.com/question/19734616

https://zh.wikipedia.org/wiki/%E7%9A%AE%E5%B0%94%E9%80%8A%E7%A7%AF%E7%9F%A9%E7%9B%B8%E5%85%B3%E7%B3%BB%E6%95%B0

免责声明:文章转载自《协方差,皮尔逊相关性,卡方检验》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇CSS 固定table 表头和列Unity3D 物体移动方法总结下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

两个多维高斯分布之间的KL散度推导

  在深度学习中,我们通常对模型进行抽样并计算与真实样本之间的损失,来估计模型分布与真实分布之间的差异。并且损失可以定义得很简单,比如二范数即可。但是对于已知参数的两个确定分布之间的差异,我们就要通过推导的方式来计算了。   下面对已知均值与协方差矩阵的两个多维高斯分布之间的KL散度进行推导。当然,因为便于分布之间的逼近,Wasserstein dista...

Matlab数字信号处理

产生方波 clear t=0:0.01:10; subplot(4,1,1) f1=square(t);                       %  产生周期为2pi的方波信号 plot(t,f1) axis([0,10,-1.2,1.2]) subplot(4,1,2) f2=square(t,30);               %  产生周期为...

距离度量

1 欧式距离(Euclidean Distance): 欧氏距离是最容易直观理解的距离度量方法,我们小学、初中和高中接触到的两个点在空间中的距离一般都是指欧氏距离。 举例: X=[[1,1],[2,2],[3,3],[4,4]]; 经计算得: d = 1.4142 2.8284 4.2426 1.4142 2.8284 1....

R语言代写线性判别分析(LDA),二次判别分析(QDA)和正则判别分析(RDA)

原文链接:http://tecdat.cn/?p=5689 判别分析包括可用于分类和降维的方法。线性判别分析(LDA)特别受欢迎,因为它既是分类器又是降维技术。二次判别分析(QDA)是LDA的变体,允许数据的非线性分离。最后,正则化判别分析(RDA)是LDA和QDA之间的折衷。 本文主要关注LDA,并探讨其在理论和实践中作为分类和可视化技术的用途。由于Q...

聊聊最近几年的路径追踪技术的进展(一)

路径追踪技术(Path tracing,PT)已经是当下工业中离线渲染使用的主流技术,不管是商业渲染器如皮克斯的RenderMan,Solid Angle的Arnold等,还是迪士尼的in-house渲染器Hyperion以及Weta Digital的Manuka都是基于路径追踪技术。路径追踪算法非常简单,它首先将光照方程表述为面积积分的形式,然后一束光线...

样本协方差矩阵的定义与计算

定义   协方差矩阵是用来衡量一组随机变量之间的线性关系的矩阵。我们都知道,对于$n$个随机变量$X_1,X_2,...,X_n$,总体协方差矩阵定义为: $ left[ egin{matrix} D(X_1)&Cov(X_1,X_2)&dots&Cov(X_1,X_n)\ Cov(X_2,X_1)&D(X_2)&d...