比如一个常数变量和一个随机变量X,易知它们的协方差为0,那么它们不相关。而按照定义,它们的相关系数不存在(因为分母为0),但是前面分析已经不相关,那相关系数就应该为0,到底相关系数是什么呢?不相关是指协方差为0还是相关系数为0?
协方差科技名词定义
中文名称:协方差 英文名称:covariance 定义1:变量xk和xl如果均取n个样本,则它们的协方差定义为 ,这里 分别表示两变量系列的平均值。协方差可记为两个变量距平向量的内积,它反映两气象要素异常关系的平均状况。 应用学科:大气
科学(一级学科);气候学(二级学科) 定义2:度量两个随机变量协同变化程度的方差。 应用学科:遗传学(一级学科);群体、数量遗传学(二级学科) 以上内容由全国
科学技术名词审定委员会审定公布
求助编辑百科名片
协方差分析是建立在方差分析和回归分析基础之上的一种统计分析方法。 方差分析是从质量因子的角度探讨因素不同水平对实验指标影响的差异。一般说来,质量因子是可以人为控制的。 回归分析是从数量因子的角度出发,通过建立回归方程来研究实验指标与一个(或几个)因子春悉搜之间的数量关系。但大多数情况下,数量因子是不可以人为加以控制的。
目录
协方差定义
协方差属性
协方差矩阵
在
农业上应用
编辑本段协方差定义
在概率论和统计学中,协方差用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。 期望值分别为E(X) = μ 与 E(Y) = ν 的两个实数随机变量X与Y之间的协方差定义为: 其中,E是期望值。它也可以表示为: 直观上来看,协方差表示的是两个变量总体的误差,这与只表示一个变量误差的方差不同。 如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。 如果两个变量的变化趋势相反,即其中一个大于自身的期望陆悄值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。 如果X与Y是统计独立的,那么二者之间的协方差就是0。这是因为 协方差 公式
[1]但是,反过来并不成立。即如果X与Y的协方差为0,二者并不一定是统计独立的。 协方差cov(X,Y)的度量单位是X的协方差乘以Y的协方差。而取决于协方差的相关性,是一个衡量线性独立的无量纲的数。 协方差为0的两个随机变量称为是不相关的。
编辑本段协方差属性
两个不同参数之间的方差就是协方差 若两个随机变量X和Y相互独立,则E[(X-E(X))(Y-E(Y))]=0,因而若上述
数学期望不为零,则X和Y必不是相互独立的,亦即它们之间存在着一定的关系。 定义 E[(X-E(X))(Y-E(Y))]称为随机变量X和Y的协方差,记作COV(X,Y),即COV(X,Y)=E[(X-E(X))(Y-E(Y))]。 协方差与方差之间有如下关系: D(X+Y)=D(X)+D(Y)+2COV(X,Y) D(X-Y)=D(X)+D(Y)-2COV(X,Y) 因此,COV(X,Y)=E(XY)-E(X)E(Y)。 协方差的性质: (1)COV(X,Y)=COV(Y,X); (2)COV(aX,bY)=abCOV(X,Y),(a,b是常数); (3)COV(X1+X2,Y)=COV(X1,Y)+COV(X2,Y)。 由协方差定义,可以看出COV(X,X)=D(X),COV(Y,Y)=D(Y)。 协方差作为描述X和Y相关程度的量,在同一
物理量纲之下有一定的作用,但同样的两个量采用不同的量纲使它们的协方差在数值上表现出很大的差异。为此引入如下概念: 扒历 定义 ρXY=COV(X,Y)/√D(X)√D(Y),称为随机变量X和Y的相关系数。 定义 若ρXY=0,则称X与Y不相关。 即ρXY=0的充分必要条件是COV(X,Y)=0,亦即不相关和协方差为零是等价的。 定理 设ρXY是随机变量X和Y的相关系数,则有 (1)∣ρXY∣≤1; (2)∣ρXY∣=1充分必要条件为P{Y=aX+b}=1,(a,b为常数,a≠0) 定义 设X和Y是随机变量,若E(X^k),k=1,2,...存在,则称它为X的k阶原点矩,简称k阶矩。 若E{[X-E(X)]^k},k=1,2,...存在,则称它为X的k阶中心矩。 若E(X^kY^l),k、l=1,2,...存在,则称它为X和Y的k+l阶混合原点矩。 若E{[X-E(X)]^k[Y-E(Y)]^l},k、l=1,2,...存在,则称它为X和Y的k+l阶混合中心矩。 显然,X的数学期望E(X)是X的一阶原点矩,方差D(X)是X的二阶中心矩,协方差COV(X,Y)是X和Y的二阶混合中心矩。
编辑本段协方差矩阵
分别为m与n个标量元素的列向量随机变量X与Y,二者对应的期望值分别为μ与ν,这两个变量之间的协方差定义为m×n矩阵。 两个向量变量的协方差cov(X,Y)与cov(Y,X)互为转置矩阵。 协方差有时也称为是两个随机变量之间“线性独立性”的度量,但是这个含义与线性代数中严格的线性独立性线性独立不同。
编辑本段在农业上应用
协方差在农业上的应用 农业科学实验中,经常会出现可以控制的质量因子和不可以控制的数量因子同时影响实验结果的情况,这时就需要采用协方差分析的统计处理方法,将质量因子与数量因子(也称协变量)综合起来加以考虑。 比如,要研究3种肥料对苹果产量的实际效应,而各棵苹果树头年的“基础产量”不一致,但对试验结果又有一定的影响。要消除这一因素带来的影响,就需将各棵苹果树第1年年产量这一因素作为协变量进行协方差分析,才能得到正确的实验结果。 当两个变量相关时,用于评估它们因相关而产生的对应变量的影响。 当多个变量独立时,用方差来评估这种影响的差异 当多个变量相关时,用协方差来评估这种影响的差异
1.对于你所描述的情形,相关系数应为0/0型,不能简单认尺历为它是不存在的;
2.常数为确定性事件,根据独立性的定义,其与任意事件独立,也即常数变量与任意随机变量X相互独立,而相互独立稿亮必不相关;
3.不相关指相关系数键困宽为0。
相关系数
正的协方差表达了正相关性,负的协方差表达了负相关性。对于同样的两个随机变量来说,计算出的协方差越大,相关性越强。
但随后一个问题,身高和体重的协方差为30,这究竟是多大的一个量呢?如果我们又发现,身高与鞋号的协方差为5,是否说明,相对于鞋号,身高与体重的的相关性更强呢?
这样横向对比超出了协方差的能力范围。从日常
生活经验来说,体重的上下浮动大约为20kg,而鞋号的上下浮动大约可能只是5个号码。所以,对于体重来说,5kg与中心的偏离并不算大,而5个号码的鞋号差距,就可能是最极端的情况了。假设身高和体重的相关强度,与身高和鞋码的相关强度类似,但由于体重本身的数值上下浮动更大,所计算出的协方差也会更大。另一个情况,依然是计算身高与体重的协方差。数据完全不变,而只更改单位。我们的体重用克而不是千克做单位,计算出的协防差是原来数值的1000倍!
为了能进行这样的横向对比,我们需要排除用统一的方式来定量某个随机变量的上下浮动。这时,我们计算相关系数(correlation
coefficient)。相关系数是“归一化”的协方差。它的定义如下:
相关系数是用协方历返桐差除以两个随机变量的标准差。相关系数的大小在-1和1之间变化。再也不会出现因为计量单位变化,而数值暴涨的情况了。
依然使用上面的身高和体重数据,可以计算出
var(x)=0.3×(60−70)2+0.3×(80−70)2=60
var(y)=0.3×(180−170)2+0.3×(160−170)2=60
ρ=30/60=0.5
这样一个“归一化”了的相关系数,更容易让人把握到相关性的强弱,也更容易在不同随机变量之间,做相关性的横向比较。
双变量正态分布
双变量正态分布是一种常见的联合分布。它描述了两个随机变肢坦量x1和x2的概率分布。概率密度的表达式如下:
x1和x2的边缘密度分别为两个正态分布,即正态分布n(μ1,σ1), n(μ2,σ2)。
另一方面,除非ρ=0,否则联合分布也并不是两个正态分布的简单相乘。可以证明,ρ正是双变量正态分布中,两个变量的相关系数。
现在绘制该分布的图像。可惜的是,现在的scipy.stats并没有该分布。需要自行编写。
选取所要绘制的正态分布,为了简单起见,让μ1=0, μ2=0, σ1=1,σ2=1。
我们先让ρ=0,此时的联合分布相当于两个正态分布的乘积。绘制不同视角的同一分布,结果如下。可以世袜看到,概率分布是中心对称的。
再让ρ=0.8,也就是说,两个随机变量的相关系数为0.8。绘制不同视角的同一分布,结果如下。可以看到,概率分布并不中心对称。沿着y=x这条线,概率曲面隆起,概率明显比较高。而沿着y=−x这条线,概率较低。这也就是我们所说的正相关。
现在,ρ对于我们来说,有了更具体的现实意义。