什么是相关系数数的unit-less是什么意思

提供一个机器学习方向的解释先上结论:在数据标准化( )后,Pearson相关性系数、Cosine相似度、欧式距离的平方可认为是等价的换句话说,如果你的数据符合正态分布或者经過了标准化处理那么这三种度量方法输出等价,不必纠结使用哪一种对于标准化后的数据求欧氏距离平方并经过简单的线性变化,其實就是Pearson系数

我个人觉得比较容易理解的步骤是:我们一般用欧式距离(向量间的距离)来衡量向量的相似度但欧式距离无法考虑不同变量间取值的差异。举个例子变量a取值范围是0至1,而变量b的取值范围是0至10000计算欧式距离时变量b上微小的差异就会决定运算结果。而Pearson相关性系数可以看出是升级版的欧氏距离平方因为它提供了对于变量取值范围不同的处理步骤。因此对不同变量间的取值范围没有要求(unit free)最后得到的相关性所衡量的是趋势,而不同变量量纲上差别在计算过程中去掉了等价于z-score标准化。

而未经升级的欧式距离以及cosine相似度對变量的取值范围是敏感的,在使用前需要进行适当的处理我个人的经验是,在低维度可以优先使用标准化后的欧式距离或者其他距离喥量在高维度时Pearson什么是相关系数数更加适合。不过说到底这几个衡量标准差别不大,很多时候的输出结果是非常相似的

回答的结构洳下:1. 定义一些基础概念和公式 2. 证明这三种测量方法间的等价性 3. 通过实验结果验证等价性(实验代码需要Python 3,工具库numpyscipy和sklearn)。


假设我们有两個向量 和 长度均为 。

Distance)是常见的相似性度量方法可求两个向量间的距离,取值范围为0至正无穷显然,如果两个向量间的距离较小那么向量也肯定更为相似。此处需要注意的一点是欧氏距离计算默认对于每一个维度给予相同的权重,因此如果不同维度的取值范围差別很大那么结果很容易被某个维度所决定。解决方法除了对数据进行处理以外还可以使用加权欧氏距离,不同维度使用不同的权重夲文中我们使用的是欧氏距离的平方。

Pearson相关性系数(Pearson Correlation)是衡量向量相似度的一种方法输出范围为-1到+1, 0代表无相关性,负值为负相关正值為正相关。

Cosine相似度也是一种相似性度量输出范围和Pearson相关性系数一致,含义也相似

标准化(Standardization)是一种常见的数据缩放手段,标准化后的數据均值为0标准差为1。

观察公式2和公式3易发现如果将公式3中的X和Y代入公式4,可得

因为此时 所以经过化简后会发现公式2和3等价。为了節省空间过程略去,可参考其他答主的回答

证明2:Pearson相关性系数和欧式距离方在标准化数据下等价

为了简化公式,此处的 我们默认已经經过了标准化处理因此均值为0,标准差为1在这种情况下我们可以利用了公式5和6化简 和 ,得到下式: 当 取值很大时 ,所以我们可得到 这个结论马上会用到。

让我们开始展开欧氏距离方(第二步到第三步使用了我们上边的推导):

于是我们得到了结论 此处的n是向量的長度,是常数因此我们依然可以认为是等价的。

划重点:欧氏距离的平方 = 2 * 常数n (也就是向量的长度)* (1-Pearson什么是相关系数数)

证明3:Cosine相似喥和欧氏距离方等价

通过证明1和2易得证明3,略去


我随机生成了三个向量(长度为100),并分别计算两两之间的Pearson相关性系数Cosine相似度和欧式距离方:

  • 原始数据,没有任何处理
  • 经过了标准化(公式4)后的结果

结果如下图可见标准化后三者等价。此处需要注意因为Pearson可能是负数因此我用1-Pearson,之后结果就会是非负数并处于区间 这样就可以和欧氏距离这个非负进行对比。

# 设定向量长度均为100

    测试了50个不同地区,不同品种的小麥样品,并对NIRS数据进行了10g1/R,Δ(log1/R)的数学转换及线性和非线性逐步回归处理,建立了与水份、蛋白质、面筋率、容重什么是相关系数数分别为0.914,0.978,0.94,0.926的回归方程
    化学成分什么是相关系数数矩阵表明 ,烤烟多种化学成分间存在显著或极显著的相关性 ,什么是相关系数数矩阵前 4个特征根的累计贡献率已达 85 .3 8%。
查询“什么是相关系数数”译词为用户自定义的双语例句    我想查看译文中含有:的双语例句
为了更好的帮助您理解掌握查询词或其译词在地道英语中的实际用法我们为您准备了出自英文原文的大量英语例句,供您参考

本文证实了CO_2向谷物内扩散在粮食吸附CO_2过程中起主要作用,应用费克扩散定律和固体吸附理论,确定了CO_2向谷物内扩散和吸附的数学模型,求出了实验条件下的CO_2吸附作用常数K、扩散系数D.参数表奣:粮食吸附CO_2后,对O_2向谷物内扩散有阻碍作用.导出了生产上求吸附平衡后容器中保留CO_2浓度的计算式.找出胶实包装的CO_2浓度范围为35—45%,指导实践中散裝粮CO_2用量从5kg/万斤减少到3kg/万斤.实验表明:CO_2分压在1atm内,谷物吸附CO_2等温线呈直线型,什么是相关系数数在0.99以上.据此,在气调生产中可确定CO_2吸附量.

6350)法检测了31個中国红、绿、乌龙茶标准茶样及Assame和Siensis变种新梢(芽,第一叶至第五叶)的NDF、ADF和ADL含量,用多元回归进行校正,结果表明,这两种方法所分析的结果间具有高度的相关性,其什么是相关系数数(r),绿茶为0.968—0.972,红茶为0.927—0.966,乌龙茶为0.880—0.947,新梢为0.894—0.971,经过λ_2、λ_3校正,什么是相关系数数接近0.99,两种方法具有相似的准确性,而NIRS法准确、快速和自动化程度高。

本文简要介绍生丝匀度自动检测仪的检测原理和结构组成提出一种自动检测生丝匀度的方法。并认為去除渐变影响,对提高仪器检测结果与批分法分数之间的什么是相关系数数有利

我要回帖

更多关于 什么是相关系数 的文章

 

随机推荐