美文网首页基础知识
统计学方法:相关性分析实战

统计学方法:相关性分析实战

作者: theFullHorizon | 来源:发表于2020-12-07 14:30 被阅读0次

相关分析是分析两个变量间相互关系的分析方法,一般用在数据分析比较靠前的探索性数据分析阶段。

相关关系根据其分析方法和处理对象不同,可以分为简单相关分析、偏相关分析和非参数相关分析等。本文小编只讨论简单相关分析。
  
简单相关关系主要分析两个变量之间的相互依存的关系,可以通过主观观测和客观测度指标来衡量。主观观测指标之间的相关关系,主要是通过两个变量之间散点图的手段进行。客观测度主要是通过统计分析的方法,计算相关系数,利用相关关系数值的符号和大小来判定相关关系的方向和强弱。

在进行相关分析之前我们一般会用散点图的形式,观察两个变量是否存在着相关关系,也就是看散点图中点的分布是否趋近于某条直线。
本节我们讨论下人们的衣着与文教娱乐之间是否存在着相关关系。

理论

相关系数介绍

pearson correlation coefficient(皮尔逊相关性系数)

常用的相关系数求法,采用协方差cov(X,Y)/标准差的乘积(σX, σY)。

数据要求: 适用连续型数据。线性数据、连续且符合正态分布;数据间差异不能太大;变量准差不能为0,即两变量中任何一个值不能都是相同。

spearman correlation coefficient(斯皮尔曼秩相关性系数)

根据原始数据的排序位置进行计算。

数据要求:适用分析顺序型数据。用于解决称名数据和顺序数据相关的问题,适用于两列变量,而且具有等级变量性质具有线性关系的数据,能够很好处理序列中相同值和异常值。

kendall correlation coefficient(肯德尔相关性系数)

等级相关系数,适用于两个变量均为有序分类的情况

数据要求:适用类别型数据。肯德尔相关性系数,它也是一种秩相关系数,不过它所计算的对象是分类变量。

所以针对【连续、正态分布、线性】数据,采用pearson相关系数;针对【非线性的、非正态】数据,采用spearman相关系数;针对【分类变量、无序】数据,采用Kendall相关系数。一般来讲,线性数据采用pearson,否则选择spearman,如果是分类的则用kendall。

相关系数计算


其中r ∈ [ − 1 , 1 ]。为1则说明完全正相关,为-1则说明完全负相关,为0则说明完全不相关。

预分析

一般在进行相关分析之前使用散点图来进行主观观测。

sns.scatterplot(data_pca['衣着'], data_pca['文教娱乐'])

从图中我们可以知道衣着和文教娱乐存在着比较显著的正相关关系,那接下来我们分别使用SPASS工具和Python编程的两种方进行探讨。

Spass实战

  1. 依次分析 -> 相关 -> 双变量
  2. 依次将分析的两个变量”衣着“和“文教娱乐"两个变量选进变量框中,选择皮尔逊系数,选择双尾显著性检验
  3. 得到最终表,显著性主要看Sig值,查看皮尔逊系数查看相关关系。

如果sig值小于0.05我们拒绝原假设(两个变量不相关),认为两个变量相关。
进一步的查看皮尔逊系数,月接近1,说明相关性程度越大。

Python实战

注意:相关性系数在统计学中相当重要,不同的工具如Pandas, Scipy, numpy都对其进行了实现。

# 三种方式的显著性检验pearsonr,spearmanr,kendalltau。
# 显著性小于0.05.说明两个变量相关具有统计学支持基础。
# 返回的值是correlation, p_value
print(scipy.stats.pearsonr(data_pca['衣着'],data_pca['文教娱乐']))

# 方差齐性检验,如果不满足方差齐则不能使用皮尔逊系数。小于0.05,满足方差齐性。
print(scipy.stats.levene(data_pca['衣着'],data_pca['文教娱乐']))

# 计算两变量的相关系数
print(np.corrcoef(data_pca['衣着'],data_pca['文教娱乐']))

相关文章

  • 统计学方法:相关性分析实战

    相关分析是分析两个变量间相互关系的分析方法,一般用在数据分析比较靠前的探索性数据分析阶段。 相关关系根据其分析方法...

  • 统计学方法:回归分析实战

    一般在进行回归之前,会先对数据进行相关性的探索分析。本片内容是对上一篇内容的深入,在确立相关性的基础之上进行回归分...

  • 相关性分析原理及Python实战

    本文阅读时间大概在8分钟。 相关性分析 我们常说的相关性分析是分析两个变量之间线性相关程度的方法,其相关性强度的度...

  • 相关性计算与检验

    成对数据进行相关性分析可使用可视化方法及相关性检验方法:可视化方法主要通过散点图观察数据的线性关系; 而相关性检验...

  • 统计学方法:方差分析实战

    影响事物的因子有很多,怎么才能确定哪个因子是对事物影响最显著的呢,这个时候我们可以使用方差分析。 方差分析的基本思...

  • R语言-相关系数计算(一)

    应用R语言完成相关性检验,相关性矩阵及相关性可视化首先安装相应的R包 相关性分析的方法Pearson correl...

  • 20190929特征工程

    1、筛选X方法: 模型选择回归,不建议只用相关性分析或IV值筛选X 1、LASSO 2、相关性分析:看的是两...

  • 推荐系统书籍

    推荐系统实践 (豆瓣)(入门书籍) 推荐系统 (豆瓣) 机器学习实战 (豆瓣) 统计学习方法 (豆瓣) Recom...

  • 李航统计学习方法(一)

    1、特点 统计学习以数据为研究对象(数据驱动),以方法为中心,目的是为了对数据进行预测与分析。 2、方法 统计学习...

  • 统计学(71)-相关性分析

    1、方差到协方差,再从协方差到线性相关系数 (1)已知变量x 和y, 现在想了解x和y的相关性(x和y均为连续变量...

网友评论

    本文标题:统计学方法:相关性分析实战

    本文链接:https://www.haomeiwen.com/subject/hlxtgktx.html