美文网首页
Chap01 探索性数据分析

Chap01 探索性数据分析

作者: Kevin7lou | 来源:发表于2020-05-27 12:23 被阅读0次

第1章 探索性数据分析

统计学是一门应用科学关注的是数据的分析和建模。探索数据是所有数据科学项目的第一步。探索性数据分析(EDA)是统计学中一个相对新的领域。经典统计学几乎只注重推断,即从小样本得出关于整体数据的结论。约翰图基于1962年在论文“The Future of Data Analysis”中提出了“数据分析”的学科,并将统计推断包括在其中。于1977年出版了“Exploratory Data Analysis”一书,提出了“探索性数据分析”的研究领域。

1.1 结构化数据的组成

如何将大量的原始数据转换为可操作的信息,这是数据科学所面对的主要挑战。使用统计学的概念,需要将非结构化的原始数据结构化,或者出于研究目的采集数据。

术语

  • 连续型数据:可以在一个区间内取任何值。同义词:区间数据,浮点型数据,数值数据。
  • 离散型数据:数据只能取整数,例如计数。同义词:整数型数据,计数型数据。
  • 分类型数据:数值只能从特定的集合中取值,表示一系列可能的分类。同义词:枚举数据,列举数据,因子数据,标称数据,多分支数据。
  • 二元数据:一种特殊的分类数据,数值只能从两个值中取一个。同义词:二分数据,逻辑型数据,指示性数据,布尔型数据。
  • 有序数据:具有明确排序的分类数据。同义词:有序因子数据。

对于数据分析和预测建模来说,数据建模对于确定可视化类型,数据分析或者统计模型是非常重要的。使用数据类型可以改善计算性能。变量的数据类型决定了软件处理变量的计算方法。

1.2 矩形数据

矩形数据对象是数据科学分析中典型引用结构,矩形数据对象包括电子表格,数据库表格等。

矩形数据本质是一个二维矩阵。通常一行表示一个记录(事例),列表示特征(变量)。数据通常并非一开始就是矩形形式的,先经过处理,才能转换为相应形式。

1.2.1 数据框和索引

传统的数据库表会指定一列或者多列作为索引,索引可以极大提高某些SQL查询的效率。

  • Python:pandas数据分析库中基本的举矩形数据结构是DataFrame对象,默认会创建一个整型索引,支持设置多级或者层次索引,以提高特定操作的效率。
  • R:基本的矩形数据结构是 data.frame 对象。data.frame 隐含有基于行次序的整数索引。

术语差异

统计学家在模型中使用预测变量去预测一个响应或因变量,而数据科学家使用特征来预测目标。对于一行数据,计算机科学家使用样本这一术语;而统计学家使用样本表示一个行的集合。

1.2.2 非矩形数据结构

时序数据记录了对同一变量的连续测量值,是统计预测方法的原始输入数据,也是物联网设备所产生对 数据的管家组成部分。

空间数据结构用于地图和定位分析。在对象标识中,空间数据关注的是对象及空间坐标。字段视图关注空间中的小单元及相关的度量值。

图形(或网络)数据结构用于表示物理上,社交网络上的抽象关系。图形结构对于网络优化和推荐系统等问题十分重要。

1.2.3 扩展阅读

1.3 位置估计

变量表示了测量数据或者计数数据。探索数据的一个基本步骤就是获取每个特征(变量)的“典型值”。典型值是对数据最常出现位置的估计,即数据的集中趋势。

术语

术语 定义 同义词
均值 所有数据之和除以数值的个数 平均数
加权均值 各数值乘以相应的权重值,相加求和,再除以权重总和。 加权平均值
中位数 使得数据集中有一半数据位于该值之上和之下 第50百分位数
加权中位数 使得排序数据集中,分别有一半的权重之和位于该值之上和之下。
切尾均值 从数据集中剔除一定数量的极值后,再求均值。 截尾均值
稳健 对极值不敏感 耐抗性
离群值 与大部分数值差异很大的数据值。 极值

度量和估计量

  • 统计学的核心在于如何解释不确定度,因而使用估计量(estimate)
  • 数据科学则关注如何解决一个具体的商业或企业目标,因而使用度量(metric)。

1.3.1 均值

均值(Mean),又成为平均值。均值等于所有值的和除以值的个数。给定n个数据值:x_1, x_2, \dots, x_n,均值计算公式:

\text { Mean } = \bar{x}=\frac{\sum_{i=1}^{n}x_i }{n}

通常使用N(或者n)表示记录值或观测值的总数。在统计学中,用大写字母N表示总体;用小写字母n表示总体中的一个样本。

  • 切尾均值(Trimmed Mean)是均值的一个变体。如果使用x_{(1)}, x_{(2)}, \ldots, x_{(n)}表示一个有序数据集,其中是x_{(1)}最小值,x_{(n)}是最大值,那么去除 p个最大值和p个最小值的切尾均值的计算公式为:
    \text { Trimmed mean }=\bar{x}=\frac{\sum_{i=p+1}^{n-p} x_{(i)}}{n-2p}

切尾均值消除了极值对均值的影响。举例,比赛中评委打分。

  • 加权均值(Weighted Mean)

\text { Weighted mean }=\bar{x}_{w}=\frac{\sum_{i=1}^{n} w_{i} x_{i}}{\sum_{i}^{n} w_{i}}

使用加权均值:

  • 一些值本质上要比其他的值更为多变,因此需要对多变的观测值赋予较低的权重。
  • 所采集的数据可能并未准确地表示我们想要测量的不同群组。

1.3.2 中位数和稳健估计量(Robust Estimates)

  • 中位数(median)是位于有序数据集中间位置处的数值。

  • 离群值(Outliers)是距离数据集中其他所有值都很远的值。我们称中位数为一种对位置的稳健估计量,因为它不会受离群值(极端情况)的影响,而离群值会使结果产生偏差。

1.3.3 位置估计的例子:人口和谋杀率

相关文章

网友评论

      本文标题:Chap01 探索性数据分析

      本文链接:https://www.haomeiwen.com/subject/twhwahtx.html