美文网首页
数据清洗 & 处理

数据清洗 & 处理

作者: Janeshurmin | 来源:发表于2019-08-29 11:07 被阅读0次

1. 数据清洗方法

  • 缺失值:平均值、最大值、最小值或更为复杂的概率估计代替缺失值

  • 去重:相等的记录合并为一条记录(合并/清洗)

  • 错误值:用统计分析的方法识别可能的错误值或异常值,如偏差分析、识别不遵守分布或回归方程的值,也可以用简单规则库(常识性规则、业务特定规则等)

  • 数据不一致性:如数据是类别型或者次序型

2. 数据清洗八大场景

  • 删除多列

  • 更改数据类型

  • 将分类变量转换为数字变量

  • 检查缺失数据

  • 删除列中的字符串

  • 删除列中的空格

  • 用字符串连接两列(带条件)

  • 转换时间戳(从字符串到日期时间格式)

3. 数据处理方法

  • 对数变换

  • 标准缩放

  • 转换数据类型

  • 独热编码

  • 标签编码


补充资料

数据探索性分析EDA,pandas_profiling,直接pip 或者 conda 或者 安装包即可安装

import pandas_profiling as ppf
---
ppf.ProfileReport(train_data)

PS:要么安装一直failed,终于安装成功,结果import报错,cannot import name 'register_matplotlib_converters',本人表示很绝望。

相关文章

  • 数据分析学习Day5---Excel(常见的Excel函数)

    清洗处理类 数据清洗主要用于文...

  • 3. 数据预处理

    数据预处理主要包括4个部分: 数据清洗 数据集成 数据变换 数据规约 1. 数据清洗 缺失值处理: 删除数据 不处...

  • Python建模复习:数据预处理

    第三部分 数据预处理 预处理技术:字段选择、数据清洗、字段扩充、数据编码 3.1数据清洗 异常数据甄别及处理方法:...

  • 数据清洗 & 处理

    1. 数据清洗方法 缺失值:平均值、最大值、最小值或更为复杂的概率估计代替缺失值 去重:相等的记录合并为一条记录(...

  • 第三章-数据预处理

    数据预处理的主要内容包括数据清洗、数据集成、数据变换和数据规约。 3.1数据清洗 数据清洗主要是删除原始数据集中的...

  • 特征工程-特征处理小结

    特征处理包括:数据清洗和特征预处理。 一、数据清洗: 1.数据样本抽样 ①样本要具备代表性 ②样本比例要平衡以及样...

  • 数据时代技能书单

    大数据时代,掌握处理数据的技能是必要的,书单包括数据清洗+数据挖掘+数据分析...... 1、数据清洗入门与实践 ...

  • 数据清洗的步骤是什么(上)

    数据清洗工作是数据分析工作中不可缺少的步骤,这是因为数据清洗能够处理掉肮脏数据,如果不清洗数据的话,那么数据分析的...

  • 大数据开发:大数据预处理架构和方法简介

    数据预处理主要包括数据清洗(Data Cleaning)、数据集成(Data Integration)、数据转换(...

  • Python Pandas Dataframe 的基本操作

    数据洞察 数据清洗 数据预处理 数据获取 数据筛选 6.数据汇总 数据输出

网友评论

      本文标题:数据清洗 & 处理

      本文链接:https://www.haomeiwen.com/subject/nwnbectx.html