1. 数据清洗方法
-
缺失值:平均值、最大值、最小值或更为复杂的概率估计代替缺失值
-
去重:相等的记录合并为一条记录(合并/清洗)
-
错误值:用统计分析的方法识别可能的错误值或异常值,如偏差分析、识别不遵守分布或回归方程的值,也可以用简单规则库(常识性规则、业务特定规则等)
-
数据不一致性:如数据是类别型或者次序型
2. 数据清洗八大场景
-
删除多列
-
更改数据类型
-
将分类变量转换为数字变量
-
检查缺失数据
-
删除列中的字符串
-
删除列中的空格
-
用字符串连接两列(带条件)
-
转换时间戳(从字符串到日期时间格式)
3. 数据处理方法
-
对数变换
-
标准缩放
-
转换数据类型
-
独热编码
-
标签编码
补充资料
数据探索性分析EDA,pandas_profiling,直接pip 或者 conda 或者 安装包即可安装
import pandas_profiling as ppf
---
ppf.ProfileReport(train_data)
PS:要么安装一直failed,终于安装成功,结果import报错,cannot import name 'register_matplotlib_converters',本人表示很绝望。

网友评论