美文网首页
Pandas数据清洗

Pandas数据清洗

作者: 风中之羚 | 来源:发表于2018-07-05 23:58 被阅读0次

原文:https://www.cnblogs.com/BoyceYang/p/8182053.html

https://blog.csdn.net/yen_csdn/article/details/53445616

Pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

下面我们通过使用 Pandas 提供的功能来清洗“脏”数据。

DataFrame :DataFrame是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔值等)。DataFrame既有行索引也有列索引,它可以被看做由Series组成的字典(共用同一个索引)。

DataFrame可以通过类似字典的方式或者.columnname的方式将列获取为一个Series。行也可以通过位置或名称的方式进行获取。

Series  :Series可以运用ndarray或字典的几乎所有索引操作和函数,融合了字典和ndarray的优点。可以看成增强版的list

Data : 基本数据,bool,string等

在机器学习,大数据领域,CSV是一种常见的数据格式。本文提到的数据清洗即时针对CSV 文件 读取的

Pandas 提供了 read_csv()函数,读出来的数据格式为DataFrame   通过to_csv 可以方便的将DataFrame结构的数据直接写入数据文件  。

基本数据构建成一维的Series,Series构建成二位表格形式的DataFrame ,DataFrame 结构的数据是可以很方便的通过read_csv、 to_csv与csv 数据文件交互。

以上可知,数据清洗的基本对象为DataFrame(简称 :df)结构的数据。

Pandas 提供了大量的df处理函数

https://blog.csdn.net/u014281392/article/details/75331570

常用的数据清洗类型:

1) 缺失值处理

填充  fillna

固定值填充 fillna(0) ,fillna('missing') 可以用任何值代替缺失值

统计替代  用前一个值替代fillna(methon='pad'),用平均数替代df.fillna(df.mean())

滤除  dropna  默认按行剔除,剔除含有NaN的行,如果指定how='all' 剔除全部为NAN 的行 dropna(how='all')

如果计划按列剔除 传入参数axis=1 即可 dropna(how='all',axis=1)

区分处理  is(not)null  判定是否为空,然后进行处理

2)异常值处理

3)移出重复数据

duplicated  DataFrame的duplicated方法返回一个布尔型Series,表示各行是否是重复行

drop_duplicated  它用于返回一个移除了重复行的DataFrame:

相关文章

  • data cleaning

    利用pandas 库进行数据清洗——实战练习 这周的计划是用之前看过的pandas模块对具体数据做数据清洗并做数据...

  • Pandas(数据清洗)

    在数据分析和建模的过程中,相当多的时间要用在数据准备上:加载、清理、转换以及重塑。 这工作会占到分析师时间的80%...

  • Pandas数据清洗

    原文:https://www.cnblogs.com/BoyceYang/p/8182053.html https...

  • pandas 数据清洗

    缺失值填充:fillna()函数详解 重复数据删除:https://blog.csdn.net/weixin_38...

  • 爬虫分析之数据存储——基于MySQL,Scrapy

    上一篇->爬虫练习之数据整理——基于Pandas上上篇->爬虫练习之数据清洗——基于Pandas 配置MySql ...

  • Pandas 基本使用(三) — DataFrame.to_di

    Pandas 处理数据的基本类型为 DataFrame,数据清洗时不可必然会关系到数据类型转化问题,Pandas ...

  • pandas入门

    pandas入门 简介 pandas包含的数据结构和操作工具能快速简单地清洗和分析数据。 pandas经常与Num...

  • 《利用Python进行数据分析》 13.1pandas与建模代码

    第十三章 Python建模库介绍 13.1 pandas与建模代码的结合 使用pandas用于数据载入和数据清洗...

  • Pandas学习

    Pandas介绍 Pandas基于Numpy的一个第三方的工具库,Pandas主要是,用于做数据清洗方面的工作,如...

  • pandas操作技巧

    本文中记录Pandas操作技巧,包含: 导入数据 导出数据 查看、检查数据 数据选取 数据清洗 数据处理:Filt...

网友评论

      本文标题:Pandas数据清洗

      本文链接:https://www.haomeiwen.com/subject/htpmuftx.html