美文网首页数据分析啦
为什么需要清洗数据

为什么需要清洗数据

作者: 5a41eb2ceec6 | 来源:发表于2019-01-15 21:11 被阅读13次

日拱一卒|数据挖掘001

无论是大数据、数据挖掘、机器学习,亦或是简单的可视化,无一不是建立在乱七八糟的基础上。在正式地应用于数据科学如算法、可视化前,数据往往需要经过迁移、压缩、清洗、打散、分片、分块等其他转换处理。

至少在经管科研中,数据收集、清洗是最耗费时间的事情。一旦有了高质量的数据,可以发一系列期刊

《纽约时报》将数据清洗成为“看门人工作”,并称数据科学家百分之八十的时间都花费在了这些清洗任务上。

——错进,错出

数据清洗是如何融入数据科学中?

展开来说需要围绕数据科学过程的六个步骤来描述。但不要以纯线性方式看待这些步骤,简单地认为这是一个从头到尾执行的框架。有时会根据具体情况,反复执行这些步骤。

  1. 问题描述,识别出要解决的问题是什么。
  2. 数据收集与储存,数据从何而来?存放在哪里?数据格式是什么?
  3. 数据清洗,数据需要修改吗?有什么需要删除的吗?数据应该如何调整才能适用接下来的分析和挖掘?
  4. 数据分析和机器学习,数据需要哪些处理?需要什么样的转换?使用什么样的算法?运用什么公式?使用什么机器学习算法?顺序又是怎样的呢?
  5. 数据展现和可视化实现,数据处理结果应该怎样呈现出来呢?
  6. 问题决议,在第一步提出的疑问或是问题的答案究竟是什么?数据处理结果还有哪些不足?这个方法能彻底解决问题吗?还能找出别的什么办法吗?接下来要做的又是什么?

要养成记录操作的习惯,哪怕不是正式的报告文档。最简单的方案就是保留一份工作日志。这份日志应包括:应包含的链接,屏幕截图或者复制粘贴曾运行过的具体命令,并配上解释性的文字。

参考资料:
《干净的数据 :数据清洗入门与实践》

相关文章

  • 为什么需要清洗数据

    日拱一卒|数据挖掘001 无论是大数据、数据挖掘、机器学习,亦或是简单的可视化,无一不是建立在乱七八糟的基础上。在...

  • Python 从入门到爬虫极简教程

    为什么要学 Python 数据分析需要多个阶段, 抓取数据仅是一个环节, 数据需要不断采集, 更新, 清洗, 分析...

  • 机器学习-数据清洗

    本文由brzhang发表 数据清洗 首先,为何需要对数据进行清洗 数据清洗的工作绝壁是非常枯燥的,做数据研究的的人...

  • Ooize任务调度框架浅析

    为什么需要任务调度框架 在进行数据处理的时候,需要进行数据采集、数据清洗、数据分析等操作,每一个过程都可能涉及到多...

  • BD第4课:数据清洗

    如果说抓取数据是数据分析的第1步,那么数据清洗就是数据分析的第2步,那么为什么要进行数据清洗呢?如何进行数据清洗呢...

  • VBA之数据清洗

    说明:将文本数据转为数值格式 注:D4,I4,J4为所需要清洗的列 Sub 数据清洗() ' ' 数据清洗 Mac...

  • sqoop导出数据

    应用场景1:把需要清洗的结构化数据导入到hdfs中,通过hive进行清洗后,把清洗结果导出到结构化数据表中,进行展...

  • 第三章-数据预处理

    数据预处理的主要内容包括数据清洗、数据集成、数据变换和数据规约。 3.1数据清洗 数据清洗主要是删除原始数据集中的...

  • Elasticsearch & AWS S3 备份

    我们的系统中大部分都是时序数据,一些数据被清洗后,过期的数据意义已经不大,但是保不齐哪天需要重新清洗或者查阅历史,...

  • excel函数

    (一) 清洗处理类 主要是文本、格式以及脏数据的清洗和转换。很多数据并不是直接拿来就能用的,需要经过数据分析人员的...

网友评论

    本文标题:为什么需要清洗数据

    本文链接:https://www.haomeiwen.com/subject/wkssdqtx.html