美文网首页
Spark基础知识

Spark基础知识

作者: 杜龙少 | 来源:发表于2014-11-04 10:36 被阅读195次

Spark基本概念

  • RDD——Resillient Distributed Dataset A Fault-Tolerant Abstraction for In-Memory Cluster Computing弹性分布式数据集。
  • Operation——作用于RDD的各种操作分为transformation和action。
  • Job——作业,一个JOB包含多个RDD及作用于相应RDD上的各种operation。
  • Stage——一个作业分为多个阶段。
  • Partition——数据分区, 一个RDD中的数据可以分成多个不同的区。
  • DAG——Directed Acycle graph,有向无环图,反应RDD之间的依赖关系。
  • Narrow dependency——窄依赖,子RDD依赖于父RDD中固定的data partition。
  • Wide Dependency——宽依赖,子RDD对父RDD中的所有data partition都有依赖。
  • Caching Managenment——缓存管理,对RDD的中间计算结果进行缓存管理以加快整 体的处理速度。

相关文章

网友评论

      本文标题:Spark基础知识

      本文链接:https://www.haomeiwen.com/subject/rmlvtttx.html