美文网首页
Spark新特性

Spark新特性

作者: clive0x | 来源:发表于2019-02-20 10:39 被阅读0次

Spark目前使用2.2版本,今天看了下,最新版本2.4。

2.4版本新特性:

Support Barrier Scheduling in Apache Spark:

Spark按数据边界划分Stage(如是否有数据shuffle等),单个Stage一个Job多个tasks,多个tasks按data location如block来划分,所以task间不会有依赖关系,只有隔离关系;

本特性主要迎合MPI需求,tasks间有依赖时,可以像JAVA那样有Barrier来wait,如context.barrier() to wait。

其它新特性:K8s集成,Scala2.12集成。

Tensorflow在不开eager execution时,实现和Spark差不多,都是先构造Computation Graph,然后数据流经Graph处理,Spark batch 时一个RDD Iterator,Spark streaming时 mini batch Iterator,Tensor flow时一个batch tensor 构造成一个Matrix处理,tasks间没有依赖。

2.3版本新特性:

This release adds support for Continuous Processing in Structured Streaming along with a brand new Kubernetes Scheduler backend. 

相关文章

  • Spark新特性

    Spark目前使用2.2版本,今天看了下,最新版本2.4。 2.4版本新特性: Support Barrier S...

  • spark 2.0 新特性

    Spark Core & SparkSQL dataframe与dataset统一,dataframe只是data...

  • Spark 2.3新特性

    Major Features on Spark 2.3 Structured Streaming Continuo...

  • Spark 3.0新特性

    原始文章https://www.slideshare.net/databricks/deep-dive-into-...

  • Kafka升级

    1.为什么要升级 因为spark2.0的Structured Streaming增加了新特性,而这些新特性,基于k...

  • Spark3.0 新特性

    特性一: adaptive query execution (AQE) : query compilerss...

  • 从Spark Streming到Structured Strea

    Spark Streming的不足之处Structured Streming特性 Spark Streming的不...

  • Saprk面试

    1. 谈谈Spark RDD 的几大特性,并深入讲讲体现在哪?Spark的RDD有五大特性: A list of ...

  • Spark特性

    Spark通过在数据处理过程中成本更低的洗牌(Shuffle)方式,将MapReduce提升到一个更高的层次。利用...

  • Apache 流框架 Flink,Spark Streaming

    2.Spark Streaming架构及特性分析 2.1 基本架构 基于是spark core的spark str...

网友评论

      本文标题:Spark新特性

      本文链接:https://www.haomeiwen.com/subject/gfpcyqtx.html