zeppelin中使用spark sql + pyspark混合

作者: wpb | 来源:发表于2017-03-14 10:39 被阅读0次

zeppelin中使用spark sql + pyspark混合
Spark Python API Docs(part two)
pySpark 中文API (2)
Zeppelin Spark SQL Hive 查询不一致问题
4.pyspark.sql.Column
9.pyspark.sql.WindowSpec
10.pyspark.sql.FrameReader
1.pyspark.sql.SQLContext
3.pyspark.sql.GroupedData
5.pyspark.sql.Row

使用spark读取json文件生成临时表

import org.apache.spark.sql.SparkSession
import org.mortbay.util.ajax.JSON
val spark = SparkSession
      .builder()
      .appName("tidb-bench")
      .config("zeppelin.spark.sql.stacktrace", "true")
      .getOrCreate()

    // For implicit conversions like converting RDDs to DataFrames
    import spark.implicits._

    val tidb = spark.read.json("file:///share/data/tidb.json")

    tidb.printSchema()
    tidb.show(10)
    tidb.createOrReplaceTempView("tidb")

使用spark-sql进行数据可视化

%sql 
select *
from tidb

使用pyspark + plotly进行自定义可视化

%pyspark
from pyspark.sql import SQLContext,Row

import plotly
from plotly.graph_objs import Scatter, Layout


def plot(plot_dic, height=500, width=500, **kwargs):
    kwargs['output_type'] = 'div'
    plot_str = plotly.offline.plot(plot_dic, **kwargs)
    print('%%angular <div style="height: %ipx; width: %spx"> %s </div>' % (height, width, plot_str))
    
xx=sqlContext.sql("select * from tidb")
z=xx.toPandas() 
plot({
    "data": [
        Scatter(x=z["avg"], y=z["Number of threads"])
    ],
    "layout": Layout(
        title="hello world"
    )
})

网友评论

本文标题：zeppelin中使用spark sql + pyspark混合

本文链接：https://www.haomeiwen.com/subject/qyvcnttx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

zeppelin中使用spark sql + pyspark混合

使用spark读取json文件生成临时表

使用spark-sql进行数据可视化

使用pyspark + plotly进行自定义可视化

相关文章

zeppelin中使用spark sql + pyspark混合

Spark Python API Docs(part two)

pySpark 中文API (2)

Zeppelin Spark SQL Hive 查询不一致问题

4.pyspark.sql.Column

9.pyspark.sql.WindowSpec

10.pyspark.sql.FrameReader

1.pyspark.sql.SQLContext

3.pyspark.sql.GroupedData

5.pyspark.sql.Row

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读