StreamingPro使用教程

作者: 祝威廉 | 来源:发表于2016-08-02 10:20 被阅读1613次

StreamingPro使用教程
StreamingPro manager 服务部署指南
StreamingPro
StreamingPro 提供API实现自定义功能
使用StreamingPro 快速构建Spark SQL on
Xshell和putty使用教程
StreamingPro 再次支持 Structured Str
Github
gulp 使用教程
Web Scraper 使用教程（五）- 进阶用法（爬取向下滚动

准备工作

下载Spark 1.6.2
下载StreamingPro

我们假设你下载的StreamingPro包在/tmp目录下。

复制如下模板

{
  "esToCsv": {
    "desc": "测试",
    "strategy": "streaming.core.strategy.SparkStreamingStrategy",
    "algorithm": [],
    "ref": [],
    "compositor": [
      {
        "name": "streaming.core.compositor.spark.source.SQLSourceCompositor",
        "params": [
          {
            "format": "org.elasticsearch.spark.sql",
            "path": "索引名称",
            "es.nodes": "这里是填写集群地址哈",
            "es.mapping.date.rich": "false"
          }
        ]
      },
      {
        "name": "streaming.core.compositor.spark.transformation.JSONTableCompositor",
        "params": [
          {
            "tableName": "table1"
          }
        ]
      },
      {
        "name": "streaming.core.compositor.spark.transformation.SQLCompositor",
        "params": [
          {
            "sql": "select * from table1"
          }
        ]
      },
      {
        "name": "streaming.core.compositor.spark.output.SQLOutputCompositor",
        "params": [
          {
            "format": "com.databricks.spark.csv",
            "path": "file:///tmp/csv-table1",
            "header": "true",
            "inferSchema": "true"
          }
        ]
      }
    ],
    "configParams": {
    }
  }
}

假设该文件所在路径是 /tmp/esToCSV.json。

本机运行

cd  $SPARK_HOME

./bin/spark-submit   --class streaming.core.StreamingApp \
--master local[2] \
--name test \
/tmp/streamingpro-0.3.2-SNAPSHOT-online-1.6.1.jar    \
-streaming.name test    \
-streaming.platform spark   \
-streaming.job.file.path file:// /tmp/esToCSV.json

在集群运行

cd  $SPARK_HOME

./bin/spark-submit   --class streaming.core.StreamingApp \
--master yarn-cluster\
--name test \
/tmp/streamingpro-0.3.2-SNAPSHOT-online-1.6.1.jar    \
-streaming.name test    \
-streaming.platform spark   \
-streaming.job.file.path hdfs://clusternameAndPort/tmp/esToCSV.json

StreamingPro使用教程
准备工作下载Spark 1.6.2 下载StreamingPro 我们假设你下载的StreamingPro包在/...
StreamingPro manager 服务部署指南
前言 StreamingPro中的 streamingpro-manager 提供了部署，管理Spark任务的We...
StreamingPro
Declarative workflows for building Spark Streaming Spark ...
StreamingPro 提供API实现自定义功能
前言最近给StreamingPro提供了两个新的模块，一个是streamingpro-manager,一个是st...
使用StreamingPro 快速构建Spark SQL on
前言 CarbonData已经发布了1.0版本，变更还是很快的，这个版本已经移除了kettle了，使得部署和使用 ...
Xshell和putty使用教程
Xshell和putty使用教程 Xshell使用教程 putty使用教程 Xshell使用教程 Xshell个人...
StreamingPro 再次支持 Structured Str
前言之前已经写过一篇文章，StreamingPro 支持Spark Structured Streaming，不...
Github
Github使用教程一Github使用教程二Github使用教程三 Git常用命令Git之使用GitHub搭建远程仓库
gulp 使用教程
【gulp 使用教程】【gulp 使用教程】一、温馨提示1.1 使用此教程前需自身已经熟悉 node 以及 np...
Web Scraper 使用教程（五）- 进阶用法（爬取向下滚动
之前的教程可以看这里： 1、Web Scraper 使用教程（一）- 安装 2、Web Scraper 使用教程（...

网友评论

5282a211c648:你好，问个sparkstreaming的问题：StreamingContext 如何去获取graph。看你的代码中可以获取到，但是通过news StreamingContext 的方式获取不到graph。看源码是个private 变量。所以我要怎么获取graph。

5282a211c648:你好，我想问下关于batch.sql 目前只能配置一条sql语句这个限制，现在还是没开放吗？生产上基于mysql写sql的语句经常要设置timeZone，这种情况有什么好办法吗

祝威廉:@小小火柴_7dbc 你可以写多个batch.sql 配置。timeZone是不是可以在jdbc url链接配置参数解决？另外鼓励大家使用 XQL,把spark 启动为一个服务，然后通过http提交sql脚本过去。

5282a211c648:你好，github上的三步跑起你的第一个应用，用streamingpro-spark-2.0-1.0.0.jar 包跑有问题。错误信息：Exception in thread "main" java.lang.ClassNotFoundException: streaming.core.compositor.spark.source.MockJsonCompositor

json脚本有配置这个：
"testJoinTable": {
"desc": "测试",
"strategy": "streaming.core.strategy.SparkStreamingRefStrategy",
"algorithm": [],
"ref": [],
"compositor": [
{
"name": "streaming.core.compositor.spark.source.MockJsonCompositor",
"params": [
{"a":"3"},
{"a":"4"},
{"a":"5"}
]
}。
能否更新下例子

祝威廉:@小小火柴_7dbc 建议参看github上的中文文档有时间也更新下这边的内容

5282a211c648:你好，问个sparkstreaming的问题：StreamingContext 如何去获取graph。看你的代码中可以获取到，但是通过news StreamingContext 的方式获取不到graph。看源码是个private 变量。所以我要怎么获取graph。
5282a211c648:你好，我想问下关于batch.sql 目前只能配置一条sql语句这个限制，现在还是没开放吗？生产上基于mysql写sql的语句经常要设置timeZone，这种情况有什么好办法吗
祝威廉:@小小火柴_7dbc 你可以写多个batch.sql 配置。timeZone是不是可以在jdbc url链接配置参数解决？另外鼓励大家使用 XQL,把spark 启动为一个服务，然后通过http提交sql脚本过去。
5282a211c648:你好，github上的三步跑起你的第一个应用，用streamingpro-spark-2.0-1.0.0.jar 包跑有问题。错误信息：Exception in thread "main" java.lang.ClassNotFoundException: streaming.core.compositor.spark.source.MockJsonCompositor

json脚本有配置这个：
"testJoinTable": {
"desc": "测试",
"strategy": "streaming.core.strategy.SparkStreamingRefStrategy",
"algorithm": [],
"ref": [],
"compositor": [
{
"name": "streaming.core.compositor.spark.source.MockJsonCompositor",
"params": [
{"a":"3"},
{"a":"4"},
{"a":"5"}
]
}。
能否更新下例子
祝威廉:@小小火柴_7dbc 建议参看github上的中文文档有时间也更新下这边的内容

StreamingPro使用教程

准备工作

复制如下模板

本机运行

在集群运行

相关文章

StreamingPro使用教程

StreamingPro manager 服务部署指南

StreamingPro

StreamingPro 提供API实现自定义功能

使用StreamingPro 快速构建Spark SQL on

Xshell和putty使用教程

StreamingPro 再次支持 Structured Str

Github

gulp 使用教程

Web Scraper 使用教程（五）- 进阶用法（爬取向下滚动

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

MLSQL