美文网首页MLSQL
StreamingPro使用教程

StreamingPro使用教程

作者: 祝威廉 | 来源:发表于2016-08-02 10:20 被阅读1613次

准备工作

我们假设你下载的StreamingPro包在/tmp目录下。

复制如下模板

{
  "esToCsv": {
    "desc": "测试",
    "strategy": "streaming.core.strategy.SparkStreamingStrategy",
    "algorithm": [],
    "ref": [],
    "compositor": [
      {
        "name": "streaming.core.compositor.spark.source.SQLSourceCompositor",
        "params": [
          {
            "format": "org.elasticsearch.spark.sql",
            "path": "索引名称",
            "es.nodes": "这里是填写集群地址哈",
            "es.mapping.date.rich": "false"
          }
        ]
      },
      {
        "name": "streaming.core.compositor.spark.transformation.JSONTableCompositor",
        "params": [
          {
            "tableName": "table1"
          }
        ]
      },
      {
        "name": "streaming.core.compositor.spark.transformation.SQLCompositor",
        "params": [
          {
            "sql": "select * from table1"
          }
        ]
      },
      {
        "name": "streaming.core.compositor.spark.output.SQLOutputCompositor",
        "params": [
          {
            "format": "com.databricks.spark.csv",
            "path": "file:///tmp/csv-table1",
            "header": "true",
            "inferSchema": "true"
          }
        ]
      }
    ],
    "configParams": {
    }
  }
}

假设该文件所在路径是 /tmp/esToCSV.json。

本机运行

cd  $SPARK_HOME

./bin/spark-submit   --class streaming.core.StreamingApp \
--master local[2] \
--name test \
/tmp/streamingpro-0.3.2-SNAPSHOT-online-1.6.1.jar    \
-streaming.name test    \
-streaming.platform spark   \
-streaming.job.file.path file:// /tmp/esToCSV.json

在集群运行

cd  $SPARK_HOME

./bin/spark-submit   --class streaming.core.StreamingApp \
--master yarn-cluster\
--name test \
/tmp/streamingpro-0.3.2-SNAPSHOT-online-1.6.1.jar    \
-streaming.name test    \
-streaming.platform spark   \
-streaming.job.file.path hdfs://clusternameAndPort/tmp/esToCSV.json

相关文章

网友评论

  • 5282a211c648:你好,问个sparkstreaming的问题:StreamingContext 如何去获取graph。看你的代码中可以获取到,但是通过news StreamingContext 的方式获取不到graph。看源码是个private 变量。所以我要怎么获取graph。
  • 5282a211c648:你好,我想问下关于batch.sql 目前只能配置一条sql语句这个限制,现在还是没开放吗?生产上基于mysql写sql的语句经常要设置timeZone,这种情况有什么好办法吗
    祝威廉:@小小火柴_7dbc 你可以写多个batch.sql 配置。timeZone是不是可以在jdbc url链接配置参数解决? 另外鼓励大家使用 XQL,把spark 启动为一个服务,然后通过http提交sql脚本过去。
  • 5282a211c648:你好,github上的三步跑起你的第一个应用 ,用streamingpro-spark-2.0-1.0.0.jar 包跑有问题。错误信息:Exception in thread "main" java.lang.ClassNotFoundException: streaming.core.compositor.spark.source.MockJsonCompositor

    json脚本有配置这个:
    "testJoinTable": {
    "desc": "测试",
    "strategy": "streaming.core.strategy.SparkStreamingRefStrategy",
    "algorithm": [],
    "ref": [],
    "compositor": [
    {
    "name": "streaming.core.compositor.spark.source.MockJsonCompositor",
    "params": [
    {"a":"3"},
    {"a":"4"},
    {"a":"5"}
    ]
    }。
    能否更新下例子
    祝威廉:@小小火柴_7dbc 建议参看github上的中文文档 有时间也更新下这边的内容

本文标题:StreamingPro使用教程

本文链接:https://www.haomeiwen.com/subject/ajyfsttx.html