美文网首页
时间语义

时间语义

作者: 乙腾 | 来源:发表于2023-01-13 14:15 被阅读0次

1.时间语义

1.时间语义

image.png
  • Event Time:
    • 事件发生的时间
      • 事件时间
    • 它通常由事件中的时间戳描述,例如采集的日志数据中,每一条日志都会记录自己的生成时间,Flink 通过时间戳分配器访问事件时间戳。
  • Ingestion Time:
    • 是数据进入 Flink 的时间。
    • 涉入时间
  • Processing Time:
    • 是每一个执行基于时间操作的算子的本地系统时间,与机器相关,默认的时间属性就是 Processing Time。
    • 处理时间

1.1 例子

image.png
  • 电影发行时间就是 事件时间
  • 我们发现这个电影的时间就是 摄入时间
  • 不同的时间语义有不同的应用场合
  • 我们往往更关心事件时间(Event Time)

1.2 数据处理系统中的时间语义

  • 在计算机系统中,考虑数据处理的“时代变化”是没什么意义的,我们更关心的,显然是数据本身产生的时间。
  • 比如我们计算网站的 PV、UV 等指标,要统计每天的访问量。
    • 如果某个用户在 23 点 59分 59 秒有一次访问,但我们的任务处理这条数据的时间已经是第二天 0 点 0 分 01 秒了;那么这条数据,是应该算作当天的访问,还是第二天的访问呢?
    • 很明显,统计用户行为,****需要考虑行为本身发生的时间,所以我们应该把这条数据统计入当天的访问量。
  • 这时我们用到的窗口,就是以事件时间作为划分标准的,跟处理时间无关
  • 所以在实际应用中,事件时间语义会更为常见。
    • 一般情况下,业务日志数据中都会记录数据生成的时间戳(timestamp),它就可以作为事件时间的判断基础

1.3 Event Time、Processing Time、Ingestion Time

  • 实际应用中,数据产生的时间处理的时间可能是完全不同的。
    • 很长时间收集起来的数据,处理或许只要一瞬间;
    • 也有可能数据量过大、处理能力不足,短时间堆了大量数据处理不完,产生“背压”(back pressure)。
  • 通常来说,处理时间是我们计算效率的衡量标准,而事件时间会更符合我们的业务计算逻辑
    • 所以更多时候我们使用事件时间;
    • 不过处理时间也不是一无是处。
      • 对于处理时间而言,由于没有任何附加考虑,数据一来就直接处理,因此这种方式可以让我们的流处理延迟降到最低,效率达到最高。
  • 但是我们前面提到过,在分布式环境中处理时间其实是不确定的,各个并行任务时钟不统一;
    • 而且由于网络延迟,导致数据到达各个算子任务的时间有快有慢,对于窗口操作就可能收集不到正确的数据了,数据处理的顺序也会被打乱。这就会影响到计算结果的正确性。
      • 所以处理时间语义,一般用在对实时性要求极高、而对计算准确性要求不太高的场景
  • 在事件时间语义下,水位线成为了时钟,可以统一控制时间的进度。
    • 这就保证了我们总可以将数据划分到正确的窗口中,比如 8 点 59 分 59 秒产生的数据,无论网络传输的延迟是多少,它永远属于 8 点~9 点的窗口,不会错分。
    • 但我们知道数据还可能是乱序的,要想让窗口正确地收集到所有数据,就必须等这些错乱的数据都到齐这就需要一定的等待时间
      • 所以整体上看,事件时间语义是以一定延迟为代价,换来了处理结果的正确性
      • 由于网络延迟一般只有毫秒级,所以即使是事件时间语义,同样可以完成低延迟实时流处理的任务。
  • 另外,除了事件时间和处理时间,Flink 还有一个“摄入时间”(Ingestion Time)的概念,它是指数据进入 Flink 数据流的时间,也就是 Source 算子读入数据的时间
    • 摄入时间相当于是事件时间和处理时间的一个中和,它是把 Source 任务的处理时间当作了数据的产生时间添加到数据里。这样一来,水位线(watermark)也就基于这个时间直接生成,不需要单独指定了。
    • 这种时间语义可以保证比较好的正确性,同时又不会引入太大的延迟。它的具体行为跟事件时间非常像,可以当作特殊的事件时间来处理。
  • 在 Flink 中,由于处理时间比较简单,早期版本默认的时间语义是处理时间;而考虑到事件时间在实际应用中更为广泛,从 1.12 版本开始,Flink 已经将事件时间作为了默认的时间语义。

相关文章

  • 时间语义

    1.时间语义 1.时间语义 Event Time:是事件发生的时间。事件时间它通常由事件中的时间戳描述,例如采集的...

  • Flink中的时间语义

    什么是时间语义 flink 是基于流式的数据处理框架。既然是流式,那么就会有事件到来,并由框架处理,这样的一系列流...

  • HTML5 语义元素

    语义学(源自古希腊)可定义为对语义意义的研究。 语义元素是拥有语义的元素。 什么是语义元素? 语义元素清楚地向浏览...

  • Flink-1.12(六)Flink时间语义及Watermark

    时间语义 flink 有三种时间:EventTime,表示数据最初的触发时间;IngestionTime,数据进入...

  • Flink Time

    Flink 时间语义 Processing Time: 模拟我们真实世界的时间Process Time 是通过直接...

  • HTML5语义化

    什么是语义化? 语义化,指对文本内容的结构化(内容语义化),选择合乎语义的标签(代码语义化),便于开发者阅读,维护...

  • 如何提高 C++ 项目的编译速度

    C++ 项目的编译时间一般可以从以下几个角度进行优化: 使用 Pimpl 模式 移动语义替代复制语义 前向声明替代...

  • 关于Web语义化的理解

    在Html中标签可以分为有语义标签和无语义标签。如有语义标签有: , , ;无语义标签有: , ,

  • Flink Table API&SQL编程指南之时间属性(3)

    Flink总共有三种时间语义:Processing time(处理时间)、Event time(事件时间)以及In...

  • HTML: 标签语义化的理解

    一. 什么是 HTML 语义化 二. HTML 语义化网页的好处 三. 如何进行 HTML 语义化 四. 语义化标...

网友评论

      本文标题:时间语义

      本文链接:https://www.haomeiwen.com/subject/mkpgcdtx.html