简单说说数据仓库

作者: 飞不高的老鸟 | 来源:发表于2019-12-11 19:31 被阅读0次

数据仓库介绍

    数据仓库是集成的、面向主题的、反应历史的数据的集合。它需要具有高效查询、高质量的、可扩展的的特性。数据仓库是协助运营及管理人员及时做出策略调整的最有效的依据。

数据仓库简单架构

    通常情况下,数据仓库可大体分为三个层次:数据来源、数据处理、数据应用。

数据仓库简单架构图.png

    如上图,ODS 层通常存放的是最原始的数据,包括从业务库同步过来的业务数据、客户端通过 SDK 打点过来的数据、服务生成的原始日志文件等数据。

  • 业务库同步数据:这里的数据是会发生 update 操作的,因此通常情况下会使用全同步的方案。然而,当数据量过大时采用全量同步很明显不太合适,这时可以采用拉量表的方式进行处理。业务库表同步工具:sqoop、datax 等。
  • 客户端通过 SDK 打点数据:通常情况下,打点数据会发送到 Kafka 集群中,然后通过 flink、spark、mapreduce 等从 kafka 中消费数据并写入 hdfs、hbase 等存储中。
  • 原始日志文件:通常情况下,使用 flume 等工具进行数据处理,然后写入我们的仓库中。

    中间层包括:DWD(明细数据)、DWM(维度)、报表预处理、对外提供数据的 API 接口。
    应用层:事实上,应用层建立数据仓库最终的目的,如果不同很好的进行数据应用,一切数仓都是花拳绣腿。

数据仓库建模方法

    目前为止,数据仓库采用的建模方法主流的有维度建模、范式建模。

维度建模

    维度模型是数据仓库领域大师Ralph Kimball 所倡导的。维度建模以分析决策的需求出发构建模型,构建的数据模型为分析需求服务,它解决了用户如何更快速完成分析需求,同时还有较好的大规模复杂查询的响应性能,更直接面向业务。典型的代表有:星形模型、雪花模型。

1. 星形模型

    所谓星形模型是指以事实表为中心,关联各个维度表,以获取我们所需要的数据结果。如下图,在事实表中有各个明细的数据,通过其周围不同的维度来构建上层的数据结果。在该情况下,维表中会有部分的冗余数据。

星形模型.png
2. 雪花模型

    雪花模型是在星形模型的基础上,将维度表进一步细化,得到维表的维度表。如下图,在该模式下,维度表的深度更深一些,在进行数据分析时,我们进行关联维表更多一些。因此,与星形模型相比,其分析查询的速度稍微更弱一些,但是由于维表的细化,得到的各个维度表的冗余较少一些。

雪花模型.png

     无论是星形模型还是雪花模型,最根本的是要在理解业务的基础上,建立服务业务的数据仓库。通常情况下,星形模型具有更快的分析效率,也是建模时比较倾向的。

元数据管理

     元数据(metadate):数据字典,也即数据的数据。主要记录数据仓库中各层级间的映射关系、监控数据仓库的数据状态。一般会通过元数据资料库来统一地存储和管理元数据,其主要目的是使数据仓库的设计、操作和管理能达成协同和一致。

小结

     数据仓库是大数据时代所不可或缺的,易用、稳定的数据仓库对企业来讲是事半功倍的。

相关文章

  • 简单说说数据仓库

    数据仓库介绍 数据仓库是集成的、面向主题的、反应历史的数据的集合。它需要具有高效查询、高质量的、可扩展的的特性。数...

  • Hadoop 之上的数据建模 - Data Vault 2.0

    对比传统的基于 RDBMS 之上的数据仓库和商业智能项目,尝试着说说,Hadoop 之上的数据仓库,从ETL, 数...

  • 数据仓库系列之维度建模

    上一次我已经简单介绍了数据分析中为啥要建立数据仓库,从本周开始我们开始一起学习数据仓库。学习数据仓库,你一定...

  • 大数据经典学习路线(及供参考)之 二

    2.1 数据仓库增强 2.1.1 数据仓库及数据模型入门 什么是数据仓库、数据仓库的意义、数据仓库核心概念、数据仓...

  • 说说简单

    一个人只有保持快乐和满足,才能远离痛苦;一个人只有保持青春活力,才能激流勇进;一个人只有坚持学习,才能与时俱进;一...

  • 实训总结20170923

    数据仓库概述 什么是数据仓库? 创始人W.H.Inmon在《建立数据仓库》一书中对数据仓库的定义是:数据仓库就是面...

  • 数据仓库

    目录一. 什么是数据仓库二. 数据仓库能干什么?三. 数据仓库的特点四. 数据仓库发展历程五. 数据库与数据仓库的...

  • 数据仓库VS数据湖泊,OLTP VS OLAP一篇文章说清楚

    简单来说,数据仓库是一种用于存储并分析数据最终生成分析报告的系统。数据通常来自多个系统,然后将其存入数据仓库以进行...

  • 数据仓库与数仓建模

    1.数据仓库 1.1 什么是数据仓库 数据仓库,英文名为Data Warehouse,简写为DW或DWH。数据仓库...

  • 数据仓库技术

    数据仓库基础 数据仓库的价值 数据仓库的源数据类型 数据仓库的基本架构 数据仓库的多维数据模型 数据立方体与OLA...

网友评论

    本文标题:简单说说数据仓库

    本文链接:https://www.haomeiwen.com/subject/rleagctx.html