美文网首页数据仓库
第二章 数据仓库环境

第二章 数据仓库环境

作者: 晨磊的微博 | 来源:发表于2018-12-11 19:56 被阅读9次

第一章 决策支持系统(DSS)的发展
第二章 数据仓库环境

第二章 数据仓库环境

2.0 数据仓库的4个特征

  • 数据仓库是体系结构化环境的核心,是DSS的基础
特性 说明
面向主题 区别与面向应用
集成的 需经过ETL的
非易失 批量载入和访问(快照,不进行一般意义的更新)
时变性 所有记录都有时间标志,说明其在哪个时间是准确的

2.1 数据仓库的结构(数据细节)

细节级别 所属层 记忆
早期细节级 DW 归档数据
当前细节级 DW 近1~2年等
轻度汇总级 MID
高度汇总级

2.2 面向主题(的特征)

特征 记忆
包含N个物理表
通过主键联系
可以不同介质存储

2.3 从第一天到第N天(进化,非一蹴而就)

  • 简答说明数据仓库的需一步步进化,而非一蹴而就

2.4 粒度(设计的第一个主要问题)

粒度影响
数据量大小 粒度越小,存储越大
所能答的问题 粒度越小,能回答的问题越多
  • 双重粒度及多重粒度是必然
粒度的好处
不同人不同视角
一致性协调
灵活性
方便重构
未知需求

2.5 探查与数据挖掘

  • 细节数据方便探查和数据挖掘

2.6 活样本数据库

  • 抽取 1/100或1/1000

2.7 分区设计方法(设计的第二个主要问题)

  • 分区的目的是把数据划分成小的可管理的物理单元
  • 数仓的本质就是灵活的访问数据,大块数据不能满足这一要求,因此要分区

2.8 数据仓库中的数据组织

常见结构 说明 拓展
简单堆积文件 最常用 类似普通事实表
轮转综合文件 简单堆积的变种
简单直接文件 快照 类似维度建模中的累积快照
连续文件 类似于维度建模中的缓慢变化维

2.9 审计与数据仓库

  • 数仓可以进行审计,但太复杂建议在别的地方进行
  • 4个不适合审计的原因
原因
仓库中会突然出现数据
时间标定过程发生剧变
备份和恢复限制发生剧变
粒度处于最低级别

2.10 数据的同构/异构(存储、架构不同)

数据的划分标准

  • 主题域:如产品域
  • 表:产品表,销售商表,订单表,发货表,产品材料表
  • 数据在表中的出现:1月订单,2月订单,3月订单

2.11 数据仓库中的数据清理

数据根本没有删除,而是上升到更高级汇总

删除 说明
进入轮转综合文件 就是汇总了呗
转移至低价存储 比如导入到OSS
真正删除 实在没用的就删了
层次转移 由ods到dw

2.12 报表与体系结构化环境

报表类型 举例 环境
操作型报表 每日订单明细 业务系统
数仓型报表 每日订单量 仓库

2.13 各种环境中的操作型窗口(操作型环境)

  • 数据仓库中全是档案数据
  • 操作型环境也需要档案数据(如用户查看近半年的某个订单等)
  • 操作型环境中档案数据的时间范围就是操作型窗口

2.14 数据仓库中的错误数据

示例:7月1日账户A增加5000元,7月2日仓库生成了快照,但在8月15日发现错误了,不是5000元,而是750元,怎么修改呢?

序号 方法 描述 好处 坏处
1 更新历史数据 更新7月2日的数据 干净彻底 数据集被破坏,必须更新仓库,需进行很多修改
2 加入修正条目 8月16日加入两天数据,-5000,+750 最新数据的最好反映 需进行很多修改,规则复杂时候很难修复
3 不管历史,更正最新值 8月16日修正为 +750 准确反映余额 无法解释过去的错误,且需要对应用与过程进行约定

2.15 小结

  • 数据仓库设计的几个重要问题
总结 说明 记忆
特征 集成、主题、非易失、时变性 jzfs(近战法师)
数据设计的主要问题 分区、粒度、细节、异构、组织、清理、错误 fl.xyz.cc(clean,cuowu)
操作型系统的数据工作 操作型报表,操作型窗口

相关文章

  • 第二章 数据仓库环境

    第一章 决策支持系统(DSS)的发展第二章 数据仓库环境 第二章 数据仓库环境 2.0 数据仓库的4个特征 数据仓...

  • 第一章 决策支持系统(DSS)的发展

    第一章 决策支持系统(DSS)的发展第二章 数据仓库环境 第一章 决策支持系统(DSS)的发展 1.0 从整体入手...

  • 数据仓库环境

    数据仓库是体系结构环境的核心,是决策支持系统处理的基础。数据仓库的建设中核心步骤是首先要对数据仓库的结构进行了解、...

  • 大数据入门:大数据数据仓库主流选择

    大数据时代,大数据存储的解决方案,往往涉及到数据仓库的选型策略。从传统时期的数据仓库,到大数据环境下的数据仓库,其...

  • 数据仓库的基本架构

    数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。数据仓库本身...

  • 数据仓库-Hive

    数据仓库(Data Warehouse ) 1.1 基本概念 数据仓库的目的是构建面向分析的集成化的数据环境, 为...

  • 数据仓库2、数据仓库环境

    数据仓库是体系结构化环境的核心,是DSS处理的基础。 他是一个面向主题的、集成的、非易失的、随时间变化的用来支持管...

  • 数据仓库的基本架构是什么样的?

    数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。其实数据仓库...

  • 管理数据仓库环境

    本文为 Database Data Warehousing Guide 的第四部分。主要涉及数据仓库创建的ETL操...

  • 数据仓库基本概念和与数据库的区别

    # 数据仓库基本概念 数据仓库 DW 构建面向分析的集成化数据环境。 本身不产生数据。数据来源于外部,并且开放给外...

网友评论

    本文标题:第二章 数据仓库环境

    本文链接:https://www.haomeiwen.com/subject/utaehqtx.html