什么是Hive?Hive的体系结构
数据仓库的基本概念
数据仓库(DataWarehouse,DW),是一个面向主题的、集成的、不可更新的、随时间不变化的数据集合,它用于支持企业或组织的决策分析处理。
Hive是建立在Hadoop HDFS上的数据仓库基础架构。
Hive可以用来进行数据提取转化加载(ETL)
Hive定义了简单的类似SQL查询语言,称为HQL,它允许熟悉SQL的用户查询数据
Hive允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer无法完成的复杂的分析工作。
Hive是SQL解析引擎,它将SQL语句转译成M/R Job然后在Hadoop执行。
Hive的表其实就是HDFS的目录/文件
Hive的元数据
Hive 将元数据存储在数据库中(metastore),目前只支持 mysql、derby。
Hive 中的元数据包括表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等
Hive的体系结构
Hadoop
用 HDFS进行存储,利用 MapReduce 进行计算
元数据存储(MetaStore)
通常是存储在关系数据库如 mysql, derby 中

网友评论