美文网首页
51cto赵强HADOOP学习(十)

51cto赵强HADOOP学习(十)

作者: lehuai | 来源:发表于2017-12-17 16:14 被阅读0次

什么是Hive?Hive的体系结构

数据仓库的基本概念

数据仓库(DataWarehouse,DW),是一个面向主题的、集成的、不可更新的、随时间不变化的数据集合,它用于支持企业或组织的决策分析处理。

Hive是建立在Hadoop HDFS上的数据仓库基础架构。

Hive可以用来进行数据提取转化加载(ETL)

Hive定义了简单的类似SQL查询语言,称为HQL,它允许熟悉SQL的用户查询数据

Hive允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer无法完成的复杂的分析工作。

Hive是SQL解析引擎,它将SQL语句转译成M/R Job然后在Hadoop执行。

Hive的表其实就是HDFS的目录/文件

Hive的元数据

Hive 将元数据存储在数据库中(metastore),目前只支持 mysql、derby。

Hive 中的元数据包括表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等

Hive的体系结构

Hadoop

用 HDFS进行存储,利用 MapReduce 进行计算

元数据存储(MetaStore)

通常是存储在关系数据库如 mysql, derby 中
00000000

相关文章

网友评论

      本文标题:51cto赵强HADOOP学习(十)

      本文链接:https://www.haomeiwen.com/subject/smlewxtx.html