美文网首页
Hive学习-高级版五(压缩和存储)

Hive学习-高级版五(压缩和存储)

作者: 刘子栋 | 来源:发表于2018-11-05 09:27 被阅读0次

hive的压缩本质上指的是MapReduce的压缩,因为hive其实就是MapReduce的高级语言版(SQL),hive SQL底层的运行也都是解析成MapReduce程序去运行的。这里的压缩涉及到两个方面,一个是临时的缓存数据,一个是永久的落地数据。缓存数据其实就是map方法的输出,永久的落地数据当然就是reduce的输出了(网上还有把map读取的数据算一个阶段,觉得不需要特别设置就不说了)。压缩种类不少,各有各的特点,需要各位根据自己的场景选择合适的压缩方式。

1、lzo压缩(map、reduce最常用)
压缩比:20%    压解速度:比较快   是否支持split:支持(需要创建索引)

2、snappy压缩(map最常用)

压缩比:25%    压解速度:比lzo块    是否支持split:不支持

3、gzip压缩(很少用)

压缩比:13%    压解速度:很慢    是否支持split:不支持

4、bzip2压缩(很少用)

压缩比:和gzip差不多    压解速度:很慢    是否支持split:支持

相关文章

  • Hive学习-高级版五(压缩和存储)

    hive的压缩本质上指的是MapReduce的压缩,因为hive其实就是MapReduce的高级语言版(SQL),...

  • Hive-压缩和存储

    1.1 Hadoop源码编译支持Snappy压缩 1.1.1 资源准备 1.CentOS联网 配置CentOS能连...

  • Hive 系列 - 压缩和存储

    1 Hadoop源码编译支持Snappy压缩 1.1 jar包准备(hadoop源码、JDK8 、maven、pr...

  • 大数据环境搭建-Hive

    hive压缩包解压 使用mysql存储元数据 创建 hive 账号 hive元数据库 账号授权 通过hive账号...

  • HIVE高级-压缩

    1、压缩Compression 压缩有两大好处:可以减少文件存储所需要的磁盘空间,其次是可以加快数据在网络和磁盘...

  • Hive实践分享之存储和压缩的坑

    Hive实践分享之存储和压缩的坑 在学习大数据技术的过程中,HIVE是非常重要的技术之一,但我们在项目上经常会遇到...

  • hive积累大全

    此篇内容:hive自定义函数UDF、UDTF,压缩存储方式,hive优化、hive实际编程SQL中的if表达式用法...

  • Hive 主流文件存储格式对比

    Hive 主流文件存储格式对比 1、存储文件的压缩比测试 1.1 测试数据 1.2 TextFile 创建表,存储...

  • 12-Hive高级02

    Hive高级第二部分: *****Hive:复杂数据类型、JDBC编程ZK: Compression压缩比解压...

  • hive存储parquet表

    parquet格式的表在生产环境中经常被使用到,具有列式存储和压缩等特点,我们怎么在hive中存储parquet格...

网友评论

      本文标题:Hive学习-高级版五(压缩和存储)

      本文链接:https://www.haomeiwen.com/subject/rrusbftx.html