hive编程指南pdf高清中文免费版
分享到:
hive编程指南是一本ApacheHive的编程指南书籍,旨在介绍如何使用Hive的SQL方法——HiveQL来汇总、查询和分析存储在Hadoop分布式文件系统上的大数据集合。Hive是Hadoop生态系统中必不可少的一个工具,它提供了一种SQL方言,可以查询存储在Hadoop分布式文件系统中的数据或其他和Hadoop集成的文件系统,如MApr-FS,Amazon的S3和像HBase和Cassandra这样的数据库中的数据。小编推荐的这本Hive编程指南通过大量的实例,首先介绍如何在用户环境下安装和配置Hive,并对Hadoop和MapReduce进行详尽阐述,演示Hive如何在Hadoop生态系统进行工作。Hive编程指南适合对大数据感兴趣的爱好者以及正在使用Hadoop系统的数据库管理员阅读使用。
Dean Wampler:Think Big Analytics公司总顾问,对大数据问题以及Hadoop和机器学习有专门的研究。
Jason Rutherglen:Think Big Analytics公司软件架构师,对大数据、Hadoop、搜索和安全有专门的研究。
1.1 Hadoop和MapReduce综述
1.2 Hadoop生态系统中的Hive
1.2.1 Pig
1.2.2 HBase
1.2.3 Cascading、Crunch及其他
1.3 Java和Hive:词频统计算法
1.4 后续事情
第2章 基础操作
2.1 安装预先配置好的虚拟机
2.2 安装详细步骤
2.2.1 装Java
2.2.2 安装Hadoop
2.2.3 本地模式、伪分布式模式和分布式模式
2.2.4 测试Hadoop
2.2.5 安装Hive
2.3 Hive内部是什么
2.4 启动Hive
2.5 配置Hadoop环境
2.5.1 本地模式配置
2.5.2 分布式模式和伪分布式模式配置
2.5.3 使用JDBC连接元数据
2.6 Hive命令
2.7 命令行界面
2.7.1 CLI 选项
2.7.2 变量和属性
2.7.3 Hive中“一次使用”命令
2.7.4 从文件中执行Hive查询
2.7.5 hiverc文件
2.7.6 使用Hive CLI的更多介绍
2.7.7 查看操作命令历史
2.7.8 执行shell命令
2.7.9 在Hive内使用Hadoop的dfs命令
2.7.10 Hive脚本中如何进行注释
2.7.11 显示字段名称
第3章 数据类型和文件格式
3.1 基本数据类型
3.2 集合数据类型
3.3 文本文件数据编码
3.4 读时模式
第4章 HiveQL:数据定义
4.1 Hive中的数据库
4.2 修改数据库
4.3 创建表
4.3.1 管理表
4.3.2 外部表
4.4 分区表、管理表
4.4.1 外部分区表
4.4.2 自定义表的存储格式
4.5 删除表
4.6 修改表
4.6.1 表重命名4.6.2 增加、修改和删除表分区
4.6.3 修改列信息
4.6.4 增加列
4.6.5 删除或者替换列
4.6.6 修改表属性
4.6.7 修改存储属性
4.6.8 众多的修改表语句
第5章 HiveQL:数据操作
5.1 向管理表中装载数据
5.2 通过查询语句向表中插入数据
5.3 单个查询语句中创建表并加载数据
5.4 导出数据
第6章 HiveQL:查询
6.1 SELECT…FROM语句
6.1.1 使用正则表达式来指定列
6.1.2 使用列值进行计算
6.1.3 算术运算符
6.1.4 使用函数
6.1.5 LIMIT语句
6.1.6 列别名
6.1.7 嵌套SELECT语句
6.1.8 CASE…WHEN…THEN 句式
6.1.9 什么情况下Hive可以避免进行MapReduce
6.2 WHERE语句
6.2.1 谓词操作符
6.2.2 关于浮点数比较
6.2.3 LIKE和RLIKE
6.3 GROUP BY 语句
6.4 JOIN语句
6.4.1 INNER JOIN
6.4.2 JOIN优化
6.4.3 LEFT OUTER JOIN
6.4.4 OUTER JOIN
6.4.5 RIGHT OUTER JOIN
6.4.6 FULL OUTER JOIN
6.4.7 LEFT SEMI-JOIN
6.4.8 笛卡尔积JOIN
6.4.9 map-side JOIN
6.5 ORDER BY和SORT BY
6.6 含有SORT BY 的DISTRIBUTE BY
6.7 CLUSTER BY
6.8 类型转换
6.9 抽样查询
6.9.1 数据块抽样
6.9.2 分桶表的输入裁剪
6.10 UNION ALL
第7章 HiveQL:视图
7.1 使用视图来降低查询复杂度
7.2 使用视图来限制基于条件过滤的数据
7.3 动态分区中的视图和map类型
7.4 视图零零碎碎相关的事情
第8章 HiveQL:索引
8.1 创建索引
8.2 重建索引
8.3 显示索引
8.4 删除索引
8.5 实现一个定制化的索引处理器
第9章 模式设计
9.1 按天划分的表
9.2 关于分区
9.3 唯一键和标准化
9.4 同一份数据多种处理
9.5 对于每个表的分区
9.6 分桶表数据存储
9.7 为表增加列
9.8 使用列存储表
9.8.1 重复数据
9.8.2 多列
9.9 (几乎)总是使用压缩
第10章 调优
10.1 使用EXPLAIN
10.2 EXPLAIN EXTENDED
10.3 限制调整
10.4 JOIN优化
10.5 本地模式
10.6 并行执行
10.7 严格模式
10.8 调整mapper和reducer个数
10.9 JVM重用
10.10 索引
10.11 动态分区调整
10.12 推测执行
10.13 单个MapReduce中多个GROUP BY
10.14 虚拟列
第11章 其他文件格式和压缩方法
......
第12章 开发
......
第13章 函数
......
第14章 Streaming
......
第15章 自定义Hive文件和记录格式
......
第16章 Hive的Thrift服务
......
第17章 存储处理程序和NoSQL
......
第18章 安全
......
第19章 锁
......
第20章 Hive和Oozie整合
......
第21章 Hive和亚马逊网络服务系统(AWS)
......
第22章 HCatalog
......
第23章 案例研究
......
术语词汇表
本书是一本Hive的编程指南。Hive是Htadoop生态系统中必不可少的一个工具,它提供了一种SQL(结构化查询语言)方言,可以查询存储在Htadoop分布式文件系统(HDFS)中的数据或其他和IIadoop集成的文件系统,如MapR—FS、Anlazon的s3和像HBase(Htadoop数据库)和cassandra这样的数据库中的数据。
大多数数据仓库应用程序都是使用关系数据库进行实现的,并使用SQL作为查询语言。Hive降低了将这些应用程序转移到Htadoop系统上的难度。凡是会使用SOL语言的开发人员都可以很轻松地学习并使用Hive。如果没有Hive,那么这些用户就必须学习新的语言和工具,然后才能应用到生产环境中。另外,相比其他工具,Hive更便于开发人员将基于SQL的应用程序转移到}tadoop中。如果没有Hive,那么开发者将面临一个艰巨的挑战,如何将他们的SOL应用程序移植到Hadoop上。
不过,Hive和其他基于SOL的环境还是有一些差异的。如今,可供Hive用户和}tadoop开发者使用的文档并不多,所以我们决定撰写这本书来填补这个缺口。我们将对Hive进行全面详实的介绍,主要适用于SQL专家,如数据库设计人员和业务分析师。我们也谈到了深入的技术细节,可以帮助Htadoop开发人员对Hive进行调优和定制。
……
禁用于商业用途!如果您喜欢《hive编程指南》,请购买正版,谢谢合作。
爱学习,请到3322软件站查找资源自行下载!
第1章 基础知识
从早期的互联网主流大爆发开始,主要的搜索引擎公司和电子商务公司就一直在和不断增长的数据进行较量。最近,社交网站也遇到了同样的问题。如今,许多组织已经意识到他们所收集的数据是让他们了解他们的用户,提高业务在市场上的表现以及提高基础架构效率的一个宝贵的资源。
Hadoop生态系统就是为处理如此大数据集而产生的一个合乎成本效益的解决方案。Hadoop实现了一个特别的计算模型,也就是MapReduce,其可以将计算任务分割成多个处理单元然后分散到一群家用的或服务器级别的硬件机器上,从而降低成本并提供水平可伸缩性。这个计算模型的下面是一个被称为Hadoop分布式文件系统(HDFS)的分布式文件系统。这个文件系统是“可插拔的”,而且现在已经出现了几个商用的和开源的替代方案。
不过,仍然存在一个挑战,那就是用户如何从一个现有的数据基础架构转移到I~adoop上,而这个基础架构是基于传统关系型数据库和结构化查询语句(SQL)的。对于大量的SQL用户(包括专业数据库设计师和管理员,也包括那些使用SQL从数据仓库中抽取信息的临时用户)来说,这个问题又将如何解决呢?
这就是Hive出现的原因。Hive提供了一个被称为Hive查询语言(简称HiveQL或HQL)的SQL方言,来查询存储在Hadoop集群中的数据。
SQL知识分布广泛的一个原因是:它是一个可以有效地、合理地且直观地组织和使用数据的模型。即使对于经验丰富的Java开发工程师来说,将这些常见的数据运算对应到底层的MapReduceJavaAPI也是令人畏缩的。Hive可以帮助用户来做这些苦活,这样用户就可以集中精力关注于查询本身了。Hlve可以将大多数的查询转换为
MapReduce任务(job),进而在介绍一个令人熟悉的SOL抽象的同时,拓宽Hadoop的可扩展性。如果用户对此存在疑惑,请参考稍后部分的第1.3节“Java和Hive:词频统计算法”中的相关介绍。
……
1、下载并解压,得出pdf文件
2、如果打不开本文件,别着急,这时候请务必在3322软件站选择一款阅读器下载哦
3、安装后,再打开解压得出的pdf文件
4、以上都完成后,接下来双击进行阅读就可以啦,朋友们开启你们的阅读之旅吧。
方法二:
1、可以在手机里下载3322软件站中的阅读器和百度网盘
2、接下来直接将pdf传输到百度网盘
3、用阅读器打开即可阅读
作者简介:
Edward Capriolo:Media6degrees公司系统管理员,他是Apache软件基金会成员,还是Hadoop-Hive项目成员。Dean Wampler:Think Big Analytics公司总顾问,对大数据问题以及Hadoop和机器学习有专门的研究。
Jason Rutherglen:Think Big Analytics公司软件架构师,对大数据、Hadoop、搜索和安全有专门的研究。
hive编程指南目录:
第1章 基础知识1.1 Hadoop和MapReduce综述
1.2 Hadoop生态系统中的Hive
1.2.1 Pig
1.2.2 HBase
1.2.3 Cascading、Crunch及其他
1.3 Java和Hive:词频统计算法
1.4 后续事情
第2章 基础操作
2.1 安装预先配置好的虚拟机
2.2 安装详细步骤
2.2.1 装Java
2.2.2 安装Hadoop
2.2.3 本地模式、伪分布式模式和分布式模式
2.2.4 测试Hadoop
2.2.5 安装Hive
2.3 Hive内部是什么
2.4 启动Hive
2.5 配置Hadoop环境
2.5.1 本地模式配置
2.5.2 分布式模式和伪分布式模式配置
2.5.3 使用JDBC连接元数据
2.6 Hive命令
2.7 命令行界面
2.7.1 CLI 选项
2.7.2 变量和属性
2.7.3 Hive中“一次使用”命令
2.7.4 从文件中执行Hive查询
2.7.5 hiverc文件
2.7.6 使用Hive CLI的更多介绍
2.7.7 查看操作命令历史
2.7.8 执行shell命令
2.7.9 在Hive内使用Hadoop的dfs命令
2.7.10 Hive脚本中如何进行注释
2.7.11 显示字段名称
第3章 数据类型和文件格式
3.1 基本数据类型
3.2 集合数据类型
3.3 文本文件数据编码
3.4 读时模式
第4章 HiveQL:数据定义
4.1 Hive中的数据库
4.2 修改数据库
4.3 创建表
4.3.1 管理表
4.3.2 外部表
4.4 分区表、管理表
4.4.1 外部分区表
4.4.2 自定义表的存储格式
4.5 删除表
4.6 修改表
4.6.1 表重命名4.6.2 增加、修改和删除表分区
4.6.3 修改列信息
4.6.4 增加列
4.6.5 删除或者替换列
4.6.6 修改表属性
4.6.7 修改存储属性
4.6.8 众多的修改表语句
第5章 HiveQL:数据操作
5.1 向管理表中装载数据
5.2 通过查询语句向表中插入数据
5.3 单个查询语句中创建表并加载数据
5.4 导出数据
第6章 HiveQL:查询
6.1 SELECT…FROM语句
6.1.1 使用正则表达式来指定列
6.1.2 使用列值进行计算
6.1.3 算术运算符
6.1.4 使用函数
6.1.5 LIMIT语句
6.1.6 列别名
6.1.7 嵌套SELECT语句
6.1.8 CASE…WHEN…THEN 句式
6.1.9 什么情况下Hive可以避免进行MapReduce
6.2 WHERE语句
6.2.1 谓词操作符
6.2.2 关于浮点数比较
6.2.3 LIKE和RLIKE
6.3 GROUP BY 语句
6.4 JOIN语句
6.4.1 INNER JOIN
6.4.2 JOIN优化
6.4.3 LEFT OUTER JOIN
6.4.4 OUTER JOIN
6.4.5 RIGHT OUTER JOIN
6.4.6 FULL OUTER JOIN
6.4.7 LEFT SEMI-JOIN
6.4.8 笛卡尔积JOIN
6.4.9 map-side JOIN
6.5 ORDER BY和SORT BY
6.6 含有SORT BY 的DISTRIBUTE BY
6.7 CLUSTER BY
6.8 类型转换
6.9 抽样查询
6.9.1 数据块抽样
6.9.2 分桶表的输入裁剪
6.10 UNION ALL
第7章 HiveQL:视图
7.1 使用视图来降低查询复杂度
7.2 使用视图来限制基于条件过滤的数据
7.3 动态分区中的视图和map类型
7.4 视图零零碎碎相关的事情
第8章 HiveQL:索引
8.1 创建索引
8.2 重建索引
8.3 显示索引
8.4 删除索引
8.5 实现一个定制化的索引处理器
第9章 模式设计
9.1 按天划分的表
9.2 关于分区
9.3 唯一键和标准化
9.4 同一份数据多种处理
9.5 对于每个表的分区
9.6 分桶表数据存储
9.7 为表增加列
9.8 使用列存储表
9.8.1 重复数据
9.8.2 多列
9.9 (几乎)总是使用压缩
第10章 调优
10.1 使用EXPLAIN
10.2 EXPLAIN EXTENDED
10.3 限制调整
10.4 JOIN优化
10.5 本地模式
10.6 并行执行
10.7 严格模式
10.8 调整mapper和reducer个数
10.9 JVM重用
10.10 索引
10.11 动态分区调整
10.12 推测执行
10.13 单个MapReduce中多个GROUP BY
10.14 虚拟列
第11章 其他文件格式和压缩方法
......
第12章 开发
......
第13章 函数
......
第14章 Streaming
......
第15章 自定义Hive文件和记录格式
......
第16章 Hive的Thrift服务
......
第17章 存储处理程序和NoSQL
......
第18章 安全
......
第19章 锁
......
第20章 Hive和Oozie整合
......
第21章 Hive和亚马逊网络服务系统(AWS)
......
第22章 HCatalog
......
第23章 案例研究
......
术语词汇表
前言/序言:
......本书是一本Hive的编程指南。Hive是Htadoop生态系统中必不可少的一个工具,它提供了一种SQL(结构化查询语言)方言,可以查询存储在Htadoop分布式文件系统(HDFS)中的数据或其他和IIadoop集成的文件系统,如MapR—FS、Anlazon的s3和像HBase(Htadoop数据库)和cassandra这样的数据库中的数据。
大多数数据仓库应用程序都是使用关系数据库进行实现的,并使用SQL作为查询语言。Hive降低了将这些应用程序转移到Htadoop系统上的难度。凡是会使用SOL语言的开发人员都可以很轻松地学习并使用Hive。如果没有Hive,那么这些用户就必须学习新的语言和工具,然后才能应用到生产环境中。另外,相比其他工具,Hive更便于开发人员将基于SQL的应用程序转移到}tadoop中。如果没有Hive,那么开发者将面临一个艰巨的挑战,如何将他们的SOL应用程序移植到Hadoop上。
不过,Hive和其他基于SOL的环境还是有一些差异的。如今,可供Hive用户和}tadoop开发者使用的文档并不多,所以我们决定撰写这本书来填补这个缺口。我们将对Hive进行全面详实的介绍,主要适用于SQL专家,如数据库设计人员和业务分析师。我们也谈到了深入的技术细节,可以帮助Htadoop开发人员对Hive进行调优和定制。
……
免责声明:
来源于网络,仅用于分享知识,学习和交流!请下载完在24小时内删除。禁用于商业用途!如果您喜欢《hive编程指南》,请购买正版,谢谢合作。
爱学习,请到3322软件站查找资源自行下载!
精彩书摘:
......第1章 基础知识
从早期的互联网主流大爆发开始,主要的搜索引擎公司和电子商务公司就一直在和不断增长的数据进行较量。最近,社交网站也遇到了同样的问题。如今,许多组织已经意识到他们所收集的数据是让他们了解他们的用户,提高业务在市场上的表现以及提高基础架构效率的一个宝贵的资源。
Hadoop生态系统就是为处理如此大数据集而产生的一个合乎成本效益的解决方案。Hadoop实现了一个特别的计算模型,也就是MapReduce,其可以将计算任务分割成多个处理单元然后分散到一群家用的或服务器级别的硬件机器上,从而降低成本并提供水平可伸缩性。这个计算模型的下面是一个被称为Hadoop分布式文件系统(HDFS)的分布式文件系统。这个文件系统是“可插拔的”,而且现在已经出现了几个商用的和开源的替代方案。
不过,仍然存在一个挑战,那就是用户如何从一个现有的数据基础架构转移到I~adoop上,而这个基础架构是基于传统关系型数据库和结构化查询语句(SQL)的。对于大量的SQL用户(包括专业数据库设计师和管理员,也包括那些使用SQL从数据仓库中抽取信息的临时用户)来说,这个问题又将如何解决呢?
这就是Hive出现的原因。Hive提供了一个被称为Hive查询语言(简称HiveQL或HQL)的SQL方言,来查询存储在Hadoop集群中的数据。
SQL知识分布广泛的一个原因是:它是一个可以有效地、合理地且直观地组织和使用数据的模型。即使对于经验丰富的Java开发工程师来说,将这些常见的数据运算对应到底层的MapReduceJavaAPI也是令人畏缩的。Hive可以帮助用户来做这些苦活,这样用户就可以集中精力关注于查询本身了。Hlve可以将大多数的查询转换为
MapReduce任务(job),进而在介绍一个令人熟悉的SOL抽象的同时,拓宽Hadoop的可扩展性。如果用户对此存在疑惑,请参考稍后部分的第1.3节“Java和Hive:词频统计算法”中的相关介绍。
……
下载说明:
方法一:1、下载并解压,得出pdf文件
2、如果打不开本文件,别着急,这时候请务必在3322软件站选择一款阅读器下载哦
3、安装后,再打开解压得出的pdf文件
4、以上都完成后,接下来双击进行阅读就可以啦,朋友们开启你们的阅读之旅吧。
方法二:
1、可以在手机里下载3322软件站中的阅读器和百度网盘
2、接下来直接将pdf传输到百度网盘
3、用阅读器打开即可阅读
展开更多
hive编程指南pdf高清中文免费版下载地址
- 需先下载高速下载器:
- 专用下载:
- 其它下载: