spark大数据处理技术-夏俊鸾,黄洁,程浩等著pdf 高清完整版
分享到:
spark大数据处理技术是一本全面介绍Spark及Spark生态圈相关技术的书籍,是国内首本深入介绍Spark原理和架构的技术书籍。随着计算机的告诉发展,不断增加的数据量要求越来越多的应用程序能够扩展到更大的群集里去计算。小编分享的这本spark大数据处理技术总共12章,主要内容有Spark基础功能介绍及内部重要模块分析,包括部署模式、调度框架、存储管理以及应用监控;同时也详细介绍了Spark生态圈中其他的软件和模块,包括SQL处理引擎Shark和Spark.SQL、流式处理引擎Spark.Streaming、图计算框架Graphx以及分布式内存文件系统Tachyon。Spark大数据处理技术从概念和原理上对Spark核心框架和生态圈做了详细的解读,并对Spark的应用现状和未来发展做了一定的介绍,旨在为大数据从业人员和Spark爱好者提供一个更深入学习的平台。Spark大数据处理技术适合任何大数据、Spark领域的从业人员阅读,同时也为架构师、软件开发工程师和大数据爱好者展现了一个现代大数据框架的架构原理和实现细节。相信通过学习Spark大数据处理技术,读者能够熟悉和掌握Spark这一当前流行的大数据框架,并将其投入到生产实践中去。有需要的朋友们欢迎免费下载并阅读。
2009年的时候,Netflix公司举办了一个叫作Netflix.Prize的推荐算法比赛。这个比赛匿名公布了Netflix五十万用户对近两万部电影的一亿个评分数据,希望参赛者能够开发出更好的推荐算法,以提高推荐系统的质量。这个比赛的奖金有一百万美元。一百万美元看似很多,但是和一个更好的推荐算法给Netflix带来的效益相比,实则九牛一毛。
高昂的奖金和Netflix提供的真实数据吸引了不少的参赛者,其中也包括了来自加州大学伯克利分校(UC.Berkeley)的博士生Lester.Mackey。Lester师从机器学习领域泰斗Michael.Jordan,在一个叫作AMPLab的大数据实验室里进行博士研究。AMPLab和大多数学术界实验室不同的地方在于实验室内有多个教授和他们带领的学生一起合作。这些研究人员来自不同的领域,包括机器学习、数据库、计算机网络、分布式系统等。当时,要想提高算法研究迭代的效率,需要利用多台机器的分布式建模。在尝试了当时业界最流行的Hadoop.MapReduce后,Lester发现自己的时间并不是花在提高算法效率上,而是耗费在MapReduce的编程模型和低效的执行模式上。这个时候,他向实验室内部的另外一名进行分布式系统研究的学生Matei Zaharia求助。
当时年纪轻轻的Matei在业界已经小有名望。他在雅虎和Facebook实习期间做了很多Hadoop早期的奠基工作,包括现今Hadoop系统内应用最广的fair.scheduler调度算法。在和Lester的思维碰撞中,Matei总结了Hadoop.MR的不足,开始设计了第一个版本的Spark。这个版本完全为了Lester定制,只有几百行的代码,使得Lester可以高效率地进行分布式机器学习建模。
Lester所在的The.Ensemble团队最后和BellKor's.Pragmatic.Chaos设计了在效率上并列第一的算法,可惜因为晚了20分钟提交,与一百万美元奖金失之交臂。5年之后,Lester和Matei都变成了学术界和业界杰出的人物。Lester成为了斯坦福大学计算机系的教授,带领着自己的学生攻克一个又一个机器学习和统计的难题。Matei成为了麻省理工计算机系的教授,也是Databricks公司的CTO。
2009年之后的4年里面,AMPLab以Spark为基础展开了很多不同的学术研究项目,其中包括了我参与和主导的Shark和GraphX,还有Spark.Streaming、MLlib等。4年里随着Hadoop的发展,Spark也逐渐从一个纯学术研究项目发展到了开始有业界敢于吃螃蟹的用户。
2013年,包括Matei和我在内的Spark核心人员共同创立了Databricks公司,立志于提高Spark的发展速度。过去两年,Spark的发展超越了我们所有人的想象。一年半以前Spark还是一个连监控界面都不存在的系统,很难放进生产线部署。而一年半后的今天,它已经变成了整个大数据生态圈和Apache Software Foundation内最活跃的项目,活跃程度远远超出了曾经Spark只能望其项背的Hadoop。
在从Hadoop转向Spark的道路上,我个人感觉国内的速度甚至超越了国外的社区。一年以前我第一次在中国的大数据会议上宣讲Spark,当时台下的大多数人对这个新的项目还有很大的质疑,认为其只会昙花一现。一年之后,Spark的每个新版本中都有不少华人贡献的代码,国内很多高科技和互联网公司也都有了Spark的生产作业,不少用户直接减少了在Hadoop MapReduce上的投资,把新的项目都转移到了Spark上。
今天正好是Databricks公司成立一年半,也是Spark1.2版本第一个release.candidate发布的日期。Spark的高速发展导致了中文信息的脱节。这本书深入浅出地介绍了Spark和Spark上多个重要计算框架,希望它的问世可以更好地在大中华地区普及Spark,增进华人Spark社区的发展。
辛湜 Reynold Xin
2014年11月30号
Berkeley, CA
刘旭晖,现任蘑菇街数据平台资深架构师(花名天火),曾就职于英特尔亚太研发中心大数据软件部,Spark/Hadoop/Hbase/Phoenix 等众多大数据相关开源项目的积极贡献者。乐于分享,著有CSDN博客 blog.csdn.net/colorant。
邵赛赛,英特尔亚太研发有限公司开发工程师,专注于大数据领域,开源爱好者,现从事Spark相关工作,Spark代码贡献者。
程浩,英特尔大数据技术团队软件工程师,Shark和Spark SQL活跃开发者,致力于SQL on Big Data的性能调优与优化。
史鸣飞,英特尔亚太研发有限公司大数据软件部工程师,专注于大数据领域,主要从事Spark及相关项目的开发及应用,Spark及Shark代码贡献者,现在主要投身于Tachyon项目的开发。
黄洁,目前就职于英特尔亚太研发中心大数据技术中心,担任高级软件工程师,致力于大数据技术的性能优化及开发工作,涉及Hadoop、Spark、HBase等开源项目。在多年的工作过程中,积累了一定的分布式大数据框架性能调优经验,并且是Apache Chukwa项目的PMC成员和Committer。在此之前,毕业于上海交通大学并获硕士及学士学位。
——Databricks大数据公司联合创始人 Apache Spark PMC Member 辛湜
★Apache.Spark对一体化大数据流水线的搭建进行了前所未有的简化。然而,在大数据领域固有的复杂性面前,要交付高效稳定的数据产品,开发者仍有必要对框架细节有充分的了解。本书详细介绍了Spark主体框架中为关键的执行流程,相信可以为读者在基于Spark的大数据系统设计和调优方面提供有效的指导。
——Databricks工程师 连城
禁用于商业用途!如果您喜欢《spark大数据处理技术》,请购买正版,谢谢合作。
爱学习,请到3322软件站查找资源自行下载!
1.1 大数据处理框架
1.2 Spark大数据处理框架
1.2.1 RDD表达能力
1.2.2 Spark子系统
1.3 小结
第2章 SparkRDD及编程接口
2.1 Spark程序“HelloWorld”
2.2 SparkRDD
2.2.1 RDD分区(partitions)
2.2.2 RDD优先位置(preferredLocations)
2.2.3 RDD依赖关系(dependencies)
2.2.4 RDD分区计算(compute)
2.2.5 RDD分区函数(partitioner)
2.3 创建操作
2.3.1 集合创建操作
2.3.2 存储创建操作
2.4 转换操作
2.4.1 RDD基本转换操作
2.4.2 键值RDD转换操作
2.4.3 再论RDD依赖关系
2.5 控制操作(controloperation)
2.6 行动操作(actionoperation)
2.6.1 集合标量行动操作
2.6.2 存储行动操作
2.7 小结
第3章 Spark运行模式及原理
3.1 Spark运行模式概述
3.1.1 Spark运行模式列表
3.1.2 Spark基本工作流程
3.1.3 相关基本类
3.2 Local模式
3.2.1 部署及程序运行
3.2.2 内部实现原理
3.3 Standalone模式
3.3.1 部署及程序运行
3.3.2 内部实现原理
3.4 Localcluster模式
3.4.1 部署及程序运行
……
第4章 Spark调度管理原理
第5章 Spark的存储管理
第6章 Spark监控管理
第7章 Spark架构与安装配置
第8章 SQL程序扩展
第9章 SparkSQL
第10章 SparkStreaming流数据处理框架
第11章 GraphX计算框架
第12章 Tachyon存储系统
1、下载并解压,得出pdf文件
2、如果打不开本文件,别着急,这时候请务必在3322软件站选择一款阅读器下载哦
3、安装后,再打开解压得出的pdf文件
4、以上都完成后,接下来双击进行阅读就可以啦,朋友们开启你们的阅读之旅吧。
方法二:
1、可以在手机里下载3322软件站中的阅读器和百度网盘
2、接下来直接将pdf传输到百度网盘
3、用阅读器打开即可阅读
前言/序言:
序2009年的时候,Netflix公司举办了一个叫作Netflix.Prize的推荐算法比赛。这个比赛匿名公布了Netflix五十万用户对近两万部电影的一亿个评分数据,希望参赛者能够开发出更好的推荐算法,以提高推荐系统的质量。这个比赛的奖金有一百万美元。一百万美元看似很多,但是和一个更好的推荐算法给Netflix带来的效益相比,实则九牛一毛。
高昂的奖金和Netflix提供的真实数据吸引了不少的参赛者,其中也包括了来自加州大学伯克利分校(UC.Berkeley)的博士生Lester.Mackey。Lester师从机器学习领域泰斗Michael.Jordan,在一个叫作AMPLab的大数据实验室里进行博士研究。AMPLab和大多数学术界实验室不同的地方在于实验室内有多个教授和他们带领的学生一起合作。这些研究人员来自不同的领域,包括机器学习、数据库、计算机网络、分布式系统等。当时,要想提高算法研究迭代的效率,需要利用多台机器的分布式建模。在尝试了当时业界最流行的Hadoop.MapReduce后,Lester发现自己的时间并不是花在提高算法效率上,而是耗费在MapReduce的编程模型和低效的执行模式上。这个时候,他向实验室内部的另外一名进行分布式系统研究的学生Matei Zaharia求助。
当时年纪轻轻的Matei在业界已经小有名望。他在雅虎和Facebook实习期间做了很多Hadoop早期的奠基工作,包括现今Hadoop系统内应用最广的fair.scheduler调度算法。在和Lester的思维碰撞中,Matei总结了Hadoop.MR的不足,开始设计了第一个版本的Spark。这个版本完全为了Lester定制,只有几百行的代码,使得Lester可以高效率地进行分布式机器学习建模。
Lester所在的The.Ensemble团队最后和BellKor's.Pragmatic.Chaos设计了在效率上并列第一的算法,可惜因为晚了20分钟提交,与一百万美元奖金失之交臂。5年之后,Lester和Matei都变成了学术界和业界杰出的人物。Lester成为了斯坦福大学计算机系的教授,带领着自己的学生攻克一个又一个机器学习和统计的难题。Matei成为了麻省理工计算机系的教授,也是Databricks公司的CTO。
2009年之后的4年里面,AMPLab以Spark为基础展开了很多不同的学术研究项目,其中包括了我参与和主导的Shark和GraphX,还有Spark.Streaming、MLlib等。4年里随着Hadoop的发展,Spark也逐渐从一个纯学术研究项目发展到了开始有业界敢于吃螃蟹的用户。
2013年,包括Matei和我在内的Spark核心人员共同创立了Databricks公司,立志于提高Spark的发展速度。过去两年,Spark的发展超越了我们所有人的想象。一年半以前Spark还是一个连监控界面都不存在的系统,很难放进生产线部署。而一年半后的今天,它已经变成了整个大数据生态圈和Apache Software Foundation内最活跃的项目,活跃程度远远超出了曾经Spark只能望其项背的Hadoop。
在从Hadoop转向Spark的道路上,我个人感觉国内的速度甚至超越了国外的社区。一年以前我第一次在中国的大数据会议上宣讲Spark,当时台下的大多数人对这个新的项目还有很大的质疑,认为其只会昙花一现。一年之后,Spark的每个新版本中都有不少华人贡献的代码,国内很多高科技和互联网公司也都有了Spark的生产作业,不少用户直接减少了在Hadoop MapReduce上的投资,把新的项目都转移到了Spark上。
今天正好是Databricks公司成立一年半,也是Spark1.2版本第一个release.candidate发布的日期。Spark的高速发展导致了中文信息的脱节。这本书深入浅出地介绍了Spark和Spark上多个重要计算框架,希望它的问世可以更好地在大中华地区普及Spark,增进华人Spark社区的发展。
辛湜 Reynold Xin
2014年11月30号
Berkeley, CA
作者介绍:
夏俊鸾,现任阿里巴巴数据平台部高级技术专家,Apache Spark项目Committer,曾就职于英特尔亚太研发中心,微博账号@Andrew-Xia。刘旭晖,现任蘑菇街数据平台资深架构师(花名天火),曾就职于英特尔亚太研发中心大数据软件部,Spark/Hadoop/Hbase/Phoenix 等众多大数据相关开源项目的积极贡献者。乐于分享,著有CSDN博客 blog.csdn.net/colorant。
邵赛赛,英特尔亚太研发有限公司开发工程师,专注于大数据领域,开源爱好者,现从事Spark相关工作,Spark代码贡献者。
程浩,英特尔大数据技术团队软件工程师,Shark和Spark SQL活跃开发者,致力于SQL on Big Data的性能调优与优化。
史鸣飞,英特尔亚太研发有限公司大数据软件部工程师,专注于大数据领域,主要从事Spark及相关项目的开发及应用,Spark及Shark代码贡献者,现在主要投身于Tachyon项目的开发。
黄洁,目前就职于英特尔亚太研发中心大数据技术中心,担任高级软件工程师,致力于大数据技术的性能优化及开发工作,涉及Hadoop、Spark、HBase等开源项目。在多年的工作过程中,积累了一定的分布式大数据框架性能调优经验,并且是Apache Chukwa项目的PMC成员和Committer。在此之前,毕业于上海交通大学并获硕士及学士学位。
精彩书评:
★Spark的高速发展导致了中文信息的脱节。这本书深入浅出地介绍了Spark和Spark上多个重要计算框架,希望它的问世可以更好地在大中华地区普及Spark,增进华人Spark社区的发展。——Databricks大数据公司联合创始人 Apache Spark PMC Member 辛湜
★Apache.Spark对一体化大数据流水线的搭建进行了前所未有的简化。然而,在大数据领域固有的复杂性面前,要交付高效稳定的数据产品,开发者仍有必要对框架细节有充分的了解。本书详细介绍了Spark主体框架中为关键的执行流程,相信可以为读者在基于Spark的大数据系统设计和调优方面提供有效的指导。
——Databricks工程师 连城
免责声明:
来源于网络,仅用于分享知识,学习和交流!请下载完在24小时内删除。禁用于商业用途!如果您喜欢《spark大数据处理技术》,请购买正版,谢谢合作。
爱学习,请到3322软件站查找资源自行下载!
spark大数据处理技术目录:
第1章 Spark系统概述1.1 大数据处理框架
1.2 Spark大数据处理框架
1.2.1 RDD表达能力
1.2.2 Spark子系统
1.3 小结
第2章 SparkRDD及编程接口
2.1 Spark程序“HelloWorld”
2.2 SparkRDD
2.2.1 RDD分区(partitions)
2.2.2 RDD优先位置(preferredLocations)
2.2.3 RDD依赖关系(dependencies)
2.2.4 RDD分区计算(compute)
2.2.5 RDD分区函数(partitioner)
2.3 创建操作
2.3.1 集合创建操作
2.3.2 存储创建操作
2.4 转换操作
2.4.1 RDD基本转换操作
2.4.2 键值RDD转换操作
2.4.3 再论RDD依赖关系
2.5 控制操作(controloperation)
2.6 行动操作(actionoperation)
2.6.1 集合标量行动操作
2.6.2 存储行动操作
2.7 小结
第3章 Spark运行模式及原理
3.1 Spark运行模式概述
3.1.1 Spark运行模式列表
3.1.2 Spark基本工作流程
3.1.3 相关基本类
3.2 Local模式
3.2.1 部署及程序运行
3.2.2 内部实现原理
3.3 Standalone模式
3.3.1 部署及程序运行
3.3.2 内部实现原理
3.4 Localcluster模式
3.4.1 部署及程序运行
……
第4章 Spark调度管理原理
第5章 Spark的存储管理
第6章 Spark监控管理
第7章 Spark架构与安装配置
第8章 SQL程序扩展
第9章 SparkSQL
第10章 SparkStreaming流数据处理框架
第11章 GraphX计算框架
第12章 Tachyon存储系统
下载说明:
方法一:1、下载并解压,得出pdf文件
2、如果打不开本文件,别着急,这时候请务必在3322软件站选择一款阅读器下载哦
3、安装后,再打开解压得出的pdf文件
4、以上都完成后,接下来双击进行阅读就可以啦,朋友们开启你们的阅读之旅吧。
方法二:
1、可以在手机里下载3322软件站中的阅读器和百度网盘
2、接下来直接将pdf传输到百度网盘
3、用阅读器打开即可阅读
展开更多
spark大数据处理技术-夏俊鸾,黄洁,程浩等著pdf 高清完整版下载地址
- 需先下载高速下载器:
- 专用下载:
- 其它下载: