Spark:大数据集群计算的生产实践 - Softcover

新华书店北美网

 
9787121313646: Spark:大数据集群计算的生产实践

Synopsis

本书针对spark从验证性环境迁移到实际生产环境时会遇到的各种问题给出了实际的帮助,涵盖了开发及维护生产级Spark应用的各种方法、组件与有用实践。全书分为6章,第1~2章帮助读者深入理解Spark的内部机制以及它们在生产流程中的含义;第3章和第5章阐述了针对配置参数的法则和权衡方案,用来调优Spark,改善性能,获得高可用性和容错性;第4章专门讨论Spark应用中的安全问题;第6章则全面介绍生产流,以及把一个应用迁移到一个生产工作流中时所需要的各种组件,同时对Spark生态系统进行了梳理。本书涵盖了开发及维护生产级Spark应用的各种方法、组件与有用实践。作者均为大数据社区的知名专家,带着你一步步从概念验证或Spark应用的demo版迁移到生产环境,用真实案例分析常见问题、限制、挑战和机会。调优Spark应用管理资源、组织存储、做好监控了解在生产环境中使用Spark时有哪些潜在的问题知晓Spark用在何处*能发挥作用预估集群的规模,搞清楚硬件需求通过内存管理、分区、shuffle等技术提升性能用Kerberos保证数据的安全解决Sparkstreaming在生产环境中的问题将Spark与Yarn、Mesos、Tachyon等集成第1章成功运行Sparkjob/1安装所需组件/2原生安装SparkStandalone集群/3分布式计算的发展史/3步入云时代/5理解资源管理/6使用各种类型的存储格式/9文本文件/11Sequence文件/13Avro文件/13Parquet文件/13监控和度量的意义/14SparkUI/14SparkStandaloneUI/17MetricsRESTAPI/17MetricsSystem/18外部监控工具/18总结/19第2章集群管理/21背景知识/23Spark组件/26Driver/27workers与executors/28配置/30SparkStandalone/33架构/34单节点设置场景/34多节点设置/36YARN/36架构/38动态资源分配/41场景/43Mesos/45安装/46架构/47动态资源分配/49基本安装场景/50比较/52总结/56第3章性能调优/59Spark执行模型/60分区/62控制并行度/62分区器/64shuffle数据/65shuffle与数据分区/67算子与shuffle/70shuffle并不总是坏事/75序列化/75Kryo注册器/77Spark缓存/77SparkSQL缓存/81内存管理/82垃圾回收/83共享变量/84广播变量/85累加器/87数据局部性/90总结/91第4章安全/93架构/94SecurityManager/94设定配置/95ACL/97配置/97提交job/98WebUI/99网络安全/107加密/108事件日志/113Kerberos/114ApacheSentry./114总结/115第5章容错或job执行/117Sparkjob的生命周期/118Sparkmaster/119Sparkdriver/122Sp

"synopsis" may belong to another edition of this title.