大数据处理系统:Hadoop源代码情景分析 - Softcover

毛德操

 
9787308166690: 大数据处理系统:Hadoop源代码情景分析

Synopsis

Hadoop是目前重要的一种开源的大数据处理平台,读懂Hadoop的源代码,深入理解其各种机理,对于掌握大数据处理的技术有着显而易见的重要性。本书从大数据处理的原理开始,讲到Hadoop的由来,进而讲述对于代码的研究方法,然后以Hadoop作为样本,较为详尽地逐一分析大数据处理平台各核心组成部分的代码,并从宏观上讲述这些部分的联系和作用。本书沿用作者独特而广受欢迎的情景分析方法和风格,深入浅出直白易懂,可以作为大数据系统高级课程的教材,也可用作计算机软件专业和其他相关专业大学本科高年级学生和研究生深入学习大数据系统的参考书。同时,还可以作为各行业从事软件开发和数据挖掘的工程师、研究人员以及其他对大数据处理技术感兴趣者的自学教材。这本书并不是为所有想要对大数据有所了解的人而写的。但是,如果你有点野心,想对大数据处理系统有比较深入、透彻的了解,特别是想有朝一日自己也设计一个这样的系统,甚至自己把它写出来,那么你真应该认真读一下这本书,看看人家Hadoop是怎么设计怎么实现的。然后,在最后一章,你可以再看看Spark又是什么样的,有些什么改进。你将看到,在一个计算机集群上构筑一个大数据处理系统,哪些成分是必不可少的,哪些方面又是可以改进的,它与操作系统的关系怎样,而作为大规模计算机集群的“操作系统”又可以并应该是什么样的。第1章大数据与Hadoop1.1什么是大数据1.2大数据的用途1.3并行计算1.4数据流1.5函数式程序设计与Lambda演算1.6MapReduce1.7大数据处理平台1.8Hadoop的由来和发展1.9Hadoop的MapReduce计算框架1.10Hadoop的分布式容错文件系统HDFS第2章研究方法2.1摘要卡片2.2情景分析2.3面向对象的程序设计2.4怎样阅读分析Hadoop的代码第3章Hadoop集群和YARN3.1Hadoop集群3.2Hadoop系统的结构3.3Hadoop的YARN框架3.4状态机3.5资源管理器ResourceManager3.6资源调度器ResourceScheduler第4章Hadoop的RPC机制4.1RPC与RMI4.2ProtoBuf4.3Java的Reflection机制4.4RM节点上的RPC服务4.5RPC客户端的创建第5章Hadoop作业的提交5.1从“地方”到“中央”5.2示例一:采用老API的ValueAggregatorJob5.3示例二:采用新API的WordCount5.4示例三:采用ToolRunner的QuasiMonteCarlo5.5从Job.submit()开始的第二段流程5.6YARNRunner和ResourceMgrDelegate第6章作业的调度与指派6.1作业的受理6.2NM节点的心跳和容器周转6.3容器的分配第7章NodeManager与任务投运7.1AMLauncher与任务投运7.2MRAppMaster或AM的创建7.3资源本地化7.4容器的投运第8章MRAppMaster与作业投运8.1MRAppMaster8.2App资源与容器8.3容器的跨节点投送和启动8.4目标节点上的容器投运8.5Uber模式下的本地容

"synopsis" may belong to another edition of this title.