内容简介
本书以时下最为流行的Hadoop所存在的缺陷为出发点,深入浅出地介绍了下一代大数据处理核心技术Spark的优势和必要性,并以最简洁的指引步骤展示了如何在10分钟内建立一个Spark大数据处理环境。在此基础上,以图文并茂和丰富的示例代码讲解的形式系统性地揭示了Spark的运行原理、算子使用、算法设计和优化手段,为读者提供了一本快速由浅入深掌握Spark基础能力和高级技巧的参考书籍。
本书共6章,涉及的主题主要包括大数据处理技术从Hadoop发展到Spark的必然性、快速体验Spark的指引、Spark架构和原理、RDD算子使用方法和示例、Spark算法设计实例、Spark程序优化方法。
本书适合需要使用Spark进行大数据处理的程序员、架构师和产品经理作为技术参考和培训资料,亦可作为高校研究生和本科生教材。
作者简介
刘军, 男,1976年生人,博士,副教授,硕士生导师,北京邮电大学数据科学中心主任。2003年至2007年任职于IBM中国研究院,担任高级研究员及部门经理,建立IBM中国研究院电信融合网络管理研究方向,主持研发Websphere及Tivoli电信产品线中多项关键技术,期间发表多篇国际会议及刊物论文,并申请获得多项美国专利。2007年至2012年创办欢城(北京)科技有限公司,开创中国无端网络游戏产业,并担任中国软件协会网页游戏专业委员会委员。公司产品多次荣获国内互联网业界奖项,2008年获中国互联网协会“运营价值Webgame”奖项。2012年至今在北京邮电大学信息与通信工程学院任教,研究方向为电信及互联网大数据分析、高速数据流挖掘算法,并牵头组建北京邮电大学数据科学中心。开设研究生课程“海量数据处理中的云计算”,发表大数据分析相关SCI/EI检索论文十余篇,并独著《Hadoop大数据处理》一书,该书被哈尔滨工业大学、中南大学等多所高校的相关课程作为教材使用。
林文辉,男,博士,高级工程师,航天信息股份有限公司研究院大数据技术总监。自2009年至今在航天信息研究院担任云平台事业部经理。承担过多个国家重大课题项目,包括国有资本金项目、科技部粮食信息化安全项目、国资委信息化建设等。主要研究方向:税务和公安行业大数据应用、云计算、云安全。