
会员
Spark 3.x大数据分析实战(视频教学版)
更新时间:2023-07-17 19:33:04 最新章节:9.6 动手练习
书籍简介
本书基于Spark3.2.x版本,从Spark核心编程语言Scala讲起,涵盖了当前整个Spark生态系统主流的大数据开发技术。全书共9章,第1章讲解了Scala语言的基础知识,包括IDEA工具的使用等;第2章讲解了Spark的主要组件、集群架构原理、集群环境搭建以及Spark应用程序的提交和运行;第3~9章讲解了离线计算框架SparkRDD、SparkSQL和实时计算框架Kafka、SparkStreaming、StructuredStreaming以及图计算框架GraphX等的基础知识、架构原理,同时包括常用Shell命令、API操作、内核源码剖析,并通过多个实际案例讲解各个框架的具体应用以及与Hadoop生态系统框架Hive、HBase、Kafka的整合操作。本书通俗易懂,案例丰富,注重实操,适合Spark新手和大数据开发人员阅读,也可作为培训机构和高校大数据及相关专业的教学用书。
品牌:清华大学
上架时间:2022-09-01 00:00:00
出版社:清华大学出版社
本书数字版权由清华大学提供,并由其授权上海阅文信息技术有限公司制作发行
最新章节
最新上架
- 会员本书是一本介绍分布式数据库基础内容与应用的大数据专业类图书,力求培养读者对分布式数据库的应用技能。本书共11章,采用原理+代码实例+综合案例的编写形式,清晰明了地介绍分布式数据库的原理、基础应用、进阶应用及主流工具的使用方法、应用场景,以理实结合为编写要求,让读者能够轻松学习和掌握分布式数据库的内容。本书可以作为高等院校计算机、网络技术等相关专业的教材,也可以作为数据库相关工作的从业人员的参考用书计算机14万字
- 会员本书围绕数据挖掘竞赛,讲解了各种类型数据挖掘竞赛的解题思路、方法和技巧,并辅以对应的实战案例。全书共11章。第1章介绍数据挖掘竞赛的背景、意义和现状。从第2章开始,介绍了各种不同类型的数据挖掘竞赛包括结构化数据、自然语言处理、计算机视觉(图像)、计算机视觉(视频)、强化学习。每种类型的数据挖掘竞赛包含理论篇和实战篇:理论篇介绍通用的解题流程和关键技术;实战篇选取比较有代表性的赛题,对赛题的优秀方案计算机6.7万字
- 会员本书以Python作为开发语言,系统介绍PySpark开发环境搭建流程及基于PySpark进行大数据分析的相关知识。本书条理清晰、重点突出,理论叙述循序渐进、由浅入深。本书共7章,第1?5章包括PySpark大数据分析概述、PySpark安装配置、基于PySpark的DataFrame操作、基于PySpark的流式数据处理、基于PySpark的机器学习库,内容介绍注重理论与实践相结合,通过典型示例计算机10.4万字
- 会员本书以Python数据分析与挖掘的常用技术与真实案例相结合的方式,深入浅出地介绍Python数据分析与挖掘的重要内容。本书共11章,分为基础篇(第1~5章)和实战篇(第6~11章),基础篇包括数据挖掘基础、Python数据挖掘编程基础、数据探索、数据预处理、数据挖掘算法基础等基础知识;实战篇包括6个案例,分别为信用卡高风险客户识别、餐饮企业菜品关联分析、金融服务机构资金流量预测、O2O优惠券使用预计算机13.6万字
- 会员本书共3篇:第1篇主要介绍分布式数据库基础理论,包括经典的CAP理论、一致性算法相关的理论、并发控制相关的理论等;第2篇具体介绍Greenplum数据库,从分布式事务、分布式计算和分布式存储3个方面,深入代码层级,讲述分布式理论在工业上的实现;第3篇是总结和展望,介绍云原生数据库和新技术带给Greenplum和数据库管理系统的机遇和挑战。本书打破以理论介绍和架构介绍为主的思路,深入分析工业化的实现计算机7.1万字
- 会员《企业级大数据项目实战:用户搜索行为分析系统从0到1》基于真实业务场景,以项目导向为主线,从0到1全面介绍企业级大数据用户搜索行为分析系统的搭建过程。全书共6章,第1章讲解项目需求与架构设计,详细阐述项目数据流与系统架构;第2章介绍大数据项目开发环境配置,手把手带领读者配置操作系统、Hadoop集群与相关工具,为后续项目实施打下基础;第3~5章逐步实现项目需求,第3章讲解用户行为数据采集模块的开发计算机9万字
- 会员《数据分析实践:专业知识和职场技巧》从初学者的角度出发,讲解了进阶为高级数据分析师所需的知识和技能,其中既包括数据分析岗位的介绍、发展现状及未来趋势,也包括实际工作中各环节的方法策略、实战案例,还包括职场中的困惑解答及面试指导。阅读本书,并基于本书进一步拓展所需要的知识能,可以帮助读者形成一套成系统、可实战的数据分析方法论。计算机19.6万字
- 会员《数据分析师手记:数据分析72个核心问题精解》从底层认知、思维方法、工具技术、项目落地及展望出发,使用问答的形式对数据分析中的72个核心知识点进行讲解,构建了数据分析的知识框架,带领读者认识数据分析背后的奥妙。读者可以用本书作为学习地图,针对具体的方法、技术进行延伸学习。计算机16.8万字
同类书籍最近更新
- 会员本书主要从理论和实践两个部分对大数据治理与安全技术展开详尽描述。其中理论篇主要从大数据治理的概念、作用、重要性,以及大数据治理的原则、范围及评估内容做出了详细介绍;之后从大数据安全、隐私和审计三个方面,探讨了大数据安全所面临的挑战,以及解决这些问题的技术与方案、作用与意义。开源实践篇分别从Apache的四个开源组件Falcon、Atlas、Ranger和Sentry以及Kerberos软件框架与工数据库20.5万字
- 会员这是一本能帮助读者快速掌握图数据库的原理、架构、算法、扩展、规划、测评、优化以及实战应用的著作,书中的理论和实践均来自国内领先的图数据库企业Ultipa的科研成果和实践经验,由Ultipa的创始人兼CTO孙宇熙领衔撰写。该书内容全面、体系完整、循序渐进、深入浅出、图文并茂,兼具理论性、实战性、趣味性。用通俗的语言将抽象的图数据库技术具体化、形象化,将带领读者经历一次非凡的“图数据之旅”。通过本书,数据库17.2万字
- 会员这是一本从功能模块、技术实现、平台构建、业务应用4个层次由浅入深地讲解用户画像的著作。作者在某头部互联网公司经历了其用户画像平台从0到1并发展为画像中台的全过程,打下了扎实的技术功底,积累了丰富的业务经验,本书从技术和业务双重维度对整个过程进行了复盘。具体来讲,本书主要包含如下内容:画像的作用、业界主流的4种商用画像平台的核心功能和实现逻辑;画像平台的主要功能、画像平台的技术架构与技术选型、画像平数据库16.4万字
- 会员《高性能MySQL》一直是MySQL领域的经典之作,影响了一代又一代的DBA和技术人员,从第3版出版到第4版出版过去了近十年,MySQL也从5.5版本更新到了8.0版本。第4版中增加了大量对MySQL5.7和8.0版本新特性的介绍,删除了一些在新版本中已经废弃或者不再常用的功能,还增加了对云数据库的介绍,减少了在官方文档中已有的基础使用和配置相关的内容。这些年,MySQL经过在大量大规模互联网场景数据库21.3万字