课程介绍
  • 课程首页
  • 拼团活动
  • 专业套餐
  • 优惠活动
  • 我的课程
  • 站内消息
  • 站内提醒
  • 我的钱包
  • 奖学金
  • 道具 | 抵价券
  • 登录


突击pyspark:数据挖掘的力量倍增器(第..

11月10日

10周

0人

此课程所属【大数据攻城狮专业】, 【hadoop大数据工程师职业方向】专业,专业内有不少于15门推荐课程,目前平台推出【专业课程0元学】活动,只需0元即可在所有的专业课程中任选5门学习,超值优惠,助您快速成长!点击这里了解

讲师
dasheng
pyther,十年IT工作经验,曾就职阿里巴巴、雅虎,现为大数据独立顾问。
课程简介
当下是大数据时代,为构建大数据平台,技术人员需要对分布式计算平台有一定深入的理解和应用。Apache Spark 作为MapReduce的新一代继承者。 是对map reduce从性能,易用性和复杂分析优化的强大的开源数据处理引擎。Spark框架支持流式数据处理, 复杂迭代算法,比传统Hadoop MapReduce 程序快100倍。
Python语言时当下数据领域的瑞士军刀,但是作为一门脚本语言python先天只能在一台机器上发展,不适合分析大数据,因此需要其他大数据软件来处理,Spark虽然是由Scala编写,但也提供了Pyspark,让熟悉Python者能够轻易熟悉操作大数据。

本课程将为大家全面而又深入的介绍Spark1.x,2.x 、Hadoop、pyspark平台的构建流程,涉及Spark、Hadoop系统基础知识,概念及架构, pySpark、Hadoop的实战技巧,Spark、Hadoop经典案例等。

通过本课程实践,帮助学员对Spark、Hadoop生态系统有一个清晰明了的认识;理解Spark、Hadoop系统适用的场景;掌握pySpark、Hadoop等初中级应用开发技能,让你的python水平更上层楼。
课程章节
  • 第1课 spark介绍
    • 1-1 hadoop、spark集群环境搭建
    • 1-2 pyspark开发环境搭建
    • 1-3 spark 1.x和2.x的对比
  • 第2课 pySpark核心编程模型
    • 2-1 RDD
    • 2-2 transformation
    • 2-3 action
  • 第3课 pySpark核心编程实战
    • 3-1 lineage
    • 3-2 容错处理
    • 3-3 宽依赖与窄依赖
  • 第4课 Spark内核详解剖析
    • 4-1 Spark术语解释
    • 4-2 集群概览
    • 4-3 核心组件
    • 4-4 数据本地性
  • 第5课 spark任务调度详解
    • 5-1 RDD任务调度(DAGScheduler ,TaskScheduler)
    • 5-2 Task细节
    • 5-3 广播变量
    • 5-4 累加器
  • 第6课 spark工程经验和性能调优
  • 第7课 spark sql 详解
    • 7-1 DataFrame
    • 7-2 外部数据源API
    • 7-3 与Spark其他组件的交互
  • 第8课 spark sql编程实战
    • 8-1 Catalyst查询优化器
    • 8-2 Tungsten 优化
  • 第9课 spark streaming 开发
    • 9-1 Dstream
    • 9-2 数据源
    • 9-3 容错
  • 第10课 spark运维技能
学费

学费: ¥400 ( 固定学费: ¥100, 逆向学费: ¥300 )

新颖的课程收费形式:“逆向收费”约等于免费学习,仅收取100元固定收费+300元逆向学费,学习圆满则逆向学费全额返还给学员!




炼数成金移动版 v2.0