大数据Flink实时大数据平台课

一、课程背景

课程名称:基于Flink的湖仓一体化解决方案项目

培训周期:96课时

课程背景:

解决方案依托于市面上非常广泛的新零售业务作为背景,采用近年来出现的湖仓一体架构,解决了数据湖与数据仓库体系的割裂,在架构上把数据湖的灵活性、数据丰富性与数据仓库的企业级战略/战术分析支持能力进行融合,逐步演进成为集多源异构数据统一储存、多模型计算分析及统一数据治理的大数据综合解决方案;

基于数据湖的数据存储管理能力,以及同时支持上层计算引擎批和流的计算能力,帮助企业构建流批一体的数仓平台。

课程收获:

1.了解新零售行业背景;

2.了解顺丰优选大数据平台的项目背景;

3.掌握Lambda架构和Kappa架构优缺点;

4.掌握顺丰优选大数据项目技术架构;

5.掌握湖仓一体、流批一体的实现方式;

6.掌握数仓设计思路和方法;

7.熟悉顺丰优选的业务场景及需求;

8.掌握基于Flink SQL的实时数仓开发。

二、项目介绍

项目概述:

随着生鲜新零售行业的迅速发展,平台累计了大量数据。为了从已有的数据中挖掘出有价值的信息,黑马优选搭建了大数据处理平台。主要对各业务线的数据进行分析,从而便于精细化管理,最终提高用户数量及活跃度,提高商品销量,降低运营成本。

项目成果:

考虑到部分业务不需要实时,所以有单独的离线任务,但这些离线任务和实时任务共用同一套数据源(ODS层),并且共用同一套维度表。离线调度使用DolphinScheduler,实时调度使用Dlinky。

主要组件如下:

1.数据源:Mysql业务数据库

2.数据采集:使用Flink CDC + Flume

3.数据存储:使用Kafka/Hudi/Hive存储中间数据,使用Doris存储结果数据

4.数据计算:使用Flink DataStream/Flink SQL进行数据处理

5.数据分析:使用Doris灵活用于自定义数据分析

6.大数据平台应用:

(1)实时可视化:可以使用DataV,Sugar,FineBI等

(2)离线可视化:可以使用Metabase,Superset等

项目亮点:

1.以新零售为背景,更容易理解业务;

2.以真实项目做为模型打造,生动还原企业真实情况;

3.以时下最流行的流批一体、湖仓一体作为技术架构,技术先进;

4.数仓覆盖销售、会员、供应链、商城日志,主题多样,指标丰富;

5.从0到1进行数仓规划和搭建,极大提高实战能力;

6.充分发挥Flink CDC/Flink SQL/Flink DataStream进行编程,兼顾易用性和高效性;

7.以时下流行的Doris作为结果查询、报表展示和Ad-hoc组件,一件多用,简单高效;

8.实战应用Hudi,深入了解数据湖组件。

三、适合人群

1. 需要具备大数据Flink基础;

2. 具备SQL语言基础。

四、培训目标

1.了解新零售行业背景;

2.掌握Lambda架构和Kappa架构优缺点;

3.掌握流批一体、湖仓一体大数据项目技术架构;

4.掌握 Flink CDC 的应用场景及使用;

5.掌握 Flink 读写 Hive 操作;

6.掌握公共域、销售域的的需求及开发过程;

7.熟悉会员域、供应链域的需求及开发过程;

8.熟悉 Dinky、DolphinScheduler 的使用。

五、参考预习资料

获取方式:请扫描下方二维码,回复【大数据】即可获取完整预习资料。

六、准备环境介绍

硬件:

硬件环境要求

1.PC机器CPU:8G Hz以上

2.PC机器内存:8GB以上

3、录音设备与扬声设备

软件:

软件环境要求:微信开发者工具最新版

七、课程日程安排

7月25日

项目整体介绍

1.了解新零售行业背景
2.了解黑马优选大数据平台的项目背景
3.掌握Lambda架构和Kappa架构优缺点
4.掌握黑马优选大数据项目技术架构
5.了解黑马优选大数据项目平台实施细节

7月26日

FlinkCDC

1.了解 CDC 的原理
2.了解常见的开源 CDC 方案
3.了解 Flink CDC 的原理
4.掌握 Flink CDC 的功能特性和核心特性
5.了解 Flink CDC 支持的数据源与对应的 Flink 的版本
6.掌握 Flink CDC 的应用场景
7.熟练使用虚拟机完成案例练习

7月27日

Flink集成Hive

1.掌握 Flink 集成 Hive基本方式、操作步骤、案例练习
2.熟悉 Hive Catalog与Hive Dialect 原理与使用
3.掌握 Flink 读写 Hive 操作
4.掌握 Hive 维表 Join

7月28日

Hudi

1.了解数据湖概念
2.了解hudi的基本介绍
3.熟悉hudi的简单使用
4.理解hudi的核心概念
5.熟练Flink写入数据到Hudi的四种方式
6.掌握Hudi on Hive的使用

7月30日

Doris

1.了解Doris组件核心特点以及应用场景
2.理解Doris组件原理、整体架构及数据分发
3.熟悉Doris基本使用方法
4.掌握Doris三种数据模型的使用
5.了解Doris 的数据导入和导出方式
6.理解Doris Rollup以及物化视图
7.掌握Doris join方式和join 优化
8.理解Doris 动态分区
9.熟悉FlinkCDC to Doris 案例

7月31日

业务开发(公共域)

1.掌握湖仓一体、流批一体的实现方式
2.掌握数仓设计思路和方法
3.掌握基于 Flink SQL 的实时数仓开发

8月1日

业务开发 (销售域)

掌握销售域(核销主题)的的需求及开发过程

8月2日

业务开发 (销售域)

1.掌握销售域(售卖主题)的的需求及开发过程
2.熟悉会员域、供应链域的需求及开发过程
3.掌握 Flink CDC 的使用
4.熟悉 Dinky、DolphinScheduler 的使用

8月4日

日志开发

1.熟悉日志的产生、格式、内容
2.掌握日志收集的方法
3.掌握基于Flink DataStream的实时数仓开发流程
4.掌握常见的日志需求及开发思路

8月5日

日志开发

1.掌握ProcessFunction/FlatMapFunction使用
2.掌握侧输出流的处理
3.掌握Kafka、Doris、Mysql的读写
4.掌握状态编程、掌握TTL设置

8月6日

日志开发

1.掌握各种窗口函数使用
2.掌握Flink SQL的使用
3.熟悉Flink CEP的使用
4.熟悉UDTF函数的使用

8月7日

可视化

1.了解FineReport的安装
2.掌握FineReport报表开发
3.掌握FineReport大屏开发