大数据课程培训方案

一、课程介绍

课程名称:富华保险大数据分析平台实训项目

课程周期:48课时

课程收获:

1.熟悉Hadoop生态圈,掌握大数据环境的搭建过程

2.掌握Hadoop+Spark+Hive的用法,能够运用SparkSQL进行数据仓库的一系列操作

3.熟练应用FineBI,DolphinScheduler等组件对数据仓库进行可视化,任务调度等操作

4.掌握保险行业精算流程

课程概述:

近几年随着保险行业的发展,为了满足不同场景下的保险业务需求,保险公司不断推出新的保险产品,对于保险的产品的定价精算业务不断增多,使用传统的工具来计算保费缺点日益显现,商业授权使用费用昂贵,计算资源不易弹性扩展。SparkSQL支持大数据的计算,灵活编程,支持所有场景,分布式处理速度比单机快,支持迭代计算,软件开源,集群资源易扩展费用划算。正是在此背景下,我们以富华保险为业务背景,开展此次富华保险大数据项目实训。

本项目为综合项目,包含Linux基础,SparkSQL技术,HDFS分布式文件系统,保险大数据业务分析,项目实战。通过本项目的学习,我们可以更好的体验数据仓库的搭建,分析,可视化以及任务调度等功能,从而对数仓有一个更新的认识。

课程亮点

1.基于HDFS实现出行大数据异构数据源存储。

2.使用Sqoop实现数据的导入导出。

3.使用SparkSQL数仓构建技术实现出行大数据数据分析。

4.使用FIneBI实现数据分析结果展示。

5.使用DolphinScheduler实现数仓的任务调度。

项目成果:

投保理赔差额分布图和投保区域分布


投保热力地图


城市投保理赔排名

二、课程适合人群

1.计算机、数据科学与大数据技术等相关专业老师。

2.正在从事或未来想从事数据仓库相关方向的老师。

3.在工作中会用到数据分析相关技能的老师。

三、预习资料

获取方式:请扫描下方二维码,回复【大数据】即可获取完整预习资料

四、准备环境介绍

硬件环境要求

1、PC机器CPU:8G Hz以上

2、PC机器内存:16GB以上

3、录音设备与扬声设备

五、课程培训目标

1.体验大数据环境的搭建过程

2.熟练使用基础Linux实操能力

3.能够使用SparkSQL完成基础统计分析

4.能够使用Sqoop,FineBI,DS等数据仓库相关组件

5.使用MetaStore实现对元数据管理功能

六、项目进度安排

1月6日

环境搭建

1.保险业务概述
2.能够使用Vmware虚拟机环境
3.能够使用SecureCRT连接操作Vmware
4.保险大数据环境准备
5.Linux基础命令
6.Linux脚本

1月7日

数据开发技术栈(Hadoop+Spark)

1.了解Hadoop生态
2.熟悉Hadoop三大组建
3.熟悉Spark的RDD操作
4.Spark案例实战
5.熟悉Spark的DataFrame类型
6.UDAF的使用

1月8日

数据开发技术栈(SparkSQL)

1.数据仓库概念
2.SparkSQL的DDL操作
3.分区表
4.理解静态分区与动态分区
5.SparkSQL的基本查询语法

1月10日

项目实战(一)

1.保险项目的数仓理论介绍
2.能够使用Sqoop导入数据
3.ODS层的搭建
4.保费因子计算
5.迭代计算

1月11日

项目实战(二)

1.保费计算
2.现金价值计算
3.保险准备金计算

1月12日

项目实战(三)

1.保险大数据统计指标汇总
2.保险数据统计分析实战
3.DolphinScheduler任务调度