一、项目介绍
项目概述:
推荐系统建立在海量用户行为数据和业务数据之上,使用Lambda大数据实时和离线计算整体架构,利用用户的点击行为、浏览行为、收藏行为结合常用机器学习、深度学习算法,建立协同过滤推荐模型,和CTR预估模型,利用业务数据建立基于内容推荐的模型,为用户进行个性化推荐。
项目亮点:
1. hadoop spark 等主要大数据框架应用
2. 协同过滤,基于内容,LR,Wide&Deep等召回和排序算法
3. 从0到1实现基于大数据lambda架构的推荐系统
二.课程适合人群
熟练掌握python语法
掌握基本算法
掌握大数据技术spark,Hadoop,hive
python基础视频,下载地址:
http://yun.itheima.com/course/273.html
人工智能基础视频,下载地址:
http://yun.itheima.com/course/542.html
人工智能进阶视频,下载地址:
http://yun.itheima.com/course/541.html
人工智能算法,下载地址:
http://yun.itheima.com/course/525.html
hadoop视频,下载地址:
http://yun.itheima.com/course/301.html
hive视频,下载地址:
http://yun.itheima.com/course/365.html
三、准备环境介绍
硬件:
Windows或mac os 操作系统
至少8G内存
至少100G剩余磁盘空间
软件:
pycharm
虚拟机软件(vmware 或者 virtualbox等)
Ssh工具(xshell 或者 secureCRT等)
四、课程培训目标
1.使用Lambda架构进行大数据分析
2.掌握常用的推荐召回算法和排序算法
3.推荐系统搭建
五、项目进度安排
本次培训计划如下:
1.推荐系统简介
2.推荐系统框架
3.推荐系统算法-协同过滤
4.推荐系统算法-基于内容
5.推荐系统评估
6.推荐系统冷启动
1.Hadoop概述
2.分布式文件系统HDFS介绍
3.YARN介绍
4.MapReduce介绍
5.MapReduce工作机制
6.MapReduce案例(wordcount,topN统计,数据合并)
7.Spark简介
1.Pyspark介绍
2.Spark基本数据模型RDD介绍
3.RDD案例(IP统计,pv uv统计)
4.Spark-sql简介
5.Spark-sql之DataFrame
6.Python实现SparkSql数据读取
7.Spark数据清洗案例
8.SparkML构建协同过滤模型(基于用户行为数据)
1.CTR预估模型构建(基于用户点击数据)
2.用户特征缺失值处理
3.spark实现实时推荐
4.TensorFlow框架介绍
5.常用CTR预估排序模型介绍
6.深度学习CTR排序模型简介
7.Wide&Deep介绍
8.电商项目深度学习排序实现
1.mysql导入hdfs
2.Spark sql进行数据合并,提取商品描述信息
3.基于商品信息进行关键词提取(text rank&TF-IDF)
Word2Vec 构建词向量并创建商品向量
4.基于商品向量计算相似度并召回推荐效果分析
六、项目演示图
推荐业务1效果
推荐业务2效果
推荐架构图