大规模分布式推荐系统实战

大规模分布式推荐系统实战

阿星 · 资深算法工程师

483人已买
详情
目录(35)

不管是我们看的短视频、直播、文章还是浏览电商网站中的商品等,推荐系统都在其中发挥了巨大的作用。其背后的推荐算法对于很多人来说,似乎也是可望而不可即的。作为机器学习应用最成熟的场景之一,推荐系统具有极大的商业价值,相关从业人员在市场上也具有更大的竞争力,很难被替代。但是想要深刻的掌握推荐系统又具有很大的难度,主要体现在:

  • 对数据量要求很大,如果没有足够的数据,很难在工作中踩坑,于是就不容易更进一步;
  • 吃经验,比如冷启动怎么解决、发生马太效应了怎么办等,只有足够的经验才能很好的解决;
  • 理论落地问题,推荐系统 paper 千千万,能落地的没几篇:实际工作中到底是怎么用的?大公司又是怎么处理海量的数据,动辄 PB 级别的数据量亿级的特征又如何建模,怎么调优呢?

专栏亮点

  1. 着眼于实战,关于机器学习,已经有数不清的理论和书籍,然而真正谈论实践的却不是很多。
  2. 技巧均来自于平时的工作中,而非纸上谈兵,旨在设计能够服务于日活千万用户、百万商品的个性化推荐系统。
  3. 专栏中的所有算法代码均是可以在生产环境中运行的代码,而不是一些代码片段或者伪代码。

作者简介

avatar

专栏结构

第一部分:召回系统。 重点介绍推荐系统中常用的召回算法,包括 协同过滤、关联规则、词向量、YouTube 召回方案等,从理论基础到源码分析,并阐述各种召回算法的离线评估方法。

  • 第1节 推荐系统架构
  • 第2节 协同过滤:数据要怎么准备
  • 第3节 协同过滤:自己动手实现它
  • 第4节 协同过滤:怎么让它快速更新
  • 第5节 Apriori 算法:点击啤酒推荐尿布,这是真的吗
  • 第6节 FPGrowth 算法:关联规则生成地再快点再快点
  • 第7节 FPGrowth 算法:它究竟怎么实现的
  • 第8节 Word2Vec:什么是词向量
  • 第9节 Word2Vec:这…..有理论依据吗
  • 第10节 Word2Vec:它又是怎么实现的
  • 第11节 Word2Vec:可是推荐系统中怎么用它
  • 第12节 LSH:百万量级如何快速找到最近邻
  • 第13节 LSH:怎么知道它找到的近邻是真的近邻
  • 第14节 看看 YouTube 怎么召回的
  • 第15节 HNSW:ANN 中的佼佼者,它的理论基础 - 跳表
  • 第16节 HNSW:告诉我,为什么它这么快
  • 第17节 说了这么多,这些召回算法如何做线下评测
  • 第18节 线上指标好才是真的好:AB 测试应该怎么做

第二部分:排序系统。 主要讲解推荐系统中常用的排序算法,包括 特征工程、特征选择,深度学习中的参数调优以及常见的网络模型结构。详细说明在建模中遇到的正负样本严重失衡、正样本延迟、用户/物品冷启动等实际问题,当然还有排序算法的离线评估方法。

  • 第19节 天啊,这么多特征应该怎么办啊
  • 第20节 从逻辑回归到 FM:动手实现并不难
  • 第21节 再到 Learning To Rank:它是怎么学习元素之间的顺序的
  • 第22节 最后来到深度学习:基础结构长什么样
  • 第23节 最常用的深度学习网络结构又长什么样
  • 第24节 如何做一名合格的调参侠
  • 第25节 建模的一堆现实问题:正样本延迟、数据失衡等
  • 第26节 推荐中的排序模型应该如何做离线评估
  • 第27节 离线指标节节高上线之后一片红,这咋分析啊
  • 第28节 新上的物品推不出来,何解
  • 第29节 新来的用户怎么知道TA喜欢啥,愁人
  • 第30节 模型一天更新一次太慢了,能不能实时更新

第三部分:机器学习平台。 这部分重心放在了分布式机器学习训练平台搭建上,详细讲解一套成熟的机器学习 pipeline,从 训练 到 serving 完整的流程,会教大家自己就可以搭建并运行起来的基于 K8S 的分布式训练平台。对于人力财力都异常充足的大厂,当然不用考虑这部分内容,但是从笔者的经验来看,大部分中小型公司在机器学习平台选择上很容易陷入迷茫和令人挫折的不断尝试。

  • 第31节 模型一训就是一个星期,怎么加速
  • 第32节 一套成熟的 Tensorflow 代码框架:分分钟写个能跑的复杂模型不在话下
  • 第33节 自己动手搭建分布式 Tensorflow 训练平台
  • 第34节 我话讲完…你呢

你将学到

  • 常用的召回算法、排序算法
  • 算法的离线评估策略
  • 推荐系统常用的冷启动策略
  • 分布式 Tensorflow
  • 如何搭建一套可用的分布式训练框架

订阅须知

  • 本专栏为图文内容,共计 34 篇。每周更新一篇,预计 2021 年 2 月更新完毕。
  • 本专栏为虚拟产品,一经付费概不退款,敬请谅解。
  • 本专栏可在 GitChat 服务号、App 及网页端 gitbook.cn 上购买,一端购买,多端阅读。

订阅福利

  • 订购本专栏可获得专属海报(在 GitChat 服务号领取),分享专属海报每成功邀请一位好友购买,即可获得 25% 的返现奖励,多邀多得,上不封顶,立即提现。
  • 提现流程:在 GitChat 服务号中点击「我-我的邀请-提现」。

购买须知

  • 本课程内容版权归北京码字科技发展有限公司独家所有,未经授权,不得转载。
  • 本课程为虚拟产品,一经付费概不退款,敬请谅解。
  • 添加 GitChat 助教俏俏(微信 ID: gitchat2025),加入免费技术交流群。
× 订阅 Java 精选频道
¥ 元/月
订阅即可免费阅读所有精选内容