基于用户画像的实时异步化视频推荐系统

作者: 祝威廉 | 来源:发表于2016-12-01 14:53 被阅读4621次

基于用户画像的实时异步化视频推荐系统
基于Spark的电影推荐系统（推荐系统~7）
推荐系统陈开江 - C3 内容推荐
推荐系统架构-3 用户画像
基于Flink流处理的动态实时亿级全端用户画像系统
2019-04-01
Flink + 强化学习搭建实时推荐系统
推荐系统从入门到继续入门（一）
日处理20亿数据，实时用户行为服务系统架构实践
日处理20亿数据，实时用户行为服务系统架构实践

前言

这个月做的事情还是蛮多的。上线了一个百台规模的ES集群，还设计开发了一套实时推荐系统。标题有点长，其实是为了突出该推荐系统的三个亮点，一个是实时，一个是基于用户画像去做的，一个是异步化。

*** 实时主要体现在三个层面：***

用户画像中的的短期兴趣模型实时构建。

也就是你看完一个视频，这个视频几秒内就影响了你的短期兴趣模型，并且反应到你下次的推荐中。
候选集实时变更。

在我设计的推荐系统中，候选集的概念是不同类型的待推荐给用户的视频库，一个用户并不能看到某个候选集的全部，而是能够看到经过匹配算法处理完后的候选集的一部分。候选集的更新周期直接影响用户能够看到的视频的实时性。候选集可以有很多，通过不同的候选集解决不同的推荐场景问题。比如结合最新候选集和最近N小时最热候选集，我们可以做到类似今日头条的推荐效果。新内容候选集的产生基本就是实时的，而最近N小时热门视频候选集则可能是分钟级别就可以得到更新。还有比如协同就可以做视频的相关推荐，而热门候选集则可以从大家都关心的内容里进一步筛出用户喜欢的内容。
推荐效果指标的实时呈现。

上线后你看到的一些比较关键的指标例如点击转化率，都可以在分钟级别得到更新。推荐系统有个比较特殊的地方，就是好不好不是某个人说了算，而是通过一些指标来衡量的。比如点击转化率。

*** 用户画像和视频画像 ***

用户画像则体现在兴趣模型上。通过构建用户的长期兴趣模型和短期兴趣模型可以很好的满足用户兴趣爱好以及在用户会话期间的需求。做推荐的方式可以很多，比如协同，比如各种小trick,而基于用户画像和视频画像，起步难度会较大，但是从长远角度可以促进团队对用户和视频的了解，并且能够支撑推荐以外的业务。

*** 异步化 ***

推荐的计算由用户刷新行为触发，然后将用户信息异步发送到Kafka,接着Spark Streaming程序会消费并且将候选集和用户进行匹配计算，计算结果会发送到Redis 的用户私有队列。接口服务只负责取推荐数据和发送用户刷新动作。新用户或者很久没有过来的用户，它的私有队列可能已经过期，这个时候异步会产生问题。前端接口一旦发现这个问题，有两种解决方案：

会发送一个特殊的消息(后端接的是Storm集群)，接着hold住，等待异步计算结果
自己获取用户兴趣标签，会按一定的规则分别找协同，然后到ES检索，填充私有队列，并迅速给出结果。(我们采用的方案)

除了新用户，这种情况总体是少数。大部分计算都会被异步计算cover住。

流式技术对推荐系统的影响

我之前写了很多文章鼓吹流式技术，最露骨的比如数据天生就是流式的。当然主要和我这一两年部门的工作主体是构建
流式流水线（Pipline），解决实时日志计费等相关问题。流式计算对推荐系统的影响很大，可以完全实现

在推荐系统中，除了接口服务外，其他所有计算相关的，包括但不限于：

新内容预处理，如标签化，存储到多个存储器
用户画像构建如短期兴趣模型
新热数据候选集
短期协同
推荐效果评估指标如点击转化率

这些流程都是采用Spark Streaming来完成。对于长期协同(一天以上的数据)，用户长期兴趣模型等，则是采用Spark 批处理。因为采用了StreamingPro这个项目，可以做到所有计算流程配置化，你看到的就是一堆的描述文件，这些描述文件构成了整个推荐系统的核心计算流程。

这里还值得提的三点是：

推荐效果评估，我们采用Spark Streaming + ElasticSearch的方案。也就是Spark Streaming 对上报的曝光点击数据进行预处理后存储到ES,然后ES提供查询接口供BI报表使用。这样避免预先计算指标导致很多指标实现没有考虑到而不断变更流式计算程序。
复用现有的大数据基础设施。整个推荐系统只有对外提供API的服务是需要单独部署的，其他所有计算都使用Spark跑在Hadoop集群上。
所有计算周期和计算资源都是可以方便调整的，甚至可以动态调整(Spark Dynamic Resource Allocatioin)。这点非常重要，我完全可以放弃一定的实时性来节省资源或者在闲暇时让出更多资源给离线任务。当然这些都益于Spark 的支持。

一些感悟

我14，15年做的一次推荐系统，那个时候还没有流式计算的理念，而且也不能复用一些已有的技术体系，导致系统过于复杂，产品化也会比较困难。而且推荐的效果也只能隔日看到，导致效果改良的周期非常长。当时整个开发周期超过了一个多月。然而现在基于StreamingPro,两三人没人么天只能投入两三小时，仅仅用了两个礼拜就开发出来了。后续就是对用户画像和视频画像的进一步深入探索，核心是构建出标签体系，然后将这些标签打到用户和视频身上。我们组合了LDA,贝叶斯等多种算法，获得不少有益的经验。

基于用户画像的实时异步化视频推荐系统
前言这个月做的事情还是蛮多的。上线了一个百台规模的ES集群，还设计开发了一套实时推荐系统。标题有点长，其实是为...
基于Spark的电影推荐系统（推荐系统~7）
第四部分-推荐系统-实时推荐本模块基于第4节得到的模型，开始为用户做实时推荐，推荐用户最有可能喜爱的5部电影。 ...
推荐系统陈开江 - C3 内容推荐
讲了什么？用户画像，标签挖掘，基于内容推荐 1 用户画像什么是用户画像用户向量化后就是用户画像，便签，注册资料，...
推荐系统架构-3 用户画像
一、推荐系统二、阿里云智能推荐AIRec 三、用户画像介绍 1、用户画像的概念用户画像是指根据用户的属性、偏好...
基于Flink流处理的动态实时亿级全端用户画像系统
基于Flink流处理的动态实时亿级全端用户画像系统下载地址1：https://pan.baidu.com/s/1...
2019-04-01
1.基于内容的推荐系统：推荐系统以个性化的方式指引用户在众多选择中找到感兴趣的东西。基于内容的推荐系统会发掘用户...
Flink + 强化学习搭建实时推荐系统
如今的推荐系统，对于实时性的要求越来越高，实时推荐的流程大致可以概括为：推荐系统对于用户的请求产生推荐，用户对推荐...
推荐系统从入门到继续入门（一）
1. 推荐系统是什么？推荐系统又叫个性化推荐系统，它会基于用户行为数据或物品数据，通过一定的算法，为用户推荐符合...
日处理20亿数据，实时用户行为服务系统架构实践
携程实时用户行为服务作为基础服务，目前普遍应用在多个场景中，比如猜你喜欢（携程的推荐系统）、动态广告、用户画像、浏...
日处理20亿数据，实时用户行为服务系统架构实践
携程实时用户行为服务作为基础服务，目前普遍应用在多个场景中，比如猜你喜欢（携程的推荐系统）、动态广告、用户画像、浏...

网友评论

疯过留声:写得真好！博主在构建出标签体系方面可否有更加详细的技术方案介绍吗？
疯过留声:博主，若是开个知乎live就更好，到时候通知一下，哈哈
7b3738d6f1f9:Hi，大神：
你在异步化部分提到：前端发现队列失效后，会自己获取用户兴趣标签，请问一下是怎么获取的呢？你们的标签数据怎么存储的？怎么提供服务给用户获取的呢？
祝威廉:@xiangya_11 通过检索。前端服务如果发现队列失效会先取ElasticSearch存储的数据作为初始化。
bbb88c7230ae:大神您好，我有现在有个需求，按天统计每天流水日志，然后把结果写入mongdb。统计的key以天为日期的key,执行updateStateByKey的状态更新。现在有个问题，比如今天是18号，到了19号，18号的key就没有用了，我怎么清楚18号的key。还是每天定时启动一个任务，在停掉前天的任务。
6173c8a10493:我理解的用户画像就是一个用户的行为指标（比如首次购买时间，最近购买时间，总订单数，成交额，首次抽奖时间等），用户基础属性（省份，性别等）。目前正在尝试用es做用户画像。大神有时间请教下哈
6315aa10a3dd:问个sparkstreaming方面的问题，我想用sparkstreaming基于过去完整分钟的数据做统计，每数据都带了时间，利用时间窗只能获取某段时间内的数据，但是无法统计完整分钟的数据，请问有啥好的解决方法吗
6315aa10a3dd:@祝威廉谢谢大神
祝威廉:@auferack08 用mapWithState 或者外置存储Redis等来完成累计统计
7edd900d3fac:谢谢分享
427d4859820e:还有更详细的介绍吗？
祝威廉:@WinstonWYChen 后续会写推荐系统指标体系的构建
427d4859820e:@WinstonWYChen
705d4fa427d6:牛🐮
bbb88c7230ae:最近也在做这种相关的推荐系统，刚好看到这篇文章，受益匪浅。我想问下如果要做秒级的实时，计算好的数据是不是要实时写入后端存储中。
祝威廉:@废弃的都市放到redis 或者mysql中。如果有数据量问题，可以选择放到hbase/es中。
bbb88c7230ae:比如我要做一个用户流水的统计这些数据是在前端页面展示给用户的。用户流水我通过kafka传递，然后spark实时统计。统计数据是按照一天来做排名，这个数据变化的太快，这个数据是直接放在spark中提供接口查询，还是放入redis或者mysql中
祝威廉:@废弃的都市一个推荐系统模块是很多的，不同模块需要的时间是不一致的。比如最近热门，你十秒算一次最近3小时的浏览数据和你三分钟算一次最近三小时的浏览数据是没有什么差别的，一味的最求更短的计算周期只是浪费资源，却无法带来品质上的收益。另外能说明下‘计算好的数据是不是要实时写入后端存储中’ 是什么意思么？
3d380bdaecc5:大神，学习了，最近也在做这方面的东西，遇到了很多问题，看完文章，思路就清晰了很多
祝威廉:@3d380bdaecc5
0b1816589847:想问一下Es作为Hbase的副本的用意，直接全部使用Es是否可行呢
0b1816589847:@祝威廉想问一下用户画像的标签权重是怎么计算的呢
祝威廉:@biorelive2 也可以因为es还可以提供检索功能并且具备一定的打分定制能力。文中也提到了用户很长时间没过来那么他的队列会过期而我们使用的匹配算法还很难达到毫秒级在实际的推荐过程中响应时间很重要这个时候检索就能提供帮助了参看文章中对新用户和用户队列过期的情况的应对
8242db70533a:视频用户画像侧重哪些点？比如电商用户画像目前是订单抽象的特征为主，浏览信息为辅。
祝威廉:@庄稼汉视频观看行为为主对视频种类的偏好
工程师milter:厉害了word哥！能给推荐下推荐系统学习资料吗？
祝威廉:@milter 这个不是资料么……
a4594c039a31:最近正在筹备个性化实时推荐技术框架，结果就遇到了你的分享，收获很大，谢谢
祝威廉:@herdboy