一、基础知识
1.1 推广搜使用场景及特征类型
1)场景
推搜常用场景有
- 购物
- 新闻
- 视频
- 音乐...
推荐目的是
- 增加点击率
- 增加观看时长
- 增加购买转化率
- 增加用户粘性...
2)特征类型
搜推模型的输入特征类型主要有三种:物品信息、用户信息、场景信息,这三类协同作用得到推荐结果
物品信息:
- 价格
- 销量
- 评价...
用户信息:
- 历史行为(购买记录)
- 关系网
- 性别...
场景信息:
- 时间
- 地区
- 用户状态...
1.2 自然推荐和推荐广告
- 自然推荐:自然推荐是提升用户体验和信息分发效率的,属于免费流量,因此主要考虑用户和平台利益,基本不考虑商家
- 指标:CTR(点击率)
- 主要排序:CTR,可能还会再结合销量、评价等指标
- 感知:自然推荐通常是无感的
- 推荐广告:推荐广告是商家花钱投放的,因此主要考虑商家利益,同时兼顾用户和平台的利益
- 指标:CPM(千次展示成本)
- 主要排序:eCPM,广告侧还需要去考虑广告商品的质量、历史销量、历史好评率等等各种因素,将这些因素综合考虑组成另外一个分数Q值,最终二者按照一定权重,形成一个复合公式:
Rank_Score = a×eCPM + b×Q
- 感知:推荐广告通常会有广告字样用于标识
1.3 推荐算法基本流程
整个推搜系统的运作流程图如下:
推荐算法最主要的流程是:
数据处理:将数据数值化。其中数据可以分为连续特征和类别特征两种,连续特征如价值、销量等可以直接数值化;而类别特征如性别、等级、星期、城市等这些可选项、不具备数值化意义的需要用哈希散列、one-hot等进行编码向量化。
建模
召回:一般用召回规则(如用户的搜索关键词、历史行为)从海量的候选集中召回用户可能感兴趣的物品。
- 举例:用户在搜索框中输入“跑步鞋”,系统会召回所有与“跑步鞋”相关的广告,包括直接相关的广告(如某品牌的跑步鞋)和间接相关的广告(如运动装备、健身课程等)。
过滤:过滤一般会进一步保证结果的实时性、相关性、物品相似性和用户相似度等,通常会考虑用户的地域限制、匹配度等因素。
- 举例:对于用户输入“跑步鞋”的搜索,过滤系统可能会移除不相关的广告(如与“跑步”无关的时尚鞋类广告)或已经过期的广告。
精排:百量级的内容并按照顺序推送,精排也一直是推搜模型优化的重点,确保最优质、最相关的广告位于前列,提升广告的点击率和转化率。通常会使用CTR预测模型、双塔深度学习等模型来优化排序。
- 举例:在“跑步鞋”搜索结果中,精排阶段会确保广告中最相关的、用户最可能点击的跑步鞋广告排在前面,考虑到价格、品牌偏好等因素。
混排:为避免内容越推越窄,将精排后的推荐结果进行一定修改,例如控制某一类型的频次。
强规则:强规则是一些行业规定的、无法修改的固定规则,如广告不能违法违规、广告不能虚假宣传恶意竞争等规则。通常需要确保广告展示符合法律、平台及广告主的要求
评估:评估模型在测试集上的效果,常用的评估指标包括准确率、召回率、F1值、AUC等
1.3 数据预处理算法原理
数据预处理中的数据可以分为连续特征和类别特征两种
- 连续特征:如价值、销量等可以直接数值化
- 类别特征:如性别、等级、星期、城市等这些可选项、不具备数值化意义的需要用哈希散列、one-hot等进行编码向量化。
1)哈希散列
哈希散列是一种将特征值映射到固定长度为n的向量的方法
比如需要将weekly
特征映射到长度为n=3
的向量中,也就是通过二进制编码制定映射规则Tuesday=[0,1,0]=十进制的2
,用长度为3的向量可以无哈希冲突地映射所有星期值。
缺点:
- 当映射空间不足时会导致哈希冲突,从而导致某些特征的信息丢失。(比如用n=2去映射weekly时会出现哈希碰撞)
- 使用了哈希函数增加了计算复杂度
优点:
- 内存占用较低,适合大规模数据集
2)one-hot
one-hot是一种将特征值映射到固定长度为n的向量的方法,其中n为可选类别的个数
比如将weekly
特征映射到长度为7的向量中,选中了星期几就把该位置置为1,比如Tuesday=[0,1,0,0,0,0,0]
,用长度为7的向量可以无哈希冲突地映射所有星期值。
缺点:
- 会导致存在大量数量为0的值,导致输入的特征向量稀疏,导致维度爆炸和训练速度慢。
- 维度高,内存占用高
优点:
- 直观、容易理解
参考:
!!!详细推搜知识包含召回-排序:推荐系统[一]:超详细知识介绍,一份完整的入门指南,解答推荐系统相关算法流程、衡量指标和应用,以及如何使用jieba分词库进行相似推荐
二、学习路线
推荐算法学习博客&github:https://datawhalechina.github.io/fun-rec/#/
学习路线参考文章:推荐算法&广告算法学习路线,其中重点关注文章中的三、推荐算法和四、广告算法
tmp记录文章: