推广搜1：基础知识及学习路线篇

Word count: 1.6kReading time: 5 min

 2024/12/20 

一、基础知识

1.1 推广搜使用场景及特征类型

1）场景

推搜常用场景有

购物
新闻
视频
音乐...

推荐目的是

增加点击率
增加观看时长
增加购买转化率
增加用户粘性...

2）特征类型

搜推模型的输入特征类型主要有三种：物品信息、用户信息、场景信息，这三类协同作用得到推荐结果

物品信息：

价格
销量
评价...

用户信息：

历史行为（购买记录）
关系网
性别...

场景信息：

时间
地区
用户状态...

1.2 自然推荐和推荐广告

自然推荐：自然推荐是提升用户体验和信息分发效率的，属于免费流量，因此主要考虑用户和平台利益，基本不考虑商家
- 指标：CTR（点击率）
- 主要排序：CTR，可能还会再结合销量、评价等指标
- 感知：自然推荐通常是无感的
推荐广告：推荐广告是商家花钱投放的，因此主要考虑商家利益，同时兼顾用户和平台的利益
- 指标：CPM（千次展示成本）
- 主要排序：eCPM，广告侧还需要去考虑广告商品的质量、历史销量、历史好评率等等各种因素，将这些因素综合考虑组成另外一个分数Q值，最终二者按照一定权重，形成一个复合公式：Rank_Score = a×eCPM + b×Q
- 感知：推荐广告通常会有广告字样用于标识

1.3 推荐算法基本流程

整个推搜系统的运作流程图如下：

推荐算法最主要的流程是：

数据处理：将数据数值化。其中数据可以分为连续特征和类别特征两种，连续特征如价值、销量等可以直接数值化；而类别特征如性别、等级、星期、城市等这些可选项、不具备数值化意义的需要用哈希散列、one-hot等进行编码向量化。
建模
- 召回：一般用召回规则（如用户的搜索关键词、历史行为）从海量的候选集中召回用户可能感兴趣的物品。
  - 举例：用户在搜索框中输入“跑步鞋”，系统会召回所有与“跑步鞋”相关的广告，包括直接相关的广告（如某品牌的跑步鞋）和间接相关的广告（如运动装备、健身课程等）。
- 过滤：过滤一般会进一步保证结果的实时性、相关性、物品相似性和用户相似度等，通常会考虑用户的地域限制、匹配度等因素。
  - 举例：对于用户输入“跑步鞋”的搜索，过滤系统可能会移除不相关的广告（如与“跑步”无关的时尚鞋类广告）或已经过期的广告。
- 精排：百量级的内容并按照顺序推送，精排也一直是推搜模型优化的重点，确保最优质、最相关的广告位于前列，提升广告的点击率和转化率。通常会使用CTR预测模型、双塔深度学习等模型来优化排序。
  - 举例：在“跑步鞋”搜索结果中，精排阶段会确保广告中最相关的、用户最可能点击的跑步鞋广告排在前面，考虑到价格、品牌偏好等因素。
- 混排：为避免内容越推越窄，将精排后的推荐结果进行一定修改，例如控制某一类型的频次。
- 强规则：强规则是一些行业规定的、无法修改的固定规则，如广告不能违法违规、广告不能虚假宣传恶意竞争等规则。通常需要确保广告展示符合法律、平台及广告主的要求
评估：评估模型在测试集上的效果，常用的评估指标包括准确率、召回率、F1值、AUC等

1.3 数据预处理算法原理

数据预处理中的数据可以分为连续特征和类别特征两种

连续特征：如价值、销量等可以直接数值化
类别特征：如性别、等级、星期、城市等这些可选项、不具备数值化意义的需要用哈希散列、one-hot等进行编码向量化。

1）哈希散列

哈希散列是一种将特征值映射到固定长度为n的向量的方法

比如需要将weekly特征映射到长度为n=3的向量中，也就是通过二进制编码制定映射规则Tuesday=[0,1,0]=十进制的2，用长度为3的向量可以无哈希冲突地映射所有星期值。

缺点：

当映射空间不足时会导致哈希冲突，从而导致某些特征的信息丢失。（比如用n=2去映射weekly时会出现哈希碰撞）
使用了哈希函数增加了计算复杂度

优点：

内存占用较低，适合大规模数据集

2）one-hot

one-hot是一种将特征值映射到固定长度为n的向量的方法，其中n为可选类别的个数

比如将weekly特征映射到长度为7的向量中，选中了星期几就把该位置置为1，比如Tuesday=[0,1,0,0,0,0,0]，用长度为7的向量可以无哈希冲突地映射所有星期值。

缺点：

会导致存在大量数量为0的值，导致输入的特征向量稀疏，导致维度爆炸和训练速度慢。
维度高，内存占用高

优点：

直观、容易理解

参考：

广告和推荐算法论文梳理

自然推荐和推荐广告的区别：推荐算法（推广搜）

超全推荐算法基础知识：超全，7种经典推荐算法模型及应用

!!!详细推搜知识包含召回-排序：推荐系统[一]：超详细知识介绍，一份完整的入门指南，解答推荐系统相关算法流程、衡量指标和应用，以及如何使用jieba分词库进行相似推荐