AkiraZheng's Time.

推广搜1:基础知识及学习路线篇

Word count: 1.6kReading time: 5 min
2024/12/20

一、基础知识

1.1 推广搜使用场景及特征类型

1)场景

推搜常用场景有

  • 购物
  • 新闻
  • 视频
  • 音乐...

推荐目的是

  • 增加点击率
  • 增加观看时长
  • 增加购买转化率
  • 增加用户粘性...

2)特征类型

搜推模型的输入特征类型主要有三种:物品信息、用户信息、场景信息,这三类协同作用得到推荐结果

物品信息:

  • 价格
  • 销量
  • 评价...

用户信息:

  • 历史行为(购买记录)
  • 关系网
  • 性别...

场景信息:

  • 时间
  • 地区
  • 用户状态...

1.2 自然推荐和推荐广告

  • 自然推荐:自然推荐是提升用户体验和信息分发效率的,属于免费流量,因此主要考虑用户和平台利益,基本不考虑商家
    • 指标:CTR(点击率)
    • 主要排序:CTR,可能还会再结合销量、评价等指标
    • 感知:自然推荐通常是无感的
  • 推荐广告:推荐广告是商家花钱投放的,因此主要考虑商家利益,同时兼顾用户和平台的利益
    • 指标:CPM(千次展示成本)
    • 主要排序:eCPM,广告侧还需要去考虑广告商品的质量、历史销量、历史好评率等等各种因素,将这些因素综合考虑组成另外一个分数Q值,最终二者按照一定权重,形成一个复合公式:Rank_Score = a×eCPM + b×Q
    • 感知:推荐广告通常会有广告字样用于标识

1.3 推荐算法基本流程

整个推搜系统的运作流程图如下:

推荐算法最主要的流程是:

  • 数据处理:将数据数值化。其中数据可以分为连续特征类别特征两种,连续特征如价值、销量等可以直接数值化;而类别特征如性别、等级、星期、城市等这些可选项、不具备数值化意义的需要用哈希散列、one-hot等进行编码向量化

  • 建模

    • 召回:一般用召回规则(如用户的搜索关键词、历史行为)从海量的候选集中召回用户可能感兴趣的物品。

      • 举例:用户在搜索框中输入“跑步鞋”,系统会召回所有与“跑步鞋”相关的广告,包括直接相关的广告(如某品牌的跑步鞋)和间接相关的广告(如运动装备、健身课程等)。
    • 过滤:过滤一般会进一步保证结果的实时性、相关性、物品相似性和用户相似度等,通常会考虑用户的地域限制、匹配度等因素。

      • 举例:对于用户输入“跑步鞋”的搜索,过滤系统可能会移除不相关的广告(如与“跑步”无关的时尚鞋类广告)或已经过期的广告。
    • 精排百量级的内容并按照顺序推送,精排也一直是推搜模型优化的重点,确保最优质、最相关的广告位于前列,提升广告的点击率和转化率。通常会使用CTR预测模型、双塔深度学习等模型来优化排序。

      • 举例:在“跑步鞋”搜索结果中,精排阶段会确保广告中最相关的、用户最可能点击的跑步鞋广告排在前面,考虑到价格、品牌偏好等因素。
    • 混排:为避免内容越推越窄,将精排后的推荐结果进行一定修改,例如控制某一类型的频次

    • 强规则:强规则是一些行业规定的、无法修改的固定规则,如广告不能违法违规、广告不能虚假宣传恶意竞争等规则。通常需要确保广告展示符合法律、平台及广告主的要求

  • 评估:评估模型在测试集上的效果,常用的评估指标包括准确率、召回率、F1值、AUC

1.3 数据预处理算法原理

数据预处理中的数据可以分为连续特征类别特征两种

  • 连续特征:如价值、销量等可以直接数值化
  • 类别特征:如性别、等级、星期、城市等这些可选项、不具备数值化意义的需要用哈希散列、one-hot等进行编码向量化

1)哈希散列

哈希散列是一种将特征值映射到固定长度为n的向量的方法

比如需要将weekly特征映射到长度为n=3的向量中,也就是通过二进制编码制定映射规则Tuesday=[0,1,0]=十进制的2,用长度为3的向量可以无哈希冲突地映射所有星期值。

缺点:

  • 当映射空间不足时会导致哈希冲突,从而导致某些特征的信息丢失。(比如用n=2去映射weekly时会出现哈希碰撞)
  • 使用了哈希函数增加了计算复杂度

优点:

  • 内存占用较低,适合大规模数据集

2)one-hot

one-hot是一种将特征值映射到固定长度为n的向量的方法,其中n为可选类别的个数

比如将weekly特征映射到长度为7的向量中,选中了星期几就把该位置置为1,比如Tuesday=[0,1,0,0,0,0,0],用长度为7的向量可以无哈希冲突地映射所有星期值。

缺点:

  • 会导致存在大量数量为0的值,导致输入的特征向量稀疏,导致维度爆炸和训练速度慢
  • 维度高,内存占用高

优点:

  • 直观、容易理解

参考:

广告和推荐算法论文梳理

自然推荐和推荐广告的区别:推荐算法(推广搜)

超全推荐算法基础知识:超全,7种经典推荐算法模型及应用

!!!详细推搜知识包含召回-排序:推荐系统[一]:超详细知识介绍,一份完整的入门指南,解答推荐系统相关算法流程、衡量指标和应用,以及如何使用jieba分词库进行相似推荐

二、学习路线

推荐算法学习博客&github:https://datawhalechina.github.io/fun-rec/#/

学习路线参考文章:推荐算法&广告算法学习路线,其中重点关注文章中的三、推荐算法四、广告算法

tmp记录文章:

【主要推荐算法概览,包括召回与排序】

Elasticsearch学习笔记

Elasticsearch工具使用

CATALOG
  1. 一、基础知识
    1. 1.1 推广搜使用场景及特征类型
    2. 1.2 自然推荐和推荐广告
    3. 1.3 推荐算法基本流程
    4. 1.3 数据预处理算法原理
      1. 1)哈希散列
      2. 2)one-hot
  2. 二、学习路线