AkiraZheng's Time.

推广搜5:传统推荐模型之GBDT+LR模型

Word count: 423Reading time: 1 min
2025/01/03

GBDT+LR模型

CTR预估早期使用最多的方案是逻辑回归(LR),LR 性能非常高,但是其效果十分依赖于大量的特征工程。但是手动构造许多有用特征费时费力,因此需要有更自动化的方法来发现有效特征并构造组合特征

相比FM和FFM通过交互所有的二阶特征导致特征冗余问题,GBDT自动在特征传入LR模型前先对特征进行自动筛选和组合,筛选和组合后的包含各阶特征的向量再传入LR模型中进行线性训练。

这里就包含了两部分的独立训练:

  • GBDT模型训练构建特征工程
  • LR模型训练预估CTR

GBDT

GBDT 基于集成学习中的boosting思想,每次迭代都在减少残差的梯度方向新建立一颗决策树,迭代多少次就会生成多少颗决策树,不断减少误差。

假设GBDT由两颗树构成,如下图中的 树1 和 树2 :

模型最终到达叶子节点形成一个one-hot编码,每个节点为1表示该特征被选择,0表示该特征未被选择。如上图形成的one-hot编码为[0, 1, 0, 1, 0]。

同时,决策树决定了特征的阶数,如果决策树深度为3,则说明是通过2次节点分裂得到的,最终叶节点是2阶特征组合的结果,其缺点是相比FFM会损失很多数值信息。

参考

广告点击率(CTR)预测经典模型 GBDT + LR 理解与实践(附数据 + 代码)

CATALOG
  1. GBDT+LR模型
    1. GBDT