NOTE

这是 b 站王树森推荐系统课程的笔记,记录到了重排,之后的物品冷启动和提分部分我没有学,所以也没有笔记。索引如下:


在粗排、精排每个步骤之后,需要将提取出来的物品进行排序,既需要质量高,又需要多样性好(注意粗排之后也需要)。

怎么突然联想到国外招生的 diversity 要求了(

对图文笔记形式的物品,可以使用 CLIP 模型计算相似度,从而估计多样性。

Maximal Marginal Relevance (MMR) 算法

个物品,打分为 ,物品 的相似度为

个物品中选出的物品集合为 ,未选中的物品集合为 ,计算 中每一个物品的 marginal relevance 分数:

为超参,选择使 最大的物品从 放入 ,反复进行这个操作,直到选出需要数量的物品。

缺点:当 非常大时,最大相似性 会很大(接近 ),导致算法退化,多样性变差。可以使用滑动窗口,即使用最近选入的若干物品集合代替全集 (可以理解为离得远的物品可以相似,因为用户感觉不到这种相似性)。

可以对 进行一些规则筛选,以适合具体业务

DPP 算法

给定 个物品,表征为单位向量 ,作为矩阵 的列,可以计算这些向量构成超平行 维体的体积 来衡量多样性,而

故可以通过计算行列式来衡量多样性,目标函数:

应用在 MMR 算法上,就是:

,则 ,使用贪心寻找下一个物品:

(为了快速求解这个式子有很多数学推导,这里就不记录了)