这个文章主要介绍策略产品经理干货系列之推荐系统离线评估方法与指标介绍,和一些关于绝对偏差怎么算对应的知识点,希望对各位网友有帮助。
不同的评价方法有不同的优缺点,因此在进行推荐评价时,必须详细了解其指标,选择合适的评价方法。本文将分享推荐系统的离线评估方法,帮助战略产品经理高效完成工作。希望对您有帮助。
今天我要推出一系列关于所有策略产品都关心的推荐系统评估方法的文章。我会从头到尾解释一下推荐系统的评价指标。它还将帮助您明确如何根据不同的场景确定优化方向作为策略。
本系列将从头到尾分别从离线评价、Replay法、交织法和线上评价的角度,讲解战略产品推荐系统评价体系的构建、各种评价方法的优缺点及其应用场景。AB测试。每个战略产品对评价效果的选择都有清晰的认识;欢迎大家对这篇文章进行讨论。
1.推荐系统的评价体系
核心点一个成熟的推荐系统评估体系应该综合考虑评估的效率和正确性,使用更少的资源,快速选出效果更好的模型。
对于一个公司来说,最公平合理的评估方法是及时进行在线测试,评估模型是否能够更好地实现公司或团队的业务目标。
然而,仅使用在线A/B测试方法会占用宝贵且有限的在线流量词,并可能对用户体验造成损害。
因此,正是因为线上测试的种种局限性,“线下测试”成为了战略产品的下一个选择。离线测试可以利用近乎无限的计算资源快速获取评估结构,从而实现模型的快速迭代。
因此,没有一个单一的评估体系能够满足所有的评估场景和标准。作为一种战略产品,每种评估方法都应该深入理解和运用,以达到评估效率和准确性之间的平衡。
1推荐系统评价体系概述
从上图可以看出,在线A/B测试和传统离线评估之间,还存在Replay、Interleaving等测试方式。
采用Replay方式最大程度模拟离线状态下的在线环境。
Interleaving方法可以建立快速的在线测试环境。
这种多层次的评估和测试方法共同构成了完整的推荐系统评估体系,实现了评估计算效率和在线真实性反馈之间的平衡。
2应用场景
1)评估适用场景的效率
可见,离线评估需要快速验证模型思路和提高效率,因此有更多的时间来筛选模型和验证修正思路。
由于数量庞大,“评估效率”成为最关键的考虑因素。网上反馈的“真实性”并没有那么苛刻和苛刻。这时,应该选择更高效的离线评估规则。
2)在线真伪反馈适用场景
当候选车型经过层层筛选,接近正式上线接单后,评价方式对于能否真实反馈线上环境就显得更为重要。
在模型正式上线之前,需要进行最接近真实产品体验的A/B测试,以评估模型并生成最有说服力的——个业务指标。只有这样才能启动模型并完成模型迭代优化过程。
2.离线评价方法
定位在推荐系统评估中,离线评估往往被认为是最常用、最基础的评估方法。其核心是在将模型部署到线上环境之前先在离线环境中对其进行评估。
优点1)由于无需部署到生产环境,离线评估没有线上部署的工程风险,无需浪费线上流量资源;2)测试时间短,可同时进行多种并行测试,可利用丰富的线路。资源等优势。
能力要求要充分掌握战略产品线下评价的要点,需要掌握两方面的知识一是线下评价的方法有哪些;二是线下评价的方法有哪些。第二,线下评价的指标是什么。
大家都熟悉线下评估的基本原理。主要是在离线环境下,数据集分为“训练集”和“测试集”。“训练集”用于训练模型,“测试集”用于评估模型。
根据数据集划分方式的不同,离线评价方法可分为保持测试法、交叉测试法和引导法。
1保留法
Holdout测试是一种基本的离线评估方法,它将原始样本集随机分为训练集和测试集。
对于推荐模型,可以将样本按照90-10的比例随机分为两部分,90作为模型的训练集,10作为模型的评估测试集。
Holdout测试方法存在一定的缺点,即在验证集上计算的评价指标与训练集和测试集的划分直接相关。如果进行少量的Holdout测试,得到的结论会比较大。随机性。
因此,为了消除随机性的影响,提出了“交叉检验”方法。
2交叉验证方法
1)K折交叉验证方法
将所有样本划分为K个大小相等的样本子集,并依次遍历K个子集。每次,当前子集将被用作验证集,所有其他子集将被视为模型训练和评估的训练集。
最后将K个评价指标的平均值作为最终的评价指标。这在之前的机器学习章节中已经提到过。
2)留一验证法
与K折交叉验证的思想类似,每次保留一个样本作为验证集,其余样本全部作为测试集。
样本总数为n,依次遍历n个样本,验证n次,然后对评价指标进行平均,得到最终指标。缺点是当样本较多时,验证的计算成本和时间成本非常高。
事实上,leave-one验证是leave-p验证的一种特例。留下p进行验证是指在n个样本集中每次留下p个样本作为验证集。
3.自助方法Bootstrap
前述的Hold-out保留方法或交叉验证方法需要划分测试集和训练集来进行模型评估。但当样本量比较小时,划分验证集进一步缩小训练集,最终影响模型训练的效果。
于是,自助抽样检验方法诞生了对总样本集n,进行n次放回随机抽样,得到大小为n的训练集。
在n次采样的过程中,有的样本被重复采样,有的样本没有被采样。这些未采样的样本用作模型验证的验证集。这就是引导程序验证过程。
3.线下评估指标
要客观评价推荐模型的好坏,需要客观的衡量指标来进行评价,需要多角度的指标来评价推荐系统,从不同的角度从多个维度得出结论。
以下是推荐系统离线评估中常用的指标。其实之前介绍推荐系统的排序模块时,我已经给大家做了一个概述。从混淆矩阵的角度来解释准确率、召回率和精确率。精度,这里详细介绍一下。
混淆矩阵描述
我们用例子来让大家更容易理解。首先我们先了解一下混合线矩阵中的几个概念,并以推荐系统为例,方便大家理解。
混淆矩阵中TP的含义是模型预测该item被点击并且实际被点击。
混淆矩阵中FN的含义是模型预测该item不会被点击但实际被点击。
混淆矩阵中FP的含义是模型预测该item会被点击但实际并未被点击。
TN在混淆矩阵中的位置是为了预测不被点击实际上是曝光和不被点击的结果。
1准确度
准确率表示正确分类的样本占样本总数的比例,即
分母代表样本总数,分子代表无论预测是否被点击,预测结果与实际结果一致的样本数量。
准确率是分类任务中比较直观的评价指标。虽然它具有比较强的可解释性,但也存在明显的缺陷。即当不同类别的样本不均匀时,占比较大的类别往往成为影响预测精度的主要因素。
如果负样本的比例为99,那么将所有样本预测为负样本可以达到99的准确率。
如果将推荐题视为点击率估计方法中的分类题,在选择阈值区分正负样本的前提下,可以用准确率来评价推荐模型。
在实际场景中,推荐模型更多地用于获取推荐序列,因此精度和召回率指标更多地用于衡量质量。
2召回率和准确率
召回率表示正确分类的正样本数占所有真正样本数的比例,即
考察的是推荐系统模型在做分类任务时,将所有实际正样本预测为正样本的能力。更考察的是阳性样本的覆盖率。
准确率是正确分类的正样本占分类器判定为正样本的样本数的比例,即
代表推荐系统模型在分类任务中对正样本进行分类和预测的准确率。
精度和召回率是两个相互矛盾的指标即分类器为了提高精度,需要尽力在“更好的时间”将预测样本预测为正样本,但往往会因估计过于保守而失败。许多“不确定”的阳性样本被遗漏,导致召回率较低。
因此,为了综合反映查准率和查全率的结果,可以使用F1-score。F1-score表示精度和准确度的调和平均值。
其定义如下
3均方根误差RMSE和绝对百分比误差MAPE
均方根误差通常用于衡量回归模型的质量。
使用点击率预测模型构建推荐系统时,推荐系统实际上是预测样本为正样本的概率,可以使用RMSE来评估。
定义如下
其中,yi表示第i个样本点的真实值,后者括号内表示第i个点的预测值,n表示样本点的数量。一般情况下,RMSE可以非常友好地反映预测值与真实值的偏差程度。
但也有一个明显的缺点,那就是如果个别点的偏差程度很大,即使异常值很少,RMSE指数也会变得比较差。
因此,为了解决这个题,提出了更加鲁棒的平均绝对百分比误差MAPE。
MAPE的定义公式如下
与RMSE相比,MAPE对每个点的误差进行归一化,减少个别异常值带来的绝对误差的影响。
4对数损失函数LogLoss
对数损失函数LogLoss也经常被用作二元分类题中离线评估的指标。LogLoss定义如下
其中,yi为输入实例xi的真实类别,pi为预测的输入实例xi为正样本的概率,N为样本总数。
事实上,LogLoss就是逻辑回归的损失函数。大量深度学习模型的输出层是逻辑回归或softmax。因此,使用LogLoss作为评价指标可以非常直观地反映模型损失函数的变化。
一种对于观察模型收敛非常有用的评估指标。
4、线下评价方法及指标介绍
本文主要对日常策略产品工作中常用的离线推荐系统的评价方法和评价指标进行详细介绍。
线下评估是评估推荐系统最快的方式,但其缺点也很明显,即无法准确反馈模型策略变化对线上的影响,以及结合业务场景的指标效果。这些都是离线评估方法的缺点。
但同时,在线评估方式也会存在很多评估效率题。因此,推荐系统策略产品需要知道在什么场景下应该使用什么类型的评估方法,以达到准确性和效率之间的平衡。
离线评价方法和相应指标的文章也介绍了相应的优缺点。复杂的推荐系统需要对不同指标有全面的了解。
希望本文能够向大家介绍推荐系统评估的方法论建议。如果有帮助,请点赞、评论并保存。
本文最初由战略产品Arthur发表于《人人都是产品经理》。未经许可,禁止。
题图来自Unsplash,基于CC0协议
本文中的观点仅代表作者自己。人人产品经理仅提供信息存储空间服务。
文章关于策略产品经理干货系列之推荐系统离线评估方法与指标介绍,和一些关于绝对偏差怎么算的相关内容已讲解完毕,希望对各位网友有帮助。