评估指标就像我们用来了解机器学习模型工作得有多好的测量工具。它们帮助我们比较不同的模型,并找出哪个模型对特定任务效果最好。在分类问题的世界中,有一些常用的度量指标来评估模型的好坏,了解哪个指标适用于我们具体的问题非常重要。当我们掌握每个指标的细节后,就更容易决定哪个指标符合我们任务的需求。
在本文中,我们将探讨分类任务中使用的基本评估指标,并讨论某些情况下哪个指标可能比其他指标更相关。
基本术语
在我们深入研究评估指标之前,了解与分类问题相关的基本术语至关重要。
基准真相标签:这些是与数据集中的每个示例对应的实际标签。这些标签是所有评估和预测与这些值进行比较的基础。
预测标签:这些是使用机器学习模型对数据集中的每个示例预测的类别标签。我们使用不同的评估指标将这些预测与真实标签进行比较,以计算模型是否能够学习我们数据中的表示。
现在,让我们只考虑一个二分类问题,以便更容易理解。在我们的数据集中只有两个不同的类别,将真实标签与预测标签进行比较可能会得出以下四种结果,如图示。
真正类:模型在真实标签也为正时预测为正类标签。这是所需的行为,因为模型可以成功预测为正标签。
假正类:模型在真实标签为负时预测为正类标签。模型错误地将一个数据样本标识为正。
假负类:模型在真实样本为正的情况下预测为负类标签。模型错误地将一个数据样本标识为负。
真负类:也是所需的行为。模型正确地识别负样本,在一个地样本的真实标签为0时预测为0。
现在,我们可以基于这些术语来了解常见的评估指标的工作原理。
准确性
这是评估分类问题模型性能最简单且直观的方法。它衡量模型正确预测的标签占总标签数量的比例。
因此,准确性可以根据以下公式计算:
或者
何时使用
初始模型评估
由于其简单性,准确性是一个广泛使用的指标。在我们使用与问题域相关的度量指标之前,它可以为我们验证模型是否能学习得很好提供一个良好的起点。
平衡数据集
准确性只适用于各类别标签比例相似的平衡数据集。如果不是这种情况,而某个类别标签明显超过其他类别,模型可能通过始终预测多数类来达到高准确性。准确性指标对每个类别的错误预测进行平等惩罚,因此对于不平衡的数据集来说不适用。
当误分类成本相等时
准确性适用于假正类和假负类都同样糟糕的情况。例如,对于情感分析问题,如果我们将一个负面文本分类为正面或将一个正面文本分类为负面,这都是同样糟糕的。对于这种情况,准确性是一个好的指标。
精确度
精确度关注确保我们所有的正预测都是正确的。它衡量正预测中实际为正的比例。
在数学上,它表示为
何时使用
假正类的成本很高
考虑一个情景,我们正在训练一个用于检测癌症的模型。对于我们来说,不误分类没有癌症的患者(即假正类)更重要。我们希望在进行正面预测时具有一定的信心,因为错误地将一个人分类为癌症阳性可能会导致不必要的压力和开销。因此,我们高度重视仅在实际标签为正时才预测为正标签。
质量优先于数量
考虑另一种情况,我们正在构建一个将用户查询与数据集匹配的搜索引擎。在这种情况下,我们希望搜索结果与用户查询紧密匹配。我们不希望返回任何与用户无关的文档,即假正类。因此,我们只对与用户查询紧密匹配的文档进行正预测。我们重视质量而不是数量,因为我们更喜欢少数紧密相关的结果,而不是可能与用户相关也可能不相关的大量结果。对于这种情况,我们希望精确度高。
召回率
召回率,也称为敏感性,衡量模型能够记住数据集中的正标签的好坏。它衡量我们的数据集中模型预测为正的正标签的比例。
何时使用
假负类的成本很高
我们使用召回率当错过一个正标签可能会带来严重后果时。考虑一个情况,我们使用机器学习模型来检测信用卡欺诈。在这种情况下,早期发现问题是至关重要的。我们不希望错过一个欺诈交易,因为它可能会增加损失。因此,我们重视召回率而不是精确度,在这种情况下,将交易错误地分类为欺诈交易可能很容易验证,而且我们可以容忍一些假正类超过假阴类。
F1分数
它是精确度和召回率的调和平均值。它惩罚在精确度和召回率之间存在显着不平衡的模型。
何时使用
不平衡数据集
与准确性不同,F1分数适用于评估不平衡的数据集,因为我们根据模型在保持整体高精确度的同时能正确预测少数类别的能力来评估性能。
精确度-召回率权衡
这两个指标互为相反。经验证,改进一个指标通常会导致另一个指标的降低。F1分数有助于平衡这两个指标,并在需要同时考虑召回率和精确度的情况下非常有用。将这两个指标考虑在内进行计算,F1分数是评估分类模型的常用指标。
关键要点
我们学到了不同的评估指标有特定的任务。了解这些指标有助于我们为我们的任务选择合适的指标。在真实世界中,重要的不仅仅是拥有好的模型,更重要的是拥有适合我们业务需求的模型。因此,选择正确的指标就像选择正确的工具,确保我们的模型在最重要的地方表现良好。
对于不确定使用哪个指标,从准确性开始是一个很好的初步步骤。它可以提供对模型性能的基本了解。然后,你可以根据具体要求调整评估。或者,考虑使用F1分数,它作为一种多功能指标,精确度和召回率之间取得平衡,适用于各种情况。