单一数字评估指标(single-number evaluation metric)的一个例子是分类问题的准确率(accuracy):你在开发集上运行分类器,分类器会返回一个表示分类准确率的单个数字。通过这个指标,如果分类器A是97%的准确率,分类器B是90%的准确度,我们会判断分类器A更好一些。
相反,精确率(Precision)和召回率(Recall)不是单一数字评估指标,评估分类器是返回了两个数字。多个数字的评估指标很难比较算法的优劣。例如两个算法的表现如下图所示:
这里,两个算法都很优秀,但是无法判断那一个更胜一筹。
在开发过程中,你的团队会尝试很多想法:算法架构,模型参数,特征选择等等。使用单一数字评估指标(比如准确率),可以让你对不同的模型和算法根据评估指标进行排序,快速找出性能最优的。

当你需要在大量分类器中进行选择时,采用单一数字评估指标可以增加你做出决定的能力。它对分类器进行偏好排名,因此很容易做出选择。
作为最终的例子,假设你在四个关键市场((i)美国 (ii)中国 (iii)印度 (iv)其他)独立的跟踪猫分类器的准确度。这会得出四个数字。通过对这四个数字进行平均或加权平均,你会得到一个单一数字。采用平均值或者加权平均值作为单一数字评估指标是合并多个评估指标的最常见的方式。
网友评论