文章目录
分类评价指标1. 基础概念解释 TP、TN、FP、FN2. FAR/FMR、FRR/FNMR(预测错误率)3. HTER4. Recall, Precision, Accuracy(预测正确率)5. ROC, TPR, FPR, AUC, EER6. APCER, NPCER(BPCER), ACER 活体检测评价指标7. 活体检测评价协议8. 模态融合策略9. 活体检测模态类型
分类评价指标
在学习活体检测(Face Anti Spoofing)期间总结的,因此后面会带一些相关的内容
1. 基础概念解释 TP、TN、FP、FN
这里T是True,F是False,P为Positive,N为Negative
TP:被模型正确地预测为正样本(原本为正样本,预测为正样本)
TN:被模型正确地预测为负样本(原本为负样本,预测为负样本)
FP:被模型错误地预测为正样本(原本为负样本,预测为正样本)
FN:被模型错误地预测为负样本(原本为正样本,预测为负样本)
预测情况预测情况实际情况正例反例正例TPFN反例FPTN
评价指标速查表
缩写公式含义FAR/FMR
F
A
R
=
F
P
F
P
+
T
N
FAR=\frac{FP}{FP+TN}
FAR=FP+TNFP负样本数据被预测错误的概率FRR/FNMR
F
R
R
=
F
N
F
N
+
T
P
FRR=\frac{FN}{FN+TP}
FRR=FN+TPFN正样本数据被预测错误的概率HTER
H
T
E
R
=
F
A
R
+
F
R
R
2
HTER=\frac{FAR+FRR}{2}
HTER=2FAR+FRR平均错误率Recall
R
e
c
a
l
l
=
T
P
T
P
+
F
N
Recall=\frac{TP}{TP+FN}
Recall=TP+FNTP正样本数据被预测正确的概率,数据召回率Precision
P
r
e
c
i
s
i
o
n
=
T
P
T
P
+
F
P
Precision=\frac{TP}{TP+FP}
Precision=TP+FPTP所有预测为正例的结果中,正确预测的占比Accuracy
A
c
c
u
r
a
c
y
=
T
P
+
T
N
T
P
+
T
N
+
F
N
+
F
P
Accuracy=\frac{TP+TN}{TP+TN+FN+FP}
Accuracy=TP+TN+FN+FPTP+TN所有预测中,正确占比,只适用样本正反例数量相当的情况TPR
T
P
R
=
T
P
T
P
+
F
P
TPR=\frac{TP}{TP+FP}
TPR=TP+FPTP所有预测为正样本的结果中,正确预测的概率FPR
F
P
R
=
F
P
F
P
+
T
N
FPR=\frac{FP}{FP+TN}
FPR=FP+TNFP所有预测为负样本的结果中,错误预测的概率EERROC曲线中
F
P
R
/
F
A
R
=
F
R
R
FPR/FAR=FRR
FPR/FAR=FRR的点Equal Error Rate,等错误率APCER
A
P
C
E
R
=
F
N
F
N
+
T
P
APCER=\frac{FN}{FN+TP }
APCER=FN+TPFN人脸反欺诈中,将攻击(正样本)识别为真实人脸(负样本)的概率,错误地分类攻击NPCER/BPCER
N
P
C
E
R
=
F
P
F
P
+
T
N
NPCER=\frac{FP}{FP+TN}
NPCER=FP+TNFP人脸反欺诈中,将真实人脸(负样本)识别为攻击(正样本)的概率,错误地分类真脸ACER
A
C
E
R
=
A
P
C
E
R
+
N
P
C
E
R
2
ACER=\frac{APCER+NPCER}{2}
ACER=2APCER+NPCER平均错误率
2. FAR/FMR、FRR/FNMR(预测错误率)
FAR(False Accept Rate 误判率),FRR(False Rejection Rate 误拒率)
FMR(False Match Rate 误判率),FNMR(False Non- Match Rate)
FAR(False Accept Rate):错误地接受,即将错误的判别为正确的,实际的标签为N,但是预测错误为P,所以对应FP。数据集中标签为N,但预测为P的样本占数据集中所有标签为N的比例。
F
A
R
=
F
P
F
P
+
T
N
,
F
A
R
有时也被称为
F
M
R
\nonumber FAR=\frac{FP}{FP+TN},FAR有时也被称为FMR
FAR=FP+TNFP,FAR有时也被称为FMR FRR(False Rejection Rate):错误地拒绝,即将正确的判别为错误的,实际的标签为P,但是预测错误为N,所以对应FN。数据集中标签为P,但预测为N的样本占数据集中所有标签为P的比例。
F
R
R
=
F
N
F
N
+
T
P
,
F
R
R
有时也被称为
F
N
M
R
\nonumber FRR=\frac{FN}{FN+TP},FRR有时也被称为FNMR
FRR=FN+TPFN,FRR有时也被称为FNMR
3. HTER
HTER:Half Total Error Rate,将FAR和FRR都考虑进去,通常应用于活体检测中。
H
T
E
R
=
F
A
R
+
F
R
R
2
\nonumber HTER=\frac{FAR+FRR}{2}
HTER=2FAR+FRR
4. Recall, Precision, Accuracy(预测正确率)
Recall: 召回率,即实际为P的样本中预测为P的样本
R
e
c
a
l
l
=
T
P
T
P
+
F
N
\nonumber Recall=\frac{TP}{TP+FN}
Recall=TP+FNTP 由以上可以得出:
R
e
c
a
l
l
+
F
R
R
=
1
\nonumber Recall + FRR = 1
Recall+FRR=1 Precision: 从预测的角度出发,被分为正例的样本中实际为正例的比例
P
r
e
c
i
s
i
o
n
=
T
P
T
P
+
F
P
\nonumber Precision = \frac {TP}{TP+FP}
Precision=TP+FPTP Accuracy: 准确率,即所有样本中预测正确的占比,计算方式为被分对的样本数除以总的样本数,通常来说,正确率越高,分类器越好。但是在正负样本不平衡的情况下,这个评价指标有很大缺陷。如在互联网广告里面,点击的数量是很少的,一般只有千分之几,如果用acc,即使全部预测成负类(不点击)acc也有 99% 以上,没有意义,因此它只适用于正负样本平衡情况。
A
c
c
u
r
a
c
y
=
T
P
+
T
N
T
P
+
T
N
+
F
N
+
F
P
\nonumber Accuracy=\frac{TP+TN}{TP+TN+FN+FP}
Accuracy=TP+TN+FN+FPTP+TN
5. ROC, TPR, FPR, AUC, EER
TPR (True Positive Rate):真正类率,即所有正样本中被分类器预测为正样本的个数。
T
P
R
=
T
P
T
P
+
F
P
\nonumber TPR=\frac{TP}{TP+FP}
TPR=TP+FPTP FPR (False Positive Rate):假正类率,即所有负样本中被分类器预测为正样本的个数。FPR和FAR表达式相同。
F
P
R
=
F
P
F
P
+
T
N
\nonumber FPR=\frac{FP}{FP+TN}
FPR=FP+TNFP
ROC (receiver operating characteristic curve):受试者工作特征曲线,简称ROC曲线),又称为感受性曲线(sensitivity curve)。
ROC曲线,其横坐标是FPR,纵坐标是TPR。虽然FPR与TPR表达式完全不一样,但由于样本总数是固定的,通过改变阈值能影响FPR与TPR的值。
我们总希望分类器TPR=1,FPR=0,ROC曲线就是一条直线。因此当ROC曲线越靠近理想直线,分类器的效果越好。
ROC本质上就是在设定某一阈值之后,计算出该阈值对应的TPR 和 FPR,便可以绘制出ROC曲线上的一个点。其正是通过不断移动分类器的“正例阈值”来生成曲线上的一组关键点的。
AUC(Area Under Curve):为ROC曲线下方的面积大小。显然,AUC越大,预测效果越好,一般AUC取值范围一般在0.5和1之间。
作为对ROC曲线的量化评价标准,一般情况下AUC越大的分类器效果越好。
AUC取值评价效果AUC=1完美分类器,无论什么阈值都能完美预测,一般不存在。0.5 EER:Equal Error Rate,指当阈值取某个值是FPR/FAR=FRR,此时该值即为EER。显然,ERR点越靠近(0,1)【其实是坐标轴变换后的原点】越好 将Y轴TPR倒过来看就是FRR的轴, 1 − T P R = 1 − T P T P + F N = F N T P + F N = F R R 1-TPR = 1-\frac {TP}{TP+FN} = \frac {FN}{TP+FN}=FRR 1−TPR=1−TP+FNTP=TP+FNFN=FRR 因此EER点可以看作FPR=FRR的点,EER点以下FRR越高系统安全性越好,EER以上FPR越高系统便捷性越高(用户容易访问系统),因此EER是一个根据需求调整阈值的参考点。 6. APCER, NPCER(BPCER), ACER 活体检测评价指标 在活体检测中,通常将攻击视为正样本,而真实人脸作为负样本 APCER:Attack Presentation Classification Error Rate,将攻击(正样本)识别为真实人脸(负样本),即将攻击错误分类。与FRR计算方式相同。 A P C E R = F N F N + T P \nonumber APCER=\frac{FN}{FN+TP } APCER=FN+TPFN NPCER:Normal Presentation Classification Error Rate,将真实人脸(负样本)识别为攻击(正样本),即将真实样本错误分类。与FAR计算方式相同。 N P C E R = F P F P + T N \nonumber NPCER=\frac{FP}{FP+TN} NPCER=FP+TNFP ACER:Average Classification Error Rate,平均分类错误率。 A C E R = A P C E R + N P C E R 2 \nonumber ACER=\frac{APCER+NPCER}{2} ACER=2APCER+NPCER 后面内容与活体检测(人脸反欺诈)有关,主要参考论文:Deep Learning for Face Anti-Spoofing: A Survey 这篇论文的GitHub地址:https://github.com/ZitongYu/DeepFAS 7. 活体检测评价协议 这里的类Type是攻击类别的意思 名称内容补充说明数据集内类内协议Intra-Dataset Intra-Type Protocol.测试和训练都用同一数据集,没有未知攻击被广泛用于评估模型在域轻微移动场景下的欺骗检测识别能跨数据集类内协议Cross-Dataset Intra-Type Protocol.测试和训练用不同数据集,没有未知攻击侧重于跨数据集级别的领域泛化能力的测量数据集内跨类协议Intra-Dataset Cross-Type Protocol.测试和训练都用同一数据集,在测试中设计未知攻击,协议采用“排除一种攻击类型”,即只在测试阶段出现一种攻击类型验证模型对未知攻击类型的泛化能力跨数据集跨类协议Cross-Dataset Cross-Type Protocol.测试和训练用不同数据集,在测试中设计未知攻击难度系数最高 8. 模态融合策略 策略方法优点 merit缺点 demeritearly fusion(input-level)直接融合输入(假设输入的shape一致,直接叠加输入)计算成本小容易丢失多模态特征late fusion(feature-level)在最终输出特征时剔除冗余数据进行融合灵活有效计算量较大,容易过拟合score level fusion(decision-level)对每个通道最终预测的得分进行融合(简单的有平均值(average)、最大值(maximum)、加权平均(weighted average),另外还有采用Logistics Regression的方法进行late fusion)预测可靠低效,需要为每个通道设计专门的模型hybrid approach 9. 活体检测模态类型 类型/Type优点/merit缺点/demeritRGB使用范围最广区分能力较差,对图像精度要求高Depth(TOF、SL)对2D攻击十分有效,大多手机中集成了TOF、SL等深度传感器对3D攻击区分度较低NIR有效得利用真实人脸和欺骗人脸之间的反射差异距离不能太远Thermal通过温度估计实现高效的FAS对透明面罩的区分度较差SWIR利用短波红外线测量人脸图像中的水分吸收来区分活体皮肤和非皮肤像素对于部分攻击性能下降Light Field能够较好地还原人脸深度信息传感器价格昂贵Polarization能够较好地获取反射/折射光信息传感器价格昂贵 文章链接
发表评论