Precision, Recall, F1-score, Accuracy, ROC-AUC, G-measure

티스토리 뷰

내가 모르는 내용 정리

Precision, Recall, F1-score, Accuracy, ROC-AUC, G-measure

jiwon.dev 2020. 6. 30. 13:43

본 내용은 sumniya.tistory.com/26 블로그 내용 중 필자가 필요한 내용만을 뽑아왔습니다.

1. Precision

정밀도란 모델이 True라고 분류한 것 중에서 실제 True인 것의 비율입니다. 즉, 아래와 같은 식으로 표현할 수 있습니다.

2. Recall

재현율이란 실제 True인 것 중에서 모델이 True라고 예측한 것의 비율입니다.

즉, Precision이나 Recall은 모두 실제 True인 정답을 모델이 True라고 예측한 경우에 관심이 있으나, 바라보고자 하는 관점만 다릅니다. Precision은 모델의 입장에서, 그리고 Recall은 실제 정답(data)의 입장에서 정답을 정답이라고 맞춘 경우를 바라보고 있습니다.

Precision과 Recall은 상호보완적으로 사용할 수 있으며, 두 지표가 모두 높을 수록 좋은 모델입니다.

3. Precision and Recall

조금 더 직관적으로 벤다이어그램으로 두 관계를 생각해볼 수 있습니다.

A는 실제 날씨가 맑은 날입니다. 그리고 B는 모델에서 날씨가 맑은 날이라고 예측한 것입니다. 이때 b의 영역은 TP로 실제 맑은 날씨를 모델이 맑다고 제대로 예측한 영역입니다. 이러한 영역 상에서 Precision과 Recall은 다음과 같습니다.

모델의 입장에서 모두 맑은 날이라고만 예측하는 경우를 생각해봅시다. 그렇게 되면 TN(d)의 영역이 줄어들게 되고 그에 따라 FN(a)의 영역 또한 줄게 됩니다. 그러므로 Recall은 분모의 일부인 FN(a)영역이 줄기 때문에 Recall은 100%가 됩니다. 즉, 여기서 A⊂B인 관계를 형성합니다. 하지만, 주의할 것은 단순히 a의 영역만 줄어드는 것이 아니라 d의 영역과 a의 영역이 모두 c로 흡수된다는 것입니다. Precision의 경우에는 기존보다 FP(c)의 영역이 커져 Precision은 줄게 됩니다. 이해가 안된다면 다음 표로 이해해보겠습니다.

General Case에서 Recall은 20 / 50 = 40%, Precision = 20 / 60 = 33.3% 입니다. 그리고 분류모델이 모두 True라고 예측한 오른쪽의 case에서의 recall은 FN = 0이므로 100%이지만 그에 따라 FP가 늘어서 precision은 20/100 = 20%가 되었습니다. 이처럼 precision과 recall은 모두 높은 것이 좋지만, trade-off 관계에 있어서 함께 늘리기가 힘듭니다.

4. Accuracy

이제는 또 관점을 다르게 생각해봅시다. 사고의 확장이 빠른 사람들은 예상했겠지만, 위 두 지표는 모두 True를 True라고 옳게 예측한 경우에 대해서만 다루었습니다. 하지만, False를 False라고 예측한 경우도 옳은 경우입니다. 이때, 해당 경우를 고려하는 지표가 바로 정확도(Accuracy)입니다. 식으로는 다음과 같이 나타냅니다.

정확도는 가장 직관적으로 모델의 성능을 나타낼 수 있는 평가 지표입니다. 하지만, 여기서 고려해야하는 것이 있습니다. 바로 domain의 편중(bias)입니다. 만약 우리가 예측하고자 하는 한달 동안이 특정 기후에 부합하여 비오는 날이 흔치 않다고 생각해보죠. 이 경우에는 해당 data의 domain이 불균형하게되므로 맑은 것을 예측하는 성능은 높지만, 비가 오는 것을 예측하는 성능은 매우 낮을 수 밖에 없습니다. 따라서 이를 보완할 지표가 필요합니다.

5. F1-Score

F1 score는 Precision과 Recall의 조화평균입니다.

F1 score는 데이터 label이 불균형 구조일 때, 모델의 성능을 정확하게 평가할 수 있으며, 성능을 하나의 숫자로 표현할 수 있습니다. 여기서 단순 산술평균으로 사용하지 않는 이유는 무엇일까요? 우리가 평균 속력을 구할 때, 이 조화평균의 개념을 사용해 본 경험이 있을 것입니다. 조화평균의 본질에 대해 이해해보겠습니다.

6. ROC-AUC

ROC curve

여러 임계값들을 기준으로 Recall-Fallout의 변화를 시각화한 것입니다. Fallout은 실제 False인 data 중에서 모델이 True로 분류한, 그리고 Recall은 실제 True인 data 중에서 모델이 True로 분류한 비율을 나타낸 지표로써, 이 두 지표를 각각 x, y의 축으로 놓고 그려지는 그래프를 해석합니다. 아래 예시를 보자.

curve가 왼쪽 위 모서리에 가까울수록 모델의 성능이 좋다고 평가합니다. 즉, Recall이 크고 Fall-out이 작은 모형이 좋은 모형인 것입니다. 또한 y=x 그래프보다 상단에 위치해야 어느정도 성능이 있다고 말할 수 있습니다.

AUC

ROC curve는 그래프이기 때문에 명확한 수치로써 비교하기가 어렵습니다. 따라서 그래프 아래의 면적값을 이용합니다. 이것이 바로 AUC(Area Under Curve)입니다. 최대값은 1이며 좋은 모델(즉, Fall-out에 비해 Recall 값이 클수록) 1에 가까운 값이 나옵니다.

7. G-measure

논문[2] 에서 G-measure에 대해 설명해주고 있으니 참고!

8. G-mean

> PD : the Probability of Detection (PD), called recall

결함 클래스 내에서 올바르게 분류된 결함 모듈의 백분율 => 결함인데, 결함이라고 분류된 것들의 비율

> PF : the Probability of False Alarm (PF)

결함이 아닌 클래스 내에서 잘못 분류된 비결함 모듈의 비율 =>결함이 아닌데, 결함이라고 분류된 것들의 비율

자세한 내용을 알고 싶으면, 해당 논문 찾아보기

- M. Kubat and S. Matwin, Addressing the curse of imbalanced training sets: One-sided selection, pp. 179–186, 1997

- Ryu, Duksan, and Jongmoon Baik. "Effective Harmony Search-Based Optimization of Cost-Sensitive Boosting for Improving the Performance of Cross-Project Defect Prediction." KIPS Transactions on Software and Data Engineering 7.3 (2018): 77-90.

Reference

[1] sumniya.tistory.com/26

[2] Sun, Ying, et al. "Adversarial Learning for Cross-Project Semi-Supervised Defect Prediction." IEEE Access 8 (2020): 32674-32687.

'내가 모르는 내용 정리' 카테고리의 다른 글

VAE(Variational AutoEncoder) (0)	2020.07.02

공지사항

최근에 올라온 글

최근에 달린 댓글

step by step

티스토리 뷰

Precision, Recall, F1-score, Accuracy, ROC-AUC, G-measure

'내가 모르는 내용 정리' 카테고리의 다른 글

티스토리툴바