본문 바로가기
[컨설팅] AI 모델 학습 및 자동화

[AI] 모델을 평가하는 방법

by milkclub 2024. 5. 29.
728x90

1. Confusion Matrix

모델의 성능을 오차행렬 기반의 수치로 나타낸 것이다.

머신러닝 및 통계 분석에서 사용되는 평가 지표 중 하나로, 분류 모델의 성능을 평가하는 데 사용된다. (일반적으로 이진분류에서 주로 사용)

  • TP(True Positive) : 양성(Positive)으로 예측 = 실제로 양성인 경우의 수
  • TN(True Negative) : 음성(Negative)으로 예측 = 실제로 음성인 경우의 수
  • FP(False Positive) : 양성으로 예측 ≠ 실제로는 음성인 경우의 수
  • FN(False Negative) : 음성으로 예측 ≠ 실제로는 양성인 경우의 수

2. 정확도(Accuracy)

모델이 예측한 결과와 실제 결과가 얼마나 일치하는지를 나타내는 비율 (가장 직관적이다)

30일 중 비 오는 날이 2일인 경우, 비가 오는 것에 대한 정확도는 (2/30)이므로 성능이 매우 낮다고 나온다. 클래스 불균형이 있기 때문에 성능 측정이 제대로 되지 않는 것이다. 이럴 경우에는 F1-score, precesion, recall 등을 고려하여 성능을 평가해야 한다.

정확도를 사용할 때는 클래스 불균형이 없는 경우 사용해야 한다.

3. 정밀도(Precision)

True라고 예측한 것 중에 실제로 True인 것의 비율

높을수록 예측이 정확하다는 것을 의미한다.

4. 재현율(Recall)

실제 True인 것 중에 True라고 예측한 것의 비율

False Negative : 모델이 암이 아니라고 했는데, 틀린 경우

재현율은 True(양성)을 놓치지 않아야 하는 경우 중요하게 사용된다.

(스팸메일 분류, 암환자 진단)

5. F1-score

정밀도와 재현율의 조화 평균(harmonic mean)으로 계산되는 지표

정밀도와 재현율을 모두 고려해야 하는 경우 사용한다.

두개 모두 적절하게 좋아야 F1-Score 값이 크게 나오며, 클래스 불균형(imbalanced data)이 있는 경우 적합하다.

728x90