ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • Confusion matrix 혼동 행렬
    Statistics 2021. 2. 4. 15:51

    Confusion matrix. 혼동행렬, 혼동이라는 말이 붙은 이유는 실제 현상을 예측할 때 얼마나 혼동했는지 알아보기 위한 행렬이라 그런 이름이 붙어짐.

     

    통계 가설 검정이나 머신러닝에서 어떤 사건에 대하여 의사결정을 할 때, 우리는 그 예측이 맞고 틀렸는지 알아보는 것이 중요하다.

    TRUE, FALSE는 판단이 맞고 틀림에 대한 것이고, positive, negative는 이진분류에서 두가지 경우의 수를 나타내는 말로 어떤 것을 예측했는지에 대한 것이다.

     

    TRUE: 예측이 맞았다.

    FALSE: 예측이 틀렸다.

    positive: 사건을 positive라 예측

    negative: 사건을 negative라 예측

     

    <Confusion matrix>

      TRUE FALSE
    positive
    (
    라고 예측)
    TP: TRUE Positive

    Positive라고 예측한 것이 실제로 맞는 것이다.
    (참 예측)
    FP: FALSE Positive

    Positive라고 예측한 것이 실제로는 틀렸다.
    (허위 예측)
    negative
    (
    라고 예측)
    TN: TRUE Negative

    Negative라고 예측한 것이 실제로 맞는 것이다.
    (참 예측)
    FN: FALSE Negative

    Negative라고 예측한 것이 실제로는 틀렸다.
    (허위 예측)

     

     

     

    이와 비슷한 내용이 통계학에서 가설 검정을 배울 때 나온다.

     

    표본에 의한 결정 H0 참 H1 참
    H0 기각 H0을 잘못기각함 
    α (제 1종 오류)
    = P(reject H0 | H0 is TRUE)
    옳은 결정
    1-β
    H0 채택 옳은 결정
    1-α
    H0을 잘못 채택함
    β (제 2종 오류)
    = P(do not reject H0 | H1 is TRUE)

     

     

     

     

     

    예전에 손 교수님 통계학개론 수업 때 '제 1종 오류'에 관해서 배울 때 처음 봤던게 기억이 난다. 그때는 정말 혼동이였는데... 설마 그래서 Confusion,,? 아니다. 서두에 설명했던대로다.

     

    혼동행렬을 보고 내가 혼동되지 말자.

     

     

     

    참고문헌.

    danbi-ncsoft.github.io/study/2018/10/04/p-hacking.html (p-해킹이란 무엇인가?  -NC soft DANBI blog)

    developers.google.com/machine-learning/crash-course/classification/true-false-positive-negative?hl=ko (분류: 참 대 허위, 양성 대 음성  -머신러닝, Google Developers)

    R을 활용한 통계학 이론과 응용, 김동희 외 8인, 자유아카데미

    반응형

    댓글

Designed by Tistory.