-
Confusion matrix 혼동 행렬Statistics 2021. 2. 4. 15:51
Confusion matrix. 혼동행렬, 혼동이라는 말이 붙은 이유는 실제 현상을 예측할 때 얼마나 혼동했는지 알아보기 위한 행렬이라 그런 이름이 붙어짐.
통계 가설 검정이나 머신러닝에서 어떤 사건에 대하여 의사결정을 할 때, 우리는 그 예측이 맞고 틀렸는지 알아보는 것이 중요하다.
TRUE, FALSE는 판단이 맞고 틀림에 대한 것이고, positive, negative는 이진분류에서 두가지 경우의 수를 나타내는 말로 어떤 것을 예측했는지에 대한 것이다.
TRUE: 예측이 맞았다.
FALSE: 예측이 틀렸다.
positive: 사건을 positive라 예측
negative: 사건을 negative라 예측
<Confusion matrix>
TRUE FALSE positive
(라고 예측)TP: TRUE Positive
Positive라고 예측한 것이 실제로 맞는 것이다.
(참 예측)FP: FALSE Positive
Positive라고 예측한 것이 실제로는 틀렸다.
(허위 예측)negative
(라고 예측)TN: TRUE Negative
Negative라고 예측한 것이 실제로 맞는 것이다.
(참 예측)FN: FALSE Negative
Negative라고 예측한 것이 실제로는 틀렸다.
(허위 예측)이와 비슷한 내용이 통계학에서 가설 검정을 배울 때 나온다.
표본에 의한 결정 H0 참 H1 참 H0 기각 H0을 잘못기각함
α (제 1종 오류)
= P(reject H0 | H0 is TRUE)옳은 결정
1-βH0 채택 옳은 결정
1-αH0을 잘못 채택함
β (제 2종 오류)
= P(do not reject H0 | H1 is TRUE)예전에 손 교수님 통계학개론 수업 때 '제 1종 오류'에 관해서 배울 때 처음 봤던게 기억이 난다. 그때는 정말 혼동이였는데... 설마 그래서 Confusion,,? 아니다. 서두에 설명했던대로다.
혼동행렬을 보고 내가 혼동되지 말자.
참고문헌.
danbi-ncsoft.github.io/study/2018/10/04/p-hacking.html (p-해킹이란 무엇인가? -NC soft DANBI blog)
developers.google.com/machine-learning/crash-course/classification/true-false-positive-negative?hl=ko (분류: 참 대 허위, 양성 대 음성 -머신러닝, Google Developers)
R을 활용한 통계학 이론과 응용, 김동희 외 8인, 자유아카데미
반응형