👀모든 포스팅은 직접 이미지와 글을 작성하고 있습니다. 사용하실 때는 꼭 링크와 출처를 남겨주세요
🚨오류: 제1종 오류, 제2종 오류
제1종 오류와 제2종 오류를 이해하기 위해서는 가설의 종류와 가설을 채택함에 따라 일어날 수 있는 오류의 개념을 이해해야 한다. 제1종 오류와 제2종 오류는 오류의 두 가지 종류이기 때문이다.
📝가설의 종류
가설을 검정할 때, 우리는 첫번째 단계로 가설을 설정하게 된다. 이 때 두 가지 가설을 설정하게 되는데, 우리가 증명하고 싶은 가설은 '대립가설', 증명하고 싶은 가설의 반대 가설은 '귀무가설'이 된다.
대립가설과 귀무가설
증명하고 싶은 가설의 반대 가설이 왜 대립가설이 되지 않고 귀무가설이 될까? 헷갈릴 수도 있다. 다음의 정의를 보자.
- 귀무가설(null hypothesis, H0)
처음부터 버릴 것을 예상하는 가설, 가설의 내용은 보통 '차이가 없다' 이다.
귀무가설은 돌아갈 귀(歸), 없을 무(無)를 써서 귀무가설이다. - 대립가설(alternative hypothesis, H1)
귀무가설에 대립하는 명제
내가 이해하기에, 우리가 증명하고자 하는 명제가 변수 간의 관계이거나 비교일 때, 귀무가설은 '관계가 없다', '차이가 없다'는 식의 그라운드, 기준점을 깔아주는 것이다.
👻오류의 종류
두 가지 가설을 두고 둘 중 하나를 기각하거나 채택하는 경우는 몇 가지인가? 아래의 표를 보면 총 4가지로 구분된다는 것을 알 수 있다.
정리하면, 다음과 같다.
- 제1종 오류 (= 유의수준)
: 귀무가설이 참인데, 귀무가설을 기각한 경우
: 차이가 없는데 차이가 있다고 한 경우 - 제 2종 오류
: 대립가설이 참인데 귀무가설을 기각하지 않은 오류
: 차이가 있는데 없다고 한 경우
덧붙여, 두 가지 오류 중 데이터 분석을 할 때 더 치명적인 오류는 제1종 오류이다.
제품을 출시할 때 차이가 없는데 차이가 있다고 판단하여 제품을 출시한 경우에는 그 제품을 사용하는 사람들로 하여금 다른 제품을 사용할 기회를 놓치게 하는 것이고 효과를 가진 다른 방식을 개발할 기회도 잃게 만들기 때문이다.
예컨대, 신약개발과 환자의 치료라는 케이스에 대입해서 생각해보면 제1종오류를 범했을 때 실제로 매우 치명적일 수 있다는 것을 알 수 있다.
🅿P값(p-value)
Q. p값 (p-value)는 무엇인가요?
📊P값(p-value)이란?
p값(p-value)
: 귀무가설이 옳다는 가정 하에서 우리가 관찰한 결과 혹은 그 이상으로 귀무가설에 반하는 데이터가 나올 확률
p값은 사실 우리가 검증하고자 하는 가설이 참이 아닌데(= 귀무가설이 참인데) 실수로 가설이 참이 되는 데이터가 나올 확률이다. 이것이 작으면 작을수록 우리가 '오해'를 할 확률이 줄어드는 것이다.
그런데 어느정도까지 이 '오해할 확률'이 줄어들어야 우리가 대립가설을 참이라고 볼 수 있을까?
🪄P값을 활용한 판단
p값과 비교하여 가설의 유의함을 판단할 기준은 유의수준이다.
이 유의수준은 업계에 따라 다르지만 보통 0.1 ~0.01 사이에서 정의하며 0.05로 두는 것이 일반적이다.
p값과 유의수준을 통한 판단은 다음과 같이 할 수 있다.
판단 1) p값이 유의수준 보다 작으면(p값<0) 귀무가설을 기각(reject) -> 통계적으로 유의미한 차이가 있다.
판단 2) p값이 유의수준 보다 크면(p값>0) 귀무가설을 기각할만한 충분한 근거가 없다.
'👩🏻💻TECH > 개념정리' 카테고리의 다른 글
[개념정리] 고객생애가치(LTV) (1) | 2024.09.11 |
---|---|
[개념정리] RFM 분석 (0) | 2024.09.07 |
[개념정리] 차원의 저주와 차원축소(PCA 설명) (0) | 2024.09.05 |
[개념정리] 절대경로와 상대경로 (0) | 2024.09.02 |
[개념정리] 데이터 전처리 방법 (3) | 2024.09.02 |