본문 바로가기
반도체 이모저모

확률적 가설 검정 간단한 용어 정리 (귀무가설, 대립가설, 신뢰수준, 유의수준, 유의 확률, 양측 검정, 자유도, t-test)

by 전컴반 2021. 9. 7.
반응형

바로 들어가겠다.

 

가설 검정이란, 완벽한 증명(100% 맞는 것)은 아니나 신뢰성('그럴 것이다')을 제공하는 것이다. 귀무가설과 대립 가설을 설정하고 통계적 데이터를 기반으로 가설이 맞는지를 테스트한다.

 

예를 들면 주사위를 던져서 6을 연속 5번이 나왔다면 이게 우연인지, 던진 사람이 실력 있는 육잡인건지, 또, 약을 먹어서 나았다면 약 효과로 나은 건지, 원래 나을 사람이 나은 건지, 이런 것들의 가설이 맞냐 틀리냐를 정하는 것이다.

 


 

귀무가설(H0)

- 기각될 것으로 기대하는 가설이다.

- (차이가 없다, 영향력이 없다, 연관성이 없다, 효과가 없다)라고 말한다

 

대립 가설(H1)

- 직접 증명이 어려우므로 귀무가설의 기각을 통해 간접적으로 증명한다.

 


 

뭔 소린지 감이 안 온다. 예를 들어보자 만약 가설이, "주사위를 5번 던져서 모두 6이 나올 수 있다"라고 세웠다 하자.

 

가설 설정 : "주사위를 5번 던져서 모두 6이 나올 수 있다"

귀무가설(H0) : "주사위를 5번 던져서 모두 6이 나올 수 없다"

대립 가설(H1) : "주사위를 5번 던져서 모두 6이 나올 수 있다"

 

이렇게 가설이 설정된다. 그럼 우린 귀무가설이 맞는지로 검증한다. 이런 증명은 어떻게 하는지 알아보자. 

 


 

신뢰 수준

- 얼마나 빡빡하게 가설을 검정할 것인지 임의로 설정한다. 보통 90%(설문조사), 95%(일반적), 99%(연구) 이렇게 설정한다. 높을수록 조건을 타이트하게 설정하는 것이다. 99%라고 하면 100번 중에 99번은 맞아야 된다는 말이다. 

 

유의 수준

- 귀무가설이 오류라고 판단할 기준이 되는 척도이다. 내가 만약 5%로 설정했다면 95%의 신뢰 수준을 가진다. 즉, 유의 수준+신뢰 수준 = 100 %

 

유의 확률(p-value)

- 유의 확률이 유의 수준보다 작으면 귀무가설을 기각하나, 유의 수준보다 크면 귀무가설을 채택한다. 

 

자유도

- 표본수 -1이다. 요정도로만 알아두자.

 


 

남성의 평균 키가 175가 아니라는 가설을 검증한다고 할 때, 10개 표본의 평균이 185이고 표준편차가 5인 경우를 예로 들어보자. 그러면, 아래와 같이

 

귀무가설 : 남성의 평균 키는 175다

대립 가설 : 남성의 평균 키는 175가 아니다

 

검정 통계량(t) = (185-175)/5  =  2

자유도 = 10-1 = 9 

 

이 예는 양측 검정인데 양측 검정이란, 175보다 클 수도 있고(1), 작을 수도 있고(2) 이렇게 양측이다. 그래서 유의 수준 2.5% 안에만 들어가도 틀렸다고(귀무가설을 기각) 본다.

 

 

확률은 따라서 0.5가 양측이니 0.25로 본다. 자유도는 9이니, 기각력은 2.262이다. 

 

 

검정 통계량인 2로 2.262 보다 작다. 따라서, 우린 귀무가설을 기각할 수 없다. 즉, 175라는 것을 버릴 수 없다는 것이고 귀무가설을 채택한다는 뜻이고 남성의 평균 키는 175라는 가설이 맞다는 것이다.  

 


 

t-test

- 샘플의 평균치가 동일한 모집단에서 추출되었는지 검증하는 것으로 데이터의 분표가 같은 속성(평균, 표준편차 등등)을 갖고 있느냐 판다는 것. 두 집단 간이 평균 차이가 없다는 영가설과 두 집단의 평균에는 차이가 있다는 대립 가설 중 하나를 채택하는 방식이다.

 

 

이처럼 간단히 확률 가설 용어를 알아봤다

반응형

댓글