본문 바로가기

자격증/빅분기 실기

미션5. 카이제곱 적합도 검정

1. 검정 통계량?
2. p-value?
3. 유의수준 하 귀무가설 기각 또는 채택?

문제: [캐글] 적합도 검정

참고 강의: 인프런 퇴근후딴짓 섹션8

 

 


카이제곱 적합도 검정

고등학교에서는 졸업생들이 선택하는 대학 전공 분야의 선호도가 시간이 지남에 따라 변하지 않는다고 가정합니다. 학교 측은 최근 졸업생들의 전공 선택이 과거와 같은 패턴을 따르는지 알아보기 위해 적합도 검정을 실시하기로 결정했습니다.

 

과거 자료에 따르면 졸업생들이 선택하는 전공의 분포는 다음과 같습니다:

인문학: 20% 사회과학: 30% 자연과학: 25% 공학: 15% 기타: 10%

 

올해 졸업한 학생 200명의 전공 선택 분포는 다음과 같았습니다:

인문학: 30명 사회과학: 60명 자연과학: 50명 공학: 40명 기타: 20명

 

이 데이터를 바탕으로, 졸업생들의 전공 선택 패턴이 과거와 유사한지를 알아보기 위해 카이제곱 적합도 검정을 실시해야 합니다. 유의 수준은 0.05로 설정합니다.


결론부터 말하자면 아직 개념에 대한 이해가 부족하여 관측값과 기대값을 반대로 입력해 아주 처참한 결과가 나왔답니다..

그래도 정답도 첨부해주신 덕분에 제가 틀렸다는걸 알 수 있어서 참 다행이에요!

* 이번 미션 역시 값들은 소수점 셋째자리까지만 표시했습니다.

 

우선 틀린 풀이부터 보실까요 ^-^

어떤 함수써야하는지 알아차렸다는 점은 good이에요. 하지만 개념 파악이 부족한 you... i am 실망이에요

 

이 때 관측값졸업생이 선택한 전공분포(%), 기대값에 올해 졸업생 200명이 선택한 전공분포를 채웠습니다.

 

이제보니 이상한 점이 한 두 가지가 아닙니다.

- 기대값을 구할 때, 비율로 나타내야 한다고 생각해 30/2, 60/2, ...를 적용해 위의 expected_value 리스트를 채웠는데요

지금 생각해보니 어딘가 앞뒤가 안 맞네요. '비율'이면 30/200을 적용해 0.15와 같이 썼어야 했을텐데 말이죠!

- 게다가 제가 쓴 주석에서도 '값' 리스트를 구하고 싶어했는데 왜 비율을 구했을까요...?

 

관측값현재의 자료, 기대값은 이러하리라 예상되는 것, 즉 과거의 자료로 대입하면 더 이해하기 쉬울 것 같아요.

관측값올해 졸업생 200명이 선택한 전공분포로, 기대값졸업생이 선택한 전공분포(%)로 채워야 올바르겠네요!

강의에서도 강조해주셨지만 적합도 검정에서는 빈도를 사용해줍니다. 즉 관찰도수와 기대도수의 차이를 살펴봐야하기 때문에 비율을 값(빈도,count)으로 변경해야해요!

 

이렇게 제가 문제를 풀 때 일어난 두 가지 오류를 교정해주면 다음과 같은 코드로 답을 구할 수 있겠습니다.

검정통계량과 p-value가 변한 것을 확인할 수 있습니다.

올바른 풀이에서도 p값이 유의수준 0.05보다 크므로 귀무가설을 기각할 수 없습니다.

즉 졸업생들의 전공 선택 패턴은 과거와 유사합니다!


강의를 찾아보며 겨우겨우 미션5까지 완수했네요 다음부터는 꼭 밀리지 않고 제때제때 하겠어요

오늘의 궁금증은 귀무가설에도 '채택'이라는 용어를 사용할 수 있는가?인데요

이거는 구글링을 좀 해본 후 TIL에 올리도록 하겠습니다. 작성하면 링크 연결할게요!