-
03. CDA 확증적 데이터 분석카테고리 없음 2024. 1. 8. 19:54
1.
통계적 가설 검정을 통해, 규명하고자 하는 사실을 객관적으로 입증하는 통계적 분석 기법
- 귀무가설 : 대립가설의 반대, 일반적인 사실, 보통상태
- 대립가설 : 규명하고자 하는 사실, 의심하는 명제, 이상상태
- P.value (확률값) : 귀무가설이 참일 확률 (0~1사이의 값을 가짐)
확률값을 통해 귀무가설이 맞는지, 대립가설이 맞는지를 판단.
- 유의수준 (알파, 0.05, 5%) : 판단기준이 되는 값
- P.value < 유의수준: 대립가설이 참
- P.value > 유의수준: 귀무가설이 참
- 그러면 P.value는 어떻게 계산하는가?
- 데이터 타입에 따라 달라짐.
Ex) 매장 고객데이터, 성별에 따라 구매금액에 유의미한 차이가 있는지?
-> 성별에 따라 구매금액에 유의미한 차이가 있다. (대립가설)
-> 성별에 따라 구매금액에 유의미한 차이가 있다. (귀무가설)
2. P.value 계산하기
1) 단일변수
- 연속형: 정규성 검정 (Normal Test) / 단일 표본 검정 (one sample T Test)
- 범주형: 비율 검정
2) 다변수
- x : 범주형 / y: 연속형 : 집단 간 통계량 비교 (Two Sample T Test / ANOVA / Rank Sum..)
y가 정규분포인가 아닌가에 따라 검증기법이 또 달라짐
- x : 연속형 / y: 연속형 : 두 항목간 상관성 (정비례 / 반비례) 규명하는 상관분석
- x : 범주형 / y: 범주형 : 두 항목이 서로 독립적인가 또는 연관성이 있는가? (chi square test)