-
데이터 받으면 가장먼저 확인할 것To infinity/Data analysis 2024. 1. 1. 17:50
1. 전체를 대표할 만한 값은 무엇인가?
- (산술)평균: mean
- 중앙값: median (순서상으로 중앙에 존재하는 값)
* 극단적인 이상치가 있다면 median이 유용하다.
- 최빈값 mode (범주형으로 변경 후 갯수를 count)
2. 얼마나 퍼져 있는가? (산포)
퍼져 있는 모양은 어떠한가?
- 범위(range)
- 표준편차, 분산 std/variance
- 비대칭성 skewness
따라서,
데이터를 받으면 가장먼저 할 것 : 컬럼별로 데이터 특징을 요약하기.
전체갯수
대표값 확인
연속형: 평균, 중앙값 확인
범주형: 항목별 빈도수
3. 시각화의 필요성: 통계량이 같으면 같은 데이터일까?
각 dataset의 합계, 평균, 표준편차,
'To infinity > Data analysis' 카테고리의 다른 글
데이터 시각화 분석이 처음이니까. (0) 2024.01.01 Kaggle Titanic analysis #1 Pclass (0) 2024.01.01 library (0) 2024.01.01 Data analysis 101. 기초 용어 (정형, 비정형, 연속, 범주, 데이터프레임) (0) 2024.01.01 Prologue. Kaggle Titanic analysis 캐글 타이타닉 분석 (0) 2023.12.31