-
1. 시각화 기법 : 단일변수 (histogram, countplot)To infinity/Data analysis 2024. 1. 1. 19:32
시각화기법은 변수의 속성에 따라 사용방법이 대략 정해져 있다.
1. 변수가 1개인 단일변수 일 경우에는
1) 연속형 데이터인 경우에는 Histogram
2) 범주형 데이터인 경우에는 Countplot
을 사용한다.
연속형 데이터란,
숫자와 같이 연속으로 발생하는 데이터이고
범주형 데이터란,
문자열과 같이 구분된?데이터이다.
그냥 지금은 간단하게 연속형 = 숫자, 범주형 = 문자 로 생각하면 될 듯 하다.
2.
Histogram으로는 연속형 데이터의 각 데이터 구간의 빈도의 분포를 알 수 있다.
예를 들어, 몸무게가 40 ~ 100kg인 사람들의 각 몸무게별 분포를 보고 싶다면,
x축에 몸무게의 범위를 10kg으로 끊어서 각 구간에 몇명이나 해당하는지를 보고 그 인원수만큼 막대그래프로 위로 쌓아 올린다.
그러면 그게 바로 그 구간의 빈도를 책정하는 것이 된다.
3.
countplot은 말 그대로 각 범주별로 얼마나 빈도가 있는지를 확인한다.
가장 쉬운 예로는 타이타닉 예시를 가져와서 생존한 사람 vs 사망한 사람 이렇게 2가지로 나눠서 각 숫자를 볼 수 있다.
세부정리는 github에 있다.
https://github.com/eunne/TIL/tree/main/Data%20Analysis
'To infinity > Data analysis' 카테고리의 다른 글
데이터 시각화 분석이 처음이니까. (0) 2024.01.01 Kaggle Titanic analysis #1 Pclass (0) 2024.01.01 library (0) 2024.01.01 데이터 받으면 가장먼저 확인할 것 (0) 2024.01.01 Data analysis 101. 기초 용어 (정형, 비정형, 연속, 범주, 데이터프레임) (0) 2024.01.01