-
Data analysis 101. 기초 용어 (정형, 비정형, 연속, 범주, 데이터프레임)To infinity/Data analysis 2024. 1. 1. 17:37
정형데이터
- 데이터 테이블 형태로 표현할 수 있는 데이터
비정형데이터
- 추상화 과정을 거쳐야하는 데이터 (ex. 텍스트, 이미지 등 / 이미지를 행렬형태로 잘라서 분석)
데이터 타입에 따라 시각화하는 방법이 달라짐.
연속형데이터 (숫자데이터)
- 구간을 나눠서 숫자를 세게 됨
- 이산: 정수값
- 연속: 실수값
- 통계량: boxplot
- 분포: histplot
범주형데이터 (분류 데이터)
- 명목: 단순분류
- 순서: 값들 사이 순서
- 이진: 두개의 값(0, 1)
- 개수: countplot
데이터프레임(Dafaframe): index, column, value로 이루어진 데이터 구조
- 대용량 데이터를 쉽고 빠르게 다를 수 있음
- 머신러닝 프로세스와 연동이 가능하다.
index: 행을 구분할 수 있는 고유 값
- 데이터가 기록되는 것 = index가 차곡차곡 쌓이는 것
- index를 보면서 데이터의 생성과정을 상상할 수 있어야 한다.
column: 데이터가 갖고있는 각각의 정보(속성)들
- 하나의 column은 하나의 데이터타입으로 구성되어야 함. (ex. 범주형 또는 연속형)
데이터 타입에 따라 시각화하는 방법이 달라지기 때문.
value: 값 (=필드, 항목 등)
한 column의 값들을 pandas에서는 series형태로 갖고 다님
* 목적이 Y값으로 들어감
'To infinity > Data analysis' 카테고리의 다른 글
데이터 시각화 분석이 처음이니까. (0) 2024.01.01 Kaggle Titanic analysis #1 Pclass (0) 2024.01.01 library (0) 2024.01.01 데이터 받으면 가장먼저 확인할 것 (0) 2024.01.01 Prologue. Kaggle Titanic analysis 캐글 타이타닉 분석 (0) 2023.12.31