-
Prologue. Kaggle Titanic analysis 캐글 타이타닉 분석To infinity/Data analysis 2023. 12. 31. 17:36
Data science 의 가장 기초가 된다는 Titanic 분석을 해볼거다.
분석스킬이야 많겠지만, 일단 나는 초보자의 입장에서 데이터 분석의 flow를 어떻게 가져가야하는가를 파악하고 싶어서 내가 파악한 내용을 정리해보려한다.
1. 풀어야 하는 문제 정의하기
생존자를 예측해야 한다.
'train.csv'를 통해 '과연 어떤 조건에서 사람들이 많이 생존했을까?'를 분석해보고,
그 분석을 통해 수립한 가설모델을 'test.csv'에 적용해서 생존자를 예측해보는 것이다.
그렇다면, train 데이터셋을 통해서 '어떤 조건일 때 사람들이 생존하는가'를 찾아내면 된다.
2. 데이터셋 확인하기
먼저, 데이터를 살펴본다.
이 문제는 'Survived or not'의 문제이므로, 각 데이터가 생존에 얼마나 영향을 줄지를 판단한다.
columns 를 통해 어떤 조건들이 있는지 알아본다.
passengerId는 고유 값이므로 분석대상은 아니고
Survived는 도출해야하는 결과 값이므로 분석할 때 결과값으로 넣어주면 될 듯 하다.
분석해 볼만한 값들이
Columns Description Pclass Sex Age SibSp Parch Ticket Fare Cabin Embarked 인 듯하다.
그러면 하나씩 분석해보도록 하자.
'To infinity > Data analysis' 카테고리의 다른 글
데이터 시각화 분석이 처음이니까. (0) 2024.01.01 Kaggle Titanic analysis #1 Pclass (0) 2024.01.01 library (0) 2024.01.01 데이터 받으면 가장먼저 확인할 것 (0) 2024.01.01 Data analysis 101. 기초 용어 (정형, 비정형, 연속, 범주, 데이터프레임) (0) 2024.01.01