To infinity/Data analysis
-
1. 시각화 기법 : 단일변수 (histogram, countplot)To infinity/Data analysis 2024. 1. 1. 19:32
시각화기법은 변수의 속성에 따라 사용방법이 대략 정해져 있다. 1. 변수가 1개인 단일변수 일 경우에는 1) 연속형 데이터인 경우에는 Histogram 2) 범주형 데이터인 경우에는 Countplot 을 사용한다. 연속형 데이터란, 숫자와 같이 연속으로 발생하는 데이터이고 범주형 데이터란, 문자열과 같이 구분된?데이터이다. 그냥 지금은 간단하게 연속형 = 숫자, 범주형 = 문자 로 생각하면 될 듯 하다. 2. Histogram으로는 연속형 데이터의 각 데이터 구간의 빈도의 분포를 알 수 있다. 예를 들어, 몸무게가 40 ~ 100kg인 사람들의 각 몸무게별 분포를 보고 싶다면, x축에 몸무게의 범위를 10kg으로 끊어서 각 구간에 몇명이나 해당하는지를 보고 그 인원수만큼 막대그래프로 위로 쌓아 올린다. ..
-
데이터 시각화 분석이 처음이니까.To infinity/Data analysis 2024. 1. 1. 19:23
나는 본론으로 바로 뛰어들어가야되는 스타일이어서, 이론말고 바로 타이타닉 분석으로 들어갔다. 처음에는 캐글 그랜드마스터 순위에 드는 이유한님의 영상을 봤다. 근데, 튜토리얼을 봐도 이해가 안 갔다. 어떤 부분이 이해가 안 갔냐면 '왜 그렇게 분석하는가'부분이 이해가 안 갔다. 기술적인 부분 (각 시각화 도구를 어떻게 쓰는지, 코드는 어떻게 짜는지 등)은 따라하면 알겠는데, 그래서 왜 이런 데이터는 이 시각화 기법으로 분석하는지, 그리고 어떤 인사이트를 얻어야 하는지를 알고 싶었는데 그 부분이 충족이 안 됐다. 아마 내가 이론 공부를 안 하고 바로 실전으로 뛰어들어서 그럴텐데, 실전을 학습하며 이론을 공부하는 스타일이어서 그렇다. 어쨋든, 그래서 여러 강의를 이것저것 보면서 찾아다녔다. 내가 class10..
-
Kaggle Titanic analysis #1 PclassTo infinity/Data analysis 2024. 1. 1. 18:16
1. 클래스 (좌석등급)은 총 3가지가 있다. 1등급, 2등급, 3등급 각각 클래스 별 총 인원수와 그 중 몇명이 생존했는지를 확인해보면 될 것 같다. pd.crosstab(df_train['Pclass'], df_train['Survived'], margins=True) 시각화로 표현해보자 1. 클래스별로 생존한 사람 중앙값 찾기 df_train[['Pclass', 'Survived']].groupby(['Pclass'], as_index=True).mean().sort_values(by='Survived', ascending=False).plot.bar() 클래스가 높을수록 생존한 사람이 많다. 그렇다면 정말 클래스가 높을 수록 생존한 사람이 많을까? 그걸 한번 비율로 표현해보자. [비율로 표현하는 ..
-
데이터 받으면 가장먼저 확인할 것To infinity/Data analysis 2024. 1. 1. 17:50
1. 전체를 대표할 만한 값은 무엇인가? - (산술)평균: mean - 중앙값: median (순서상으로 중앙에 존재하는 값) * 극단적인 이상치가 있다면 median이 유용하다. - 최빈값 mode (범주형으로 변경 후 갯수를 count) 2. 얼마나 퍼져 있는가? (산포) 퍼져 있는 모양은 어떠한가? - 범위(range) - 표준편차, 분산 std/variance - 비대칭성 skewness 따라서, 데이터를 받으면 가장먼저 할 것 : 컬럼별로 데이터 특징을 요약하기. 전체갯수 대표값 확인 연속형: 평균, 중앙값 확인 범주형: 항목별 빈도수 3. 시각화의 필요성: 통계량이 같으면 같은 데이터일까? 각 dataset의 합계, 평균, 표준편차,
-
Data analysis 101. 기초 용어 (정형, 비정형, 연속, 범주, 데이터프레임)To infinity/Data analysis 2024. 1. 1. 17:37
정형데이터 - 데이터 테이블 형태로 표현할 수 있는 데이터 비정형데이터 - 추상화 과정을 거쳐야하는 데이터 (ex. 텍스트, 이미지 등 / 이미지를 행렬형태로 잘라서 분석) 데이터 타입에 따라 시각화하는 방법이 달라짐. 연속형데이터 (숫자데이터) - 구간을 나눠서 숫자를 세게 됨 - 이산: 정수값 - 연속: 실수값 - 통계량: boxplot - 분포: histplot 범주형데이터 (분류 데이터) - 명목: 단순분류 - 순서: 값들 사이 순서 - 이진: 두개의 값(0, 1) - 개수: countplot 데이터프레임(Dafaframe): index, column, value로 이루어진 데이터 구조 - 대용량 데이터를 쉽고 빠르게 다를 수 있음 - 머신러닝 프로세스와 연동이 가능하다. index: 행을 구분할..
-
Prologue. Kaggle Titanic analysis 캐글 타이타닉 분석To infinity/Data analysis 2023. 12. 31. 17:36
Data science 의 가장 기초가 된다는 Titanic 분석을 해볼거다. 분석스킬이야 많겠지만, 일단 나는 초보자의 입장에서 데이터 분석의 flow를 어떻게 가져가야하는가를 파악하고 싶어서 내가 파악한 내용을 정리해보려한다. 1. 풀어야 하는 문제 정의하기 생존자를 예측해야 한다. 'train.csv'를 통해 '과연 어떤 조건에서 사람들이 많이 생존했을까?'를 분석해보고, 그 분석을 통해 수립한 가설모델을 'test.csv'에 적용해서 생존자를 예측해보는 것이다. 그렇다면, train 데이터셋을 통해서 '어떤 조건일 때 사람들이 생존하는가'를 찾아내면 된다. 2. 데이터셋 확인하기 먼저, 데이터를 살펴본다. 이 문제는 'Survived or not'의 문제이므로, 각 데이터가 생존에 얼마나 영향을 ..