์ ์ฒด ๊ธ
-
1. ์๊ฐํ ๊ธฐ๋ฒ : ๋จ์ผ๋ณ์ (histogram, countplot)To infinity/Data analysis 2024. 1. 1. 19:32
์๊ฐํ๊ธฐ๋ฒ์ ๋ณ์์ ์์ฑ์ ๋ฐ๋ผ ์ฌ์ฉ๋ฐฉ๋ฒ์ด ๋๋ต ์ ํด์ ธ ์๋ค. 1. ๋ณ์๊ฐ 1๊ฐ์ธ ๋จ์ผ๋ณ์ ์ผ ๊ฒฝ์ฐ์๋ 1) ์ฐ์ํ ๋ฐ์ดํฐ์ธ ๊ฒฝ์ฐ์๋ Histogram 2) ๋ฒ์ฃผํ ๋ฐ์ดํฐ์ธ ๊ฒฝ์ฐ์๋ Countplot ์ ์ฌ์ฉํ๋ค. ์ฐ์ํ ๋ฐ์ดํฐ๋, ์ซ์์ ๊ฐ์ด ์ฐ์์ผ๋ก ๋ฐ์ํ๋ ๋ฐ์ดํฐ์ด๊ณ ๋ฒ์ฃผํ ๋ฐ์ดํฐ๋, ๋ฌธ์์ด๊ณผ ๊ฐ์ด ๊ตฌ๋ถ๋?๋ฐ์ดํฐ์ด๋ค. ๊ทธ๋ฅ ์ง๊ธ์ ๊ฐ๋จํ๊ฒ ์ฐ์ํ = ์ซ์, ๋ฒ์ฃผํ = ๋ฌธ์ ๋ก ์๊ฐํ๋ฉด ๋ ๋ฏ ํ๋ค. 2. Histogram์ผ๋ก๋ ์ฐ์ํ ๋ฐ์ดํฐ์ ๊ฐ ๋ฐ์ดํฐ ๊ตฌ๊ฐ์ ๋น๋์ ๋ถํฌ๋ฅผ ์ ์ ์๋ค. ์๋ฅผ ๋ค์ด, ๋ชธ๋ฌด๊ฒ๊ฐ 40 ~ 100kg์ธ ์ฌ๋๋ค์ ๊ฐ ๋ชธ๋ฌด๊ฒ๋ณ ๋ถํฌ๋ฅผ ๋ณด๊ณ ์ถ๋ค๋ฉด, x์ถ์ ๋ชธ๋ฌด๊ฒ์ ๋ฒ์๋ฅผ 10kg์ผ๋ก ๋์ด์ ๊ฐ ๊ตฌ๊ฐ์ ๋ช๋ช ์ด๋ ํด๋นํ๋์ง๋ฅผ ๋ณด๊ณ ๊ทธ ์ธ์์๋งํผ ๋ง๋๊ทธ๋ํ๋ก ์๋ก ์์ ์ฌ๋ฆฐ๋ค. ..
-
๋ฐ์ดํฐ ์๊ฐํ ๋ถ์์ด ์ฒ์์ด๋๊น.To infinity/Data analysis 2024. 1. 1. 19:23
๋๋ ๋ณธ๋ก ์ผ๋ก ๋ฐ๋ก ๋ฐ์ด๋ค์ด๊ฐ์ผ๋๋ ์คํ์ผ์ด์ด์, ์ด๋ก ๋ง๊ณ ๋ฐ๋ก ํ์ดํ๋ ๋ถ์์ผ๋ก ๋ค์ด๊ฐ๋ค. ์ฒ์์๋ ์บ๊ธ ๊ทธ๋๋๋ง์คํฐ ์์์ ๋๋ ์ด์ ํ๋์ ์์์ ๋ดค๋ค. ๊ทผ๋ฐ, ํํ ๋ฆฌ์ผ์ ๋ด๋ ์ดํด๊ฐ ์ ๊ฐ๋ค. ์ด๋ค ๋ถ๋ถ์ด ์ดํด๊ฐ ์ ๊ฐ๋๋ฉด '์ ๊ทธ๋ ๊ฒ ๋ถ์ํ๋๊ฐ'๋ถ๋ถ์ด ์ดํด๊ฐ ์ ๊ฐ๋ค. ๊ธฐ์ ์ ์ธ ๋ถ๋ถ (๊ฐ ์๊ฐํ ๋๊ตฌ๋ฅผ ์ด๋ป๊ฒ ์ฐ๋์ง, ์ฝ๋๋ ์ด๋ป๊ฒ ์ง๋์ง ๋ฑ)์ ๋ฐ๋ผํ๋ฉด ์๊ฒ ๋๋ฐ, ๊ทธ๋์ ์ ์ด๋ฐ ๋ฐ์ดํฐ๋ ์ด ์๊ฐํ ๊ธฐ๋ฒ์ผ๋ก ๋ถ์ํ๋์ง, ๊ทธ๋ฆฌ๊ณ ์ด๋ค ์ธ์ฌ์ดํธ๋ฅผ ์ป์ด์ผ ํ๋์ง๋ฅผ ์๊ณ ์ถ์๋๋ฐ ๊ทธ ๋ถ๋ถ์ด ์ถฉ์กฑ์ด ์ ๋๋ค. ์๋ง ๋ด๊ฐ ์ด๋ก ๊ณต๋ถ๋ฅผ ์ ํ๊ณ ๋ฐ๋ก ์ค์ ์ผ๋ก ๋ฐ์ด๋ค์ด์ ๊ทธ๋ดํ ๋ฐ, ์ค์ ์ ํ์ตํ๋ฉฐ ์ด๋ก ์ ๊ณต๋ถํ๋ ์คํ์ผ์ด์ด์ ๊ทธ๋ ๋ค. ์ด์จ๋ , ๊ทธ๋์ ์ฌ๋ฌ ๊ฐ์๋ฅผ ์ด๊ฒ์ ๊ฒ ๋ณด๋ฉด์ ์ฐพ์๋ค๋ ๋ค. ๋ด๊ฐ class10..
-
Kaggle Titanic analysis #1 PclassTo infinity/Data analysis 2024. 1. 1. 18:16
1. ํด๋์ค (์ข์๋ฑ๊ธ)์ ์ด 3๊ฐ์ง๊ฐ ์๋ค. 1๋ฑ๊ธ, 2๋ฑ๊ธ, 3๋ฑ๊ธ ๊ฐ๊ฐ ํด๋์ค ๋ณ ์ด ์ธ์์์ ๊ทธ ์ค ๋ช๋ช ์ด ์์กดํ๋์ง๋ฅผ ํ์ธํด๋ณด๋ฉด ๋ ๊ฒ ๊ฐ๋ค. pd.crosstab(df_train['Pclass'], df_train['Survived'], margins=True) ์๊ฐํ๋ก ํํํด๋ณด์ 1. ํด๋์ค๋ณ๋ก ์์กดํ ์ฌ๋ ์ค์๊ฐ ์ฐพ๊ธฐ df_train[['Pclass', 'Survived']].groupby(['Pclass'], as_index=True).mean().sort_values(by='Survived', ascending=False).plot.bar() ํด๋์ค๊ฐ ๋์์๋ก ์์กดํ ์ฌ๋์ด ๋ง๋ค. ๊ทธ๋ ๋ค๋ฉด ์ ๋ง ํด๋์ค๊ฐ ๋์ ์๋ก ์์กดํ ์ฌ๋์ด ๋ง์๊น? ๊ทธ๊ฑธ ํ๋ฒ ๋น์จ๋ก ํํํด๋ณด์. [๋น์จ๋ก ํํํ๋ ..
-
๋ฐ์ดํฐ ๋ฐ์ผ๋ฉด ๊ฐ์ฅ๋จผ์ ํ์ธํ ๊ฒTo infinity/Data analysis 2024. 1. 1. 17:50
1. ์ ์ฒด๋ฅผ ๋ํํ ๋งํ ๊ฐ์ ๋ฌด์์ธ๊ฐ? - (์ฐ์ )ํ๊ท : mean - ์ค์๊ฐ: median (์์์์ผ๋ก ์ค์์ ์กด์ฌํ๋ ๊ฐ) * ๊ทน๋จ์ ์ธ ์ด์์น๊ฐ ์๋ค๋ฉด median์ด ์ ์ฉํ๋ค. - ์ต๋น๊ฐ mode (๋ฒ์ฃผํ์ผ๋ก ๋ณ๊ฒฝ ํ ๊ฐฏ์๋ฅผ count) 2. ์ผ๋ง๋ ํผ์ ธ ์๋๊ฐ? (์ฐํฌ) ํผ์ ธ ์๋ ๋ชจ์์ ์ด๋ ํ๊ฐ? - ๋ฒ์(range) - ํ์คํธ์ฐจ, ๋ถ์ฐ std/variance - ๋น๋์นญ์ฑ skewness ๋ฐ๋ผ์, ๋ฐ์ดํฐ๋ฅผ ๋ฐ์ผ๋ฉด ๊ฐ์ฅ๋จผ์ ํ ๊ฒ : ์ปฌ๋ผ๋ณ๋ก ๋ฐ์ดํฐ ํน์ง์ ์์ฝํ๊ธฐ. ์ ์ฒด๊ฐฏ์ ๋ํ๊ฐ ํ์ธ ์ฐ์ํ: ํ๊ท , ์ค์๊ฐ ํ์ธ ๋ฒ์ฃผํ: ํญ๋ชฉ๋ณ ๋น๋์ 3. ์๊ฐํ์ ํ์์ฑ: ํต๊ณ๋์ด ๊ฐ์ผ๋ฉด ๊ฐ์ ๋ฐ์ดํฐ์ผ๊น? ๊ฐ dataset์ ํฉ๊ณ, ํ๊ท , ํ์คํธ์ฐจ,
-
Data analysis 101. ๊ธฐ์ด ์ฉ์ด (์ ํ, ๋น์ ํ, ์ฐ์, ๋ฒ์ฃผ, ๋ฐ์ดํฐํ๋ ์)To infinity/Data analysis 2024. 1. 1. 17:37
์ ํ๋ฐ์ดํฐ - ๋ฐ์ดํฐ ํ ์ด๋ธ ํํ๋ก ํํํ ์ ์๋ ๋ฐ์ดํฐ ๋น์ ํ๋ฐ์ดํฐ - ์ถ์ํ ๊ณผ์ ์ ๊ฑฐ์ณ์ผํ๋ ๋ฐ์ดํฐ (ex. ํ ์คํธ, ์ด๋ฏธ์ง ๋ฑ / ์ด๋ฏธ์ง๋ฅผ ํ๋ ฌํํ๋ก ์๋ผ์ ๋ถ์) ๋ฐ์ดํฐ ํ์ ์ ๋ฐ๋ผ ์๊ฐํํ๋ ๋ฐฉ๋ฒ์ด ๋ฌ๋ผ์ง. ์ฐ์ํ๋ฐ์ดํฐ (์ซ์๋ฐ์ดํฐ) - ๊ตฌ๊ฐ์ ๋๋ ์ ์ซ์๋ฅผ ์ธ๊ฒ ๋จ - ์ด์ฐ: ์ ์๊ฐ - ์ฐ์: ์ค์๊ฐ - ํต๊ณ๋: boxplot - ๋ถํฌ: histplot ๋ฒ์ฃผํ๋ฐ์ดํฐ (๋ถ๋ฅ ๋ฐ์ดํฐ) - ๋ช ๋ชฉ: ๋จ์๋ถ๋ฅ - ์์: ๊ฐ๋ค ์ฌ์ด ์์ - ์ด์ง: ๋๊ฐ์ ๊ฐ(0, 1) - ๊ฐ์: countplot ๋ฐ์ดํฐํ๋ ์(Dafaframe): index, column, value๋ก ์ด๋ฃจ์ด์ง ๋ฐ์ดํฐ ๊ตฌ์กฐ - ๋์ฉ๋ ๋ฐ์ดํฐ๋ฅผ ์ฝ๊ณ ๋น ๋ฅด๊ฒ ๋ค๋ฅผ ์ ์์ - ๋จธ์ ๋ฌ๋ ํ๋ก์ธ์ค์ ์ฐ๋์ด ๊ฐ๋ฅํ๋ค. index: ํ์ ๊ตฌ๋ถํ ..
-
Prologue. Kaggle Titanic analysis ์บ๊ธ ํ์ดํ๋ ๋ถ์To infinity/Data analysis 2023. 12. 31. 17:36
Data science ์ ๊ฐ์ฅ ๊ธฐ์ด๊ฐ ๋๋ค๋ Titanic ๋ถ์์ ํด๋ณผ๊ฑฐ๋ค. ๋ถ์์คํฌ์ด์ผ ๋ง๊ฒ ์ง๋ง, ์ผ๋จ ๋๋ ์ด๋ณด์์ ์ ์ฅ์์ ๋ฐ์ดํฐ ๋ถ์์ flow๋ฅผ ์ด๋ป๊ฒ ๊ฐ์ ธ๊ฐ์ผํ๋๊ฐ๋ฅผ ํ์ ํ๊ณ ์ถ์ด์ ๋ด๊ฐ ํ์ ํ ๋ด์ฉ์ ์ ๋ฆฌํด๋ณด๋ คํ๋ค. 1. ํ์ด์ผ ํ๋ ๋ฌธ์ ์ ์ํ๊ธฐ ์์กด์๋ฅผ ์์ธกํด์ผ ํ๋ค. 'train.csv'๋ฅผ ํตํด '๊ณผ์ฐ ์ด๋ค ์กฐ๊ฑด์์ ์ฌ๋๋ค์ด ๋ง์ด ์์กดํ์๊น?'๋ฅผ ๋ถ์ํด๋ณด๊ณ , ๊ทธ ๋ถ์์ ํตํด ์๋ฆฝํ ๊ฐ์ค๋ชจ๋ธ์ 'test.csv'์ ์ ์ฉํด์ ์์กด์๋ฅผ ์์ธกํด๋ณด๋ ๊ฒ์ด๋ค. ๊ทธ๋ ๋ค๋ฉด, train ๋ฐ์ดํฐ์ ์ ํตํด์ '์ด๋ค ์กฐ๊ฑด์ผ ๋ ์ฌ๋๋ค์ด ์์กดํ๋๊ฐ'๋ฅผ ์ฐพ์๋ด๋ฉด ๋๋ค. 2. ๋ฐ์ดํฐ์ ํ์ธํ๊ธฐ ๋จผ์ , ๋ฐ์ดํฐ๋ฅผ ์ดํด๋ณธ๋ค. ์ด ๋ฌธ์ ๋ 'Survived or not'์ ๋ฌธ์ ์ด๋ฏ๋ก, ๊ฐ ๋ฐ์ดํฐ๊ฐ ์์กด์ ์ผ๋ง๋ ์ํฅ์ ..
-
ํผ๋ํ๋๋ค.and beyond/Thoughts 2023. 12. 31. 16:58
๋๋ ์ ์ด๋ ๊ฒ ํผ๋ํ๊ฐ. ๋ถ๋ช ์ด์ ๊น์ง๋ง ํด๋ 'ํ๋ก ํธ์๋ ๊ฐ๋ฐ์๊ฐ ๋๊ฒ ์ด!' ๋ผ๊ณ ํด๋๊ณ ๋, ์ ํฌ๋ธ์์ '๊ฐ๋ฐ์ ์์ฅ, ์ด๋ ต๋ค. ์ผ์ด๋ถ๋.'์ด๋ฐ ๋ด์ฉ์ ๋ณด๋ '์.. ์๋๊ฐ?' ์ด๋ฐ ์๊ฐ์ ํ๊ณ ์์์๋ค. ๋ด ์๊ฐ์ ์ง๊ธ ๋ด๊ฒ ๋ถ์กฑํ ๊ฒ์ ํ์ ์ด๋ค. ๋์ฒด ๋๋ ์ ๊ฐ๋ฐ์๊ฐ ๋๊ณ ์ถ์๊ฑด๋ฐ? ๋๋ ์ง๊ธ๊น์ง '๋ง์์ ์๋ฆฌ'๊ฐ ์๋, '์ธ์์ ์๋ฆฌ'๋ฅผ ๋ฐ๋ผ์๋ค. ์ ๋ง ํ๊ณ ์ถ์๋๊ฑฐ ๋ง๊ณ , ์ธ์์์ ์ ๋๊ฐ๋ค๊ณ ์ฌ๊ฒจ์ง๋ ๊ฑฐ. ๊ทธ๊ฒ์ ํ๋ค. ์๋ก์ด ์๋ ์์ ์๋ ๋ด๊ฒ, ํ์ ์ด ํ์ํ๋ค. ๋๋ ์ ์ด๊ฑธ ํ๋ ค๋๊ฑฐ์ง.? ์๋๋ฉด ๊ทธ๋ฅ ๋ง์์ ์๋ฆฌ๋ฅผ ๋ฐ๋ผ ๊ฐ๋ฉด ์๋ ๊น?