๐ Topics
- ๋ฐ์ดํฐ ๋ถ์ ์ด์
- ๋ฐ์ดํฐ ๋ถ์ ํ๋ก์ธ์ค
- ์ ๊ทํ์ ์ค์ผ์ผ๋ง
๐ค ๋ฐ์ดํฐ ๋ถ์ ์ด์

Amazon, Alphabet, Facebook, Netfix์ ์ ์กฐ์ ์ด ์๋ ์๋น์ค ๊ธฐ์ ์ธ๋ฐ, ์ด๋ค์ "๋ฐ์ดํฐ๋ฅผ ์ด์ฉํ ๊ฐ์น"๋ฅผ ํ๋งคํ์ฌ์ ์์ต์ ์ฐฝ์ถํจ.
๋ฐ๋ผ์, ๋ฐ์ดํฐ ๋ถ์์ ๊ธฐ๋ฐํ ์ฌ์ , ์์ฌ ๊ฒฐ์ ์ ์๋ง์ ์ฑ๊ณต ์ฌ๋ก๋ฅผ ์ด ๋ฐ์ดํฐ๋ฅผ ํตํ์ฌ ๋ณด์ฌ์ฃผ๊ณ ์์.
- So, ๋ฐ์ดํฐ ๋ถ์์ด๋?
๋ฐ์ดํฐ๋ฅผ ํตํด "์ธ์ฌ์ดํธ"๋ฅผ ๋ง๋ค์ด๋ด๋ ์์ ์ ๋ฐ์ดํฐ ๋ถ์์ด๋ผ๊ณ ํ๋ค. ์ฌ๊ธฐ์ ์ธ์ฌ์ดํธ์ ๋ํ ์ค๋ช ์ 7์ฃผ์ฐจ Day 1์ ๊ธฐ์ฌํ์ผ๋ฏ๋ก ์ค๋ช ์ ์๋ตํ๋ค.
[Week 7] Day 1 - TIL
๐ Topics - Pandas - Anaconda ๋ฐ์ดํฐ ๋ถ์ ๋ฐ์ดํฐ ๋ถ์์ ์๋์ 4๊ฐ์ง ๊ณผ์ ์ผ๋ก ์ด๋ฃจ์ด์ง๋ค. 1. Data Preprocessing ๋ฐ์ดํฐ ๋ถ์ ๋ฐ ์ฒ๋ฆฌ ๊ณผ์ ์์ ๊ฐ์ฅ ์ค์ํ ๋จ๊ณ๋ก์, ๋ฐ์ดํฐ๋ฅผ ๋ถ์ ๋ฐ ์ฒ๋ฆฌ์ ์ ํฉํ
devidas.tistory.com
๋งํ์๋ ๊ฒ์ ์์ฌ ๊ฒฐ์ ์ ํ๋จ ๊ธฐ์ค์ด "๊ฐ๊ด์ ์ธ ๋ฐ์ดํฐ"๋ฅผ ํตํด ์ด๋ฃจ์ด์ง๋ค๋ ์ ์ด๋ค.
ํ์ง๋ง, ๋ฐ์ดํฐ ๋ถ์์ ์๋จ์ผ ๋ฟ ๋ฌธ์ ํด๊ฒฐ์ด ๋ณธ์ง์ด๋ฏ๋ก ๋ณธ์ง์ ์์ง ์๊ณ ๋ฐ์ดํฐ๋ฅผ ๋ถ์ํ๋ ๊ฒ์ด ์ค์ํ๋ค.
๐ ๋ฐ์ดํฐ ๋ถ์ ํ๋ก์ธ์ค
1. ๋ฌธ์ ์ ์
์์ ๋๋ ์กฐ์ง์ด ํด๊ฒฐํ๊ณ ์ ํ๋ ๋ฌธ์ ๋ฅผ ๋ช ํํ ์ ์ํ๋ ๊ฒ
ํฐ ๋ฌธ์ ๋ฅผ ์์ ๋จ์์ ๋ฌธ์ ๋ค๋ก ๋๋ ํ์ ๊ทธ ๋ฌธ์ ๋ค์ ๋ํ ๊ฐ์ค์ ์ธ์ ๋ฐ์ดํฐ ๋ถ์์ ํตํด ๊ฐ์ค์ ๊ฒ์ฆํ๋ ํํ๋ก ๊ฒฐ๋ก ์ ๋์ถํ๊ฑฐ๋ ํผ๋๋ฐฑ์ ๋ฐ์ํจ
So, ์ค์ํ ๊ฒ์ ๊ถ๊ทน์ ์ผ๋ก ํด๊ฒฐํ๊ณ ์ ํ๋ ๋ฌธ์ ์ ๋ํ ์ ์๊ฐ ์ค์ํ๊ณ , ๋ฌธ์ ์ ์์ธ๊ณผ ํ๋จ ์งํ์ ๊ธฐ์ค์ ๋ํ ๊ฒ๋ค์ ์ ์ํ๋ ๊ฒ์ด ๋ฐ์ดํฐ ๋ถ์ ํ๋ก์ธ์ค์์ ์ฐ์ ์ ์ผ๋ก ๊ณ ๋ คํด์ผ ํ ์ฌํญ์.
์๋ฅผ ๋ค์ด, ์ธ๊ตฌ ๋ฌธ์ ๋ฅผ ์์๋ก ๋ค๋ฉด ๋ฌธ์ ์ ์์ ๋ฐ๋ผ์ ํ์ด๊ฐ๋ ๋ฐฉํฅ์ด ๋ฐ๋ ์ ์์์ ์๊ฐํ์ฌ์ผ ํจ.
Inflation โฌ ๏ธ ๊ณต๊ธ์ ๋น์ฉ ์ฆ๊ฐ โฌ ๏ธ ๋ ธ๋์์ฅ ๋น์ฉ ์ฆ๊ฐ โฌ ๏ธ ๋ ธ๋ ์ธ๊ตฌ ๋ถ์กฑ โฌ ๏ธ ์ธ๊ตฌ ๊ฐ์ โฌ ๏ธ ์ ์ถ์ฐ ๋ฐ ์ธ๊ตฌ ์ ์ถ
์ด๋ผ๊ณ ํ๋ค๋ฉด, ์์ธ์ ์ฐพ์ ๋ ๋ฉํ ์ธ์ง ๊ด์ ์์ ๋ฌธ์ ์ ์์ ๋ํ ์ถฉ๋ถํ ๊ณ ๋ฏผ์ด ํ์ํจ.
์ฌ๊ธฐ์ ์ด๋ฌํ ์ฐ๊ฒฐ ๊ณ ๋ฆฌ๋ค์ ๊ฐ์ค๋ก ์ธ์ฐ๊ณ ๊ทธ๊ฒ์ ์ฆ๋ช ํ๋ ๊ฒ์ด ๋ฐ์ดํฐ ๋ถ์ ๊ธฐ๋ฒ ์ค ํ๋์.
2. ๋ฐ์ดํฐ ์์ง
๋ฌธ์ ์ ์ ๊ณผ์ ์์ ๊ฒ์ฆํด๋ณด๊ณ ์ ํ๋ ๊ฐ์ค์ ํด๊ฒฐํด ์ค ๋ฐ์ดํฐ๋ฅผ ์์งํจ.
๋ฐ์ดํฐ๋ฅผ ์์งํ ๋, ๋ฐ์ดํฐ๋ก๋ถํฐ ์ป๊ณ ์ ํ๋ ์ ๋ณด๋ฅผ ๋ช ํํ ํ๋จํ๊ณ , ์งํ๊ฐ ์ ์ ํ์ง๋ฅผ ์ฒดํฌํ์ฌ์ผ ํจ.
3. ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ
- ๋ฐ์ดํฐ ์ถ์ถ, Filtering, Grouping, Join ๋ฑ ๋ฐ์ดํฐ ๋ถ์์ ์ํ ๊ธฐ๋ณธ์ ์ธ ํ ์ด๋ธ์ ๋ง๋๋ ๋จ๊ณ
- Table, Column name, ์ฒ๋ฆฌ/์ง๊ณ ๊ธฐ์ค, Join ์ ๋ฐ์ดํฐ ์ฆ์ ๋ฐฉ์ง
- ์ด์์น ์ ๊ฑฐ, ๋ถํฌ ๋ณํ, ํ์คํ, ์นดํ ๊ณ ๋ฆฌํ, ์ฐจ์ ์ถ์
์์งํ ๋ฐ์ดํฐ๋ฅผ ๋ฐ์ดํฐ ๋ถ์์ ์ฉ์ดํ ํํ๋ก ๋ง๋๋ ๊ณผ์
4. ๋ฐ์ดํฐ ๋ถ์
- ํ์์ ๋ฐ์ดํฐ ๋ถ์ (EDA)
๊ทธ๋ฃน๋ณ ํ๊ท , ํฉ ๋ฑ ๊ธฐ์ ์ ํต๊ณ์น ํ์ธ, ๋ถํฌ ํ์ธ, ๋ณ์ ๊ฐ ๊ด๊ณ ๋ฐ ์ํฅ๋ ฅ ํ์ , ๋ฐ์ดํฐ ์๊ฐํ
- Modeling (Machine Learning, Deep Learning)
| Classification (categorical label) | ์ฃผ์ด์ง ๋ฐ์ดํฐ๋ฅผ ์ ํด์ง Label์ ๋ฐ๋ผ ๋ถ๋ฅ (๊ด์ฌ์ฌ์ ๋์์ด ์ข ๋ฅ๋ณ๋ก ๋๋ ์ง ๋ ์ฌ์ฉ) |
| Regression (numerical label) | ๋ฐ์ดํฐ๋ค์ Feature๋ฅผ ๊ธฐ์ค์ผ๋ก ์ฐ์๋ ๊ฐ์ ์์ธกํ๋ ๋ฌธ์ ๋ก Pattern, Trend, Tendency๋ฅผ ํ์ ํ ๋ ์ฌ์ฉ (์ฐ์์ ์ผ๋ก ์์นํํ๋ ๋์์ผ ๋ ์ฌ์ฉ) |
| Clustering (Unsupervised learning) | Pattern space์ ์ฃผ์ด์ง ์ ํ ๊ฐ์ ํจํด๋ค์ด ์๋ก ๊ฐ๊น๊ฒ ๋ชจ์ฌ์ ๋ฌด๋ฆฌ๋ฅผ ์ด๋ฃจ๊ณ ์๋ ํจํด ์งํฉ์ cluster ๋ผ๊ณ ํ๊ณ , ๋ฌด๋ฆฌ ์ง์ด ๋๊ฐ๋ ๊ณผ์ ์ Clustering ์ด๋ผ๊ณ ํจ. (๋ณ์ ๊ฐ ์๋ฌด๋ฐ ์ง์์ ๊ฐ์ง๊ณ ์์ง ์์ ๋ ์ฌ์ฉ) |
5. Reporting / Feedback
1) ๋ด์ฉ์ ์ด์ ์ ์๋๋ฐฉ์ ๋ง์ถ์ด ์์ฑ
- ์๋๊ฐ ์ดํดํ ์ ์๋ ์ธ์ด ์ฌ์ฉ
- ๋ชฉ์ ์์๋ก ์๊ธฐ ํ ์ฌํ์ธ
2) ์ ์ ํ ์๊ฐํ ๋ฐฉ๋ฒ ํ์ฉ
- ํญ๋ชฉ ๊ฐ ๋น๊ต์ ์ ๊ทธ๋ํ ์ง์ํ๊ณ ๋ง๋ ๊ทธ๋ํ ์์ฃผ ์ฌ์ฉ, x, y์ถ ๋ฐ ๋จ์ ์ฃผ์ (Scaling check)
- ์๊ณ์ด ๋ฐ์ดํฐ(์๊ฐ์ ๋ฐ๋ผ ์์ง์ด๋ ๋ฐ์ดํฐ)๋ Line์ด๋ ์ค์ ์ผ๋ก ํํ
- ๋ถํฌ๋ histogram ๋๋ boxplot์ผ๋ก ํํ
- ๋ณ์ ๊ฐ ๊ด๊ณ๋ scatter plot ํํ
๐ Normalization and Scaling
Normalization ํ์ ์ด์
- Feature
๋ฐ์ดํฐ์์ ํ๋์ instance (sample) ์ ์์ฑ๊ฐ์ ์ด์ฉํ์ฌ ํํ์ด ๊ฐ๋ฅํจ. ์ด๋ฌํ ์์ฑ๊ฐ์ feature๋ผ๊ณ ํจ.
feature ๊ฐ ํฌ๊ธฐ ๋ฐ ๋จ์์ ์ฐจ์ด๊ฐ ํฌ๊ฑฐ๋ ๊ฐ์ ๋ฒ์๊ฐ ํฌ๊ฒ ๋ค๋ฅธ ๊ฒฝ์ฐ๋ Outlier ๋ฌธ์ ๊ฐ ํฐ ๊ฒฝ์ฐ ๋ฐ์ดํฐ ๋ถ์์ด ์ด๋ ค์์ง๊ฑฐ๋ ML, DL ๋ฐฉ๋ฒ์ ์ ์ฉํ๊ธฐ ์ด๋ ค์ด ๊ฒฝ์ฐ ์กด์ฌ

์ด๋, Normalization๊ณผ Scaling์ ํตํด feature ๊ฐ์ ๋ฒ์๋ฅผ ์ผ์ ํ๊ฒ ๋ง์ถฐ์ฃผ๋ ๊ณผ์ ์ด ํ์ํจ.
Normalization
์ฌ๋ฌ ๊ฐ์ง feature๊ฐ ๊ฐ์ง๋ ๋ฒ์์ ์ฐจ์ด๋ฅผ ์๊ณกํ์ง ์์ผ๋ฉด์ ๋ฒ์๋ฅผ ๋ง์ถ๋ ๊ฒ
1. Min-max normalization
๋ชจ๋ feature ๊ฐ์ด [0, 1] ์ฌ์ด ์์นํ๋๋ก scaling ํ๋ ๊ธฐ๋ฒ

feature ๊ฐ์ variance pattern์ ๊ทธ๋๋ก ์ ์ง๋ ์ฑ๋ก scaling.
But, outlier ์กด์ฌํ๋ ๊ฒฝ์ฐ feature ๊ฐ์ scaling์ด ๋ฐ์ดํฐ ๋ถ์์ ์ ์ ํ์ง ์์ ์ ์์.
2. Z-score normalization (standaradization)
- feature ๊ฐ๋ค์ด ์ ๊ท ๋ถํฌ๋ฅผ ๋ฐ๋ฅด๋๋ก scaling
- Outlier ๋ฌธ์ ์ ์๋์ ์ผ๋ก robust
- feature ๊ฐ์ด ๊ฐ์ง๋ ์ต์-์ต๋ ๋ฒ์ ์ ํด์ง์ง ์๋ ๋จ์ ์กด์ฌ
- ๋๋ถ๋ถ์ ML ๊ธฐ๋ฒ ํ์ฉํ๋ ๊ฒฝ์ฐ input์ standardization ์ ์ฉํด์ผ ํ๋ ๊ฒฝ์ฐ๊ฐ ๋ง์.

3. Log scaling
Feature ๊ฐ๋ค์ด exponential ํ ๋ถํฌ (Positive skewed) ๊ฐ์ง๋ ๊ฒฝ์ฐ log ์ฐ์ฐ์ ์ทจํ์ฌ scaling ๊ฐ๋ฅ
- Skewness (์๋)
๊ทธ๋ํ๊ฐ ํ์ชฝ์ผ๋ก ์น์ฐ์ณ์ ธ ์๋ ๊ฒ์ ์๋๋ผ๊ณ ํจ. Mean๊ณผ Median, Mode์์ ๊ด๊ณ์ฑ์ ํตํด ํ์ ๊ฐ๋ฅ
๊ผฌ๋ฆฌ๊ฐ ์ค๋ฅธ์ชฝ์ผ๋ก ๊ธธ๋ฉด Positive Skewness, ์ผ์ชฝ์ผ๋ก ๊ธธ๋ฉด Negative Skewness ๋ผ๊ณ ํจ.

'Bootcamp' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
| [Week 11] Day 2 - TIL (1) | 2024.02.06 |
|---|---|
| [Week 11] Day 1 - TIL (0) | 2024.02.05 |
| [Week 10] Day 1 - TIL (2) | 2024.02.05 |
| [Week 8] Day 4 - TIL (4) | 2024.01.12 |
| [Week 7] Day 1 - TIL (1) | 2024.01.06 |