[Week 8] Day 1 - TIL

๐Ÿ“‹ Topics

  • ๋ฐ์ดํ„ฐ ๋ถ„์„ ์ด์œ 
  • ๋ฐ์ดํ„ฐ ๋ถ„์„ ํ”„๋กœ์„ธ์Šค
  • ์ •๊ทœํ™”์™€ ์Šค์ผ€์ผ๋ง

 

๐Ÿค” ๋ฐ์ดํ„ฐ ๋ถ„์„ ์ด์œ 

 

Amazon, Alphabet, Facebook, Netfix์€ ์ œ์กฐ์—…์ด ์•„๋‹Œ ์„œ๋น„์Šค ๊ธฐ์—…์ธ๋ฐ, ์ด๋“ค์€ "๋ฐ์ดํ„ฐ๋ฅผ ์ด์šฉํ•œ ๊ฐ€์น˜"๋ฅผ ํŒ๋งคํ•˜์—ฌ์„œ ์ˆ˜์ต์„ ์ฐฝ์ถœํ•จ.

 

๋”ฐ๋ผ์„œ, ๋ฐ์ดํ„ฐ ๋ถ„์„์„ ๊ธฐ๋ฐ˜ํ•œ ์‚ฌ์—…, ์˜์‚ฌ ๊ฒฐ์ •์€ ์ˆ˜๋งŽ์€ ์„ฑ๊ณต ์‚ฌ๋ก€๋ฅผ ์ด ๋ฐ์ดํ„ฐ๋ฅผ ํ†ตํ•˜์—ฌ ๋ณด์—ฌ์ฃผ๊ณ  ์žˆ์Œ.

 

  • So, ๋ฐ์ดํ„ฐ ๋ถ„์„์ด๋ž€?

๋ฐ์ดํ„ฐ๋ฅผ ํ†ตํ•ด "์ธ์‚ฌ์ดํŠธ"๋ฅผ ๋งŒ๋“ค์–ด๋‚ด๋Š” ์ž‘์—…์„ ๋ฐ์ดํ„ฐ ๋ถ„์„์ด๋ผ๊ณ  ํ•œ๋‹ค. ์—ฌ๊ธฐ์„œ ์ธ์‚ฌ์ดํŠธ์— ๋Œ€ํ•œ ์„ค๋ช…์€ 7์ฃผ์ฐจ Day 1์— ๊ธฐ์žฌํ–ˆ์œผ๋ฏ€๋กœ ์„ค๋ช…์€ ์ƒ๋žตํ•œ๋‹ค.

https://devidas.tistory.com/2

 

[Week 7] Day 1 - TIL

๐Ÿ“ Topics - Pandas - Anaconda ๋ฐ์ดํ„ฐ ๋ถ„์„ ๋ฐ์ดํ„ฐ ๋ถ„์„์€ ์•„๋ž˜์˜ 4๊ฐ€์ง€ ๊ณผ์ •์œผ๋กœ ์ด๋ฃจ์–ด์ง„๋‹ค. 1. Data Preprocessing ๋ฐ์ดํ„ฐ ๋ถ„์„ ๋ฐ ์ฒ˜๋ฆฌ ๊ณผ์ •์—์„œ ๊ฐ€์žฅ ์ค‘์š”ํ•œ ๋‹จ๊ณ„๋กœ์„œ, ๋ฐ์ดํ„ฐ๋ฅผ ๋ถ„์„ ๋ฐ ์ฒ˜๋ฆฌ์— ์ ํ•ฉํ•œ

devidas.tistory.com

 

๋งํ•˜์ž๋Š” ๊ฒƒ์€ ์˜์‚ฌ ๊ฒฐ์ •์˜ ํŒ๋‹จ ๊ธฐ์ค€์ด "๊ฐ๊ด€์ ์ธ ๋ฐ์ดํ„ฐ"๋ฅผ ํ†ตํ•ด ์ด๋ฃจ์–ด์ง„๋‹ค๋Š” ์ ์ด๋‹ค.

ํ•˜์ง€๋งŒ, ๋ฐ์ดํ„ฐ ๋ถ„์„์€ ์ˆ˜๋‹จ์ผ ๋ฟ ๋ฌธ์ œ ํ•ด๊ฒฐ์ด ๋ณธ์งˆ์ด๋ฏ€๋กœ ๋ณธ์งˆ์„ ์žŠ์ง€ ์•Š๊ณ  ๋ฐ์ดํ„ฐ๋ฅผ ๋ถ„์„ํ•˜๋Š” ๊ฒƒ์ด ์ค‘์š”ํ•˜๋‹ค.

 

๐Ÿ“– ๋ฐ์ดํ„ฐ ๋ถ„์„ ํ”„๋กœ์„ธ์Šค

1. ๋ฌธ์ œ ์ •์˜

์ž์‹  ๋˜๋Š” ์กฐ์ง์ด ํ•ด๊ฒฐํ•˜๊ณ ์ž ํ•˜๋Š” ๋ฌธ์ œ๋ฅผ ๋ช…ํ™•ํžˆ ์ •์˜ํ•˜๋Š” ๊ฒƒ

ํฐ ๋ฌธ์ œ๋ฅผ ์ž‘์€ ๋‹จ์œ„์˜ ๋ฌธ์ œ๋“ค๋กœ ๋‚˜๋ˆˆ ํ›„์— ๊ทธ ๋ฌธ์ œ๋“ค์— ๋Œ€ํ•œ ๊ฐ€์„ค์„ ์„ธ์›Œ ๋ฐ์ดํ„ฐ ๋ถ„์„์„ ํ†ตํ•ด ๊ฐ€์„ค์„ ๊ฒ€์ฆํ•˜๋Š” ํ˜•ํƒœ๋กœ ๊ฒฐ๋ก ์„ ๋„์ถœํ•˜๊ฑฐ๋‚˜ ํ”ผ๋“œ๋ฐฑ์„ ๋ฐ˜์˜ํ•จ

 

So, ์ค‘์š”ํ•œ ๊ฒƒ์€ ๊ถ๊ทน์ ์œผ๋กœ ํ•ด๊ฒฐํ•˜๊ณ ์ž ํ•˜๋Š” ๋ฌธ์ œ์— ๋Œ€ํ•œ ์ •์˜๊ฐ€ ์ค‘์š”ํ•˜๊ณ , ๋ฌธ์ œ์˜ ์›์ธ๊ณผ ํŒ๋‹จ ์ง€ํ‘œ์™€ ๊ธฐ์ค€์— ๋Œ€ํ•œ ๊ฒƒ๋“ค์„ ์ •์˜ํ•˜๋Š” ๊ฒƒ์ด ๋ฐ์ดํ„ฐ ๋ถ„์„ ํ”„๋กœ์„ธ์Šค์—์„œ ์šฐ์„ ์ ์œผ๋กœ ๊ณ ๋ คํ•ด์•ผ ํ•  ์‚ฌํ•ญ์ž„.

 

์˜ˆ๋ฅผ ๋“ค์–ด, ์ธ๊ตฌ ๋ฌธ์ œ๋ฅผ ์˜ˆ์‹œ๋กœ ๋“ค๋ฉด ๋ฌธ์ œ ์ •์˜์— ๋”ฐ๋ผ์„œ ํ’€์–ด๊ฐ€๋Š” ๋ฐฉํ–ฅ์ด ๋ฐ”๋€” ์ˆ˜ ์žˆ์Œ์„ ์ƒ๊ฐํ•˜์—ฌ์•ผ ํ•จ.

Inflation  โฌ…๏ธ  ๊ณต๊ธ‰์ž ๋น„์šฉ ์ฆ๊ฐ€ โฌ…๏ธ ๋…ธ๋™์‹œ์žฅ ๋น„์šฉ ์ฆ๊ฐ€ โฌ…๏ธ ๋…ธ๋™ ์ธ๊ตฌ ๋ถ€์กฑ โฌ…๏ธ ์ธ๊ตฌ ๊ฐ์†Œ โฌ…๏ธ ์ €์ถœ์‚ฐ ๋ฐ ์ธ๊ตฌ ์œ ์ถœ

์ด๋ผ๊ณ  ํ•œ๋‹ค๋ฉด, ์›์ธ์„ ์ฐพ์„ ๋•Œ ๋ฉ”ํƒ€ ์ธ์ง€ ๊ด€์ ์—์„œ ๋ฌธ์ œ ์ •์˜์— ๋Œ€ํ•œ ์ถฉ๋ถ„ํ•œ ๊ณ ๋ฏผ์ด ํ•„์š”ํ•จ.

์—ฌ๊ธฐ์„œ ์ด๋Ÿฌํ•œ ์—ฐ๊ฒฐ ๊ณ ๋ฆฌ๋“ค์„ ๊ฐ€์„ค๋กœ ์„ธ์šฐ๊ณ  ๊ทธ๊ฒƒ์„ ์ฆ๋ช…ํ•˜๋Š” ๊ฒƒ์ด ๋ฐ์ดํ„ฐ ๋ถ„์„ ๊ธฐ๋ฒ• ์ค‘ ํ•˜๋‚˜์ž„.

 

 

2. ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘

๋ฌธ์ œ ์ •์˜ ๊ณผ์ •์—์„œ ๊ฒ€์ฆํ•ด๋ณด๊ณ ์ž ํ•˜๋Š” ๊ฐ€์„ค์„ ํ•ด๊ฒฐํ•ด ์ค„ ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘ํ•จ.

๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘ํ•  ๋•Œ, ๋ฐ์ดํ„ฐ๋กœ๋ถ€ํ„ฐ ์–ป๊ณ ์ž ํ•˜๋Š” ์ •๋ณด๋ฅผ ๋ช…ํ™•ํžˆ ํŒ๋‹จํ•˜๊ณ , ์ง€ํ‘œ๊ฐ€ ์ ์ ˆํ•œ์ง€๋ฅผ ์ฒดํฌํ•˜์—ฌ์•ผ ํ•จ.

 

3. ๋ฐ์ดํ„ฐ ์ „์ฒ˜๋ฆฌ

  • ๋ฐ์ดํ„ฐ ์ถ”์ถœ, Filtering, Grouping, Join ๋“ฑ ๋ฐ์ดํ„ฐ ๋ถ„์„์„ ์œ„ํ•œ ๊ธฐ๋ณธ์ ์ธ ํ…Œ์ด๋ธ”์„ ๋งŒ๋“œ๋Š” ๋‹จ๊ณ„
  • Table, Column name, ์ฒ˜๋ฆฌ/์ง‘๊ณ„ ๊ธฐ์ค€, Join ์‹œ ๋ฐ์ดํ„ฐ ์ฆ์‹ ๋ฐฉ์ง€
  • ์ด์ƒ์น˜ ์ œ๊ฑฐ, ๋ถ„ํฌ ๋ณ€ํ™˜, ํ‘œ์ค€ํ™”, ์นดํ…Œ๊ณ ๋ฆฌํ™”, ์ฐจ์› ์ถ•์†Œ

์ˆ˜์ง‘ํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ๋ฐ์ดํ„ฐ ๋ถ„์„์— ์šฉ์ดํ•œ ํ˜•ํƒœ๋กœ ๋งŒ๋“œ๋Š” ๊ณผ์ •

 

4. ๋ฐ์ดํ„ฐ ๋ถ„์„

  • ํƒ์ƒ‰์  ๋ฐ์ดํ„ฐ ๋ถ„์„ (EDA)

๊ทธ๋ฃน๋ณ„ ํ‰๊ท , ํ•ฉ ๋“ฑ ๊ธฐ์ˆ ์  ํ†ต๊ณ„์น˜ ํ™•์ธ, ๋ถ„ํฌ ํ™•์ธ, ๋ณ€์ˆ˜ ๊ฐ„ ๊ด€๊ณ„ ๋ฐ ์˜ํ–ฅ๋ ฅ ํŒŒ์•…, ๋ฐ์ดํ„ฐ ์‹œ๊ฐํ™”

 

  •  Modeling (Machine Learning, Deep Learning)
Classification (categorical label) ์ฃผ์–ด์ง„ ๋ฐ์ดํ„ฐ๋ฅผ ์ •ํ•ด์ง„ Label์— ๋”ฐ๋ผ ๋ถ„๋ฅ˜ (๊ด€์‹ฌ์‚ฌ์˜ ๋Œ€์ƒ์ด ์ข…๋ฅ˜๋ณ„๋กœ ๋‚˜๋ˆ ์งˆ ๋•Œ ์‚ฌ์šฉ)
Regression (numerical label) ๋ฐ์ดํ„ฐ๋“ค์˜ Feature๋ฅผ ๊ธฐ์ค€์œผ๋กœ ์—ฐ์†๋œ ๊ฐ’์„ ์˜ˆ์ธกํ•˜๋Š” ๋ฌธ์ œ๋กœ Pattern, Trend, Tendency๋ฅผ ํŒŒ์•…ํ•  ๋•Œ ์‚ฌ์šฉ (์—ฐ์†์ ์œผ๋กœ ์ˆ˜์น˜ํ™”ํ•˜๋Š” ๋Œ€์ƒ์ผ ๋•Œ ์‚ฌ์šฉ)
Clustering (Unsupervised learning) Pattern space์— ์ฃผ์–ด์ง„ ์œ ํ•œ ๊ฐœ์˜ ํŒจํ„ด๋“ค์ด ์„œ๋กœ ๊ฐ€๊น๊ฒŒ ๋ชจ์—ฌ์„œ ๋ฌด๋ฆฌ๋ฅผ ์ด๋ฃจ๊ณ  ์žˆ๋Š” ํŒจํ„ด ์ง‘ํ•ฉ์„ cluster ๋ผ๊ณ  ํ•˜๊ณ , ๋ฌด๋ฆฌ ์ง€์–ด ๋‚˜๊ฐ€๋Š” ๊ณผ์ •์„ Clustering ์ด๋ผ๊ณ  ํ•จ. (๋ณ€์ˆ˜ ๊ฐ„ ์•„๋ฌด๋Ÿฐ ์ง€์‹์„ ๊ฐ€์ง€๊ณ  ์žˆ์ง€ ์•Š์„ ๋•Œ ์‚ฌ์šฉ) 

 

5. Reporting / Feedback

1) ๋‚ด์šฉ์˜ ์ดˆ์ ์€ ์ƒ๋Œ€๋ฐฉ์— ๋งž์ถ”์–ด ์ž‘์„ฑ

  • ์ƒ๋Œ€๊ฐ€ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋Š” ์–ธ์–ด ์‚ฌ์šฉ
  • ๋ชฉ์  ์ˆ˜์‹œ๋กœ ์ƒ๊ธฐ ํ›„ ์žฌํ™•์ธ

2) ์ ์ ˆํ•œ ์‹œ๊ฐํ™” ๋ฐฉ๋ฒ• ํ™œ์šฉ

  • ํ•ญ๋ชฉ ๊ฐ„ ๋น„๊ต์‹œ ์› ๊ทธ๋ž˜ํ”„ ์ง€์–‘ํ•˜๊ณ  ๋ง‰๋Œ€ ๊ทธ๋ž˜ํ”„ ์œ„์ฃผ ์‚ฌ์šฉ, x, y์ถ• ๋ฐ ๋‹จ์œ„ ์ฃผ์˜ (Scaling check)
  • ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ(์‹œ๊ฐ„์— ๋”ฐ๋ผ ์›€์ง์ด๋Š” ๋ฐ์ดํ„ฐ)๋Š” Line์ด๋‚˜ ์‹ค์„ ์œผ๋กœ ํ‘œํ˜„
  • ๋ถ„ํฌ๋Š” histogram ๋˜๋Š” boxplot์œผ๋กœ ํ‘œํ˜„
  • ๋ณ€์ˆ˜ ๊ฐ„ ๊ด€๊ณ„๋Š” scatter plot ํ‘œํ˜„

๐Ÿ˜Š Normalization and Scaling

Normalization ํ•„์š” ์ด์œ 

  • Feature

๋ฐ์ดํ„ฐ์—์„œ ํ•˜๋‚˜์˜ instance (sample) ์€ ์†์„ฑ๊ฐ’์„ ์ด์šฉํ•˜์—ฌ ํ‘œํ˜„์ด ๊ฐ€๋Šฅํ•จ. ์ด๋Ÿฌํ•œ ์†์„ฑ๊ฐ’์„ feature๋ผ๊ณ  ํ•จ.

feature ๊ฐ„ ํฌ๊ธฐ ๋ฐ ๋‹จ์œ„์˜ ์ฐจ์ด๊ฐ€ ํฌ๊ฑฐ๋‚˜ ๊ฐ’์˜ ๋ฒ”์œ„๊ฐ€ ํฌ๊ฒŒ ๋‹ค๋ฅธ ๊ฒฝ์šฐ๋‚˜ Outlier ๋ฌธ์ œ๊ฐ€ ํฐ ๊ฒฝ์šฐ ๋ฐ์ดํ„ฐ ๋ถ„์„์ด ์–ด๋ ค์›Œ์ง€๊ฑฐ๋‚˜ ML, DL ๋ฐฉ๋ฒ•์„ ์ ์šฉํ•˜๊ธฐ ์–ด๋ ค์šด ๊ฒฝ์šฐ ์กด์žฌ

 

์ด๋•Œ, Normalization๊ณผ Scaling์„ ํ†ตํ•ด feature ๊ฐ’์˜ ๋ฒ”์œ„๋ฅผ ์ผ์ •ํ•˜๊ฒŒ ๋งž์ถฐ์ฃผ๋Š” ๊ณผ์ •์ด ํ•„์š”ํ•จ.

 

Normalization

์—ฌ๋Ÿฌ ๊ฐ€์ง€ feature๊ฐ€ ๊ฐ€์ง€๋Š” ๋ฒ”์œ„์˜ ์ฐจ์ด๋ฅผ ์™œ๊ณกํ•˜์ง€ ์•Š์œผ๋ฉด์„œ ๋ฒ”์œ„๋ฅผ ๋งž์ถ”๋Š” ๊ฒƒ

 

1. Min-max normalization 

๋ชจ๋“  feature ๊ฐ’์ด [0, 1] ์‚ฌ์ด ์œ„์น˜ํ•˜๋„๋ก scaling ํ•˜๋Š” ๊ธฐ๋ฒ•

feature ๊ฐ„์˜ variance pattern์€ ๊ทธ๋Œ€๋กœ ์œ ์ง€๋œ ์ฑ„๋กœ scaling.

But, outlier ์กด์žฌํ•˜๋Š” ๊ฒฝ์šฐ feature ๊ฐ„์˜ scaling์ด ๋ฐ์ดํ„ฐ ๋ถ„์„์— ์ ์ ˆํ•˜์ง€ ์•Š์„ ์ˆ˜ ์žˆ์Œ.

 

2. Z-score normalization (standaradization)

  • feature ๊ฐ’๋“ค์ด ์ •๊ทœ ๋ถ„ํฌ๋ฅผ ๋”ฐ๋ฅด๋„๋ก scaling
  • Outlier ๋ฌธ์ œ์— ์ƒ๋Œ€์ ์œผ๋กœ robust
  • feature ๊ฐ’์ด ๊ฐ€์ง€๋Š” ์ตœ์†Œ-์ตœ๋Œ€ ๋ฒ”์œ„ ์ •ํ•ด์ง€์ง€ ์•Š๋Š” ๋‹จ์  ์กด์žฌ
  • ๋Œ€๋ถ€๋ถ„์˜ ML ๊ธฐ๋ฒ• ํ™œ์šฉํ•˜๋Š” ๊ฒฝ์šฐ input์— standardization ์ ์šฉํ•ด์•ผ ํ•˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งŽ์Œ. 

3. Log scaling

Feature ๊ฐ’๋“ค์ด exponential ํ•œ ๋ถ„ํฌ (Positive skewed) ๊ฐ€์ง€๋Š” ๊ฒฝ์šฐ log ์—ฐ์‚ฐ์„ ์ทจํ•˜์—ฌ scaling ๊ฐ€๋Šฅ

 

  • Skewness (์™œ๋„)

๊ทธ๋ž˜ํ”„๊ฐ€ ํ•œ์ชฝ์œผ๋กœ ์น˜์šฐ์ณ์ ธ ์žˆ๋Š” ๊ฒƒ์„ ์™œ๋„๋ผ๊ณ  ํ•จ. Mean๊ณผ Median, Mode์™€์˜ ๊ด€๊ณ„์„ฑ์„ ํ†ตํ•ด ํŒŒ์•… ๊ฐ€๋Šฅ

๊ผฌ๋ฆฌ๊ฐ€ ์˜ค๋ฅธ์ชฝ์œผ๋กœ ๊ธธ๋ฉด Positive Skewness, ์™ผ์ชฝ์œผ๋กœ ๊ธธ๋ฉด Negative Skewness ๋ผ๊ณ  ํ•จ.

 

 

'Bootcamp' ์นดํ…Œ๊ณ ๋ฆฌ์˜ ๋‹ค๋ฅธ ๊ธ€

[Week 11] Day 2 - TIL  (1) 2024.02.06
[Week 11] Day 1 - TIL  (0) 2024.02.05
[Week 10] Day 1 - TIL  (2) 2024.02.05
[Week 8] Day 4 - TIL  (4) 2024.01.12
[Week 7] Day 1 - TIL  (1) 2024.01.06