Data PipeLine 이란?

Data PipeLine 소개

  • 데이터 파이프라인 : 다양한 소스에서 새로운 가치를 얻을 수 있는 대상으로 데이터를 옮기고 변환하는 일련의 과정으로 분석, 리포팅, 머신러닝 능력의 기초
  • 가장 단순한 형태는 REST API처럼 단일 소스에서 데이터를 추출하고 데이터 웨어하우스의 SQL Table과 같은 대상으로 데이터를 로드하는 것
  • 실제는 일반적으로 데이터 추출, 데이터 가공, 데이터 유효성 검사를 포함한 여러 단계로 구성

출처 : https://rk1993.tistory.com/303

 

우수한 데이터 엔지니어가 보유하고 있는 공통적인 기술

  • 데이터 엔지니어는 분석 생태계를 뒷받침하는 데이터 파이프라인을 구축하고, 유지관리
  • 데이터 엔지니어의 목적은 데이터 과학자 및 분석가와 긴밀히 협력하여 데이터를 어떻게 처리해야 하는지 파악하고 요구사항을 확장 가능한 프로덕션 상태로 전환하는데 도움을 줌

SQL과 데이터 웨어하우징 기초

  • DB query 하는 방벙블 알아야 하고, SQL은 이를 가능하게 해주는 보편적인 언어
  • 고성능의 SQL 작성 방법을 알고, 데이터 웨어하우징 및 데이터 모델링의 기본 사항 이해

Python & Java

  • 팀에서 사용하는 기술 스택에 따라 달라지지만, 코드 없이 작업을 수행할 수는 없음

분산 컴퓨팅

  • 여러 시스템의 성능을 결합하여 대량의 데이터를 효율적으로 저장, 처리 및 분석한다.
  • ex) : HDFS, MapReduce, pig를 통한 하둡 에코시스템, Apache spark

기본 시스템 관리

  • 리눅스 명령줄에 능숙해야 하며 응용 프로그램 로그 분석, 크론 작업 예약, 방화벽 및 기타 보안의 설정 문제 해결과 같은 작업을 수행할 수 있어야 함.

목표 지향적 사고방식

  • 데이터 엔지니어가 파이프라인을 구축하는 이유를 알 때 더 나은 아키텍쳐 결정을 내릴 수 있음.

Data PipeLine 구축 이유

  • 데이터 분석가가 생성하는 모든 dashboard와 통찰력, 그리고 데이터 사이언티스트가 개발한 각 예측 모델에는 뒷단에서 작동하는 데이터 파이프라인 존재
  • 우리가 보는 물 아래쪽에서 훨씬 더 많은 일이 일어남 -> 적절한 데이터가 제공되도록 보장하여 나머지 분석 조직이 가장 잘하는 일, 즉 통찰력 제공에 집중할 수 있게 만듦.

 

'Data Engineer > Data PipeLine' 카테고리의 다른 글

일반적인 데이터 파이프라인 패턴  (3) 2024.11.20
최신 데이터 인프라  (0) 2024.11.15