Data PipeLine 소개
- 데이터 파이프라인 : 다양한 소스에서 새로운 가치를 얻을 수 있는 대상으로 데이터를 옮기고 변환하는 일련의 과정으로 분석, 리포팅, 머신러닝 능력의 기초
- 가장 단순한 형태는 REST API처럼 단일 소스에서 데이터를 추출하고 데이터 웨어하우스의 SQL Table과 같은 대상으로 데이터를 로드하는 것
- 실제는 일반적으로 데이터 추출, 데이터 가공, 데이터 유효성 검사를 포함한 여러 단계로 구성
우수한 데이터 엔지니어가 보유하고 있는 공통적인 기술
- 데이터 엔지니어는 분석 생태계를 뒷받침하는 데이터 파이프라인을 구축하고, 유지관리
- 데이터 엔지니어의 목적은 데이터 과학자 및 분석가와 긴밀히 협력하여 데이터를 어떻게 처리해야 하는지 파악하고 요구사항을 확장 가능한 프로덕션 상태로 전환하는데 도움을 줌
SQL과 데이터 웨어하우징 기초
- DB query 하는 방벙블 알아야 하고, SQL은 이를 가능하게 해주는 보편적인 언어
- 고성능의 SQL 작성 방법을 알고, 데이터 웨어하우징 및 데이터 모델링의 기본 사항 이해
Python & Java
- 팀에서 사용하는 기술 스택에 따라 달라지지만, 코드 없이 작업을 수행할 수는 없음
분산 컴퓨팅
- 여러 시스템의 성능을 결합하여 대량의 데이터를 효율적으로 저장, 처리 및 분석한다.
- ex) : HDFS, MapReduce, pig를 통한 하둡 에코시스템, Apache spark
기본 시스템 관리
- 리눅스 명령줄에 능숙해야 하며 응용 프로그램 로그 분석, 크론 작업 예약, 방화벽 및 기타 보안의 설정 문제 해결과 같은 작업을 수행할 수 있어야 함.
목표 지향적 사고방식
- 데이터 엔지니어가 파이프라인을 구축하는 이유를 알 때 더 나은 아키텍쳐 결정을 내릴 수 있음.
Data PipeLine 구축 이유
- 데이터 분석가가 생성하는 모든 dashboard와 통찰력, 그리고 데이터 사이언티스트가 개발한 각 예측 모델에는 뒷단에서 작동하는 데이터 파이프라인 존재
- 우리가 보는 물 아래쪽에서 훨씬 더 많은 일이 일어남 -> 적절한 데이터가 제공되도록 보장하여 나머지 분석 조직이 가장 잘하는 일, 즉 통찰력 제공에 집중할 수 있게 만듦.
'Data Engineer > Data PipeLine' 카테고리의 다른 글
일반적인 데이터 파이프라인 패턴 (3) | 2024.11.20 |
---|---|
최신 데이터 인프라 (0) | 2024.11.15 |