Devidas
close
프로필 배경
프로필 로고

Devidas

  • 분류 전체보기 (59)
    • Bootcamp (9)
    • Java (5)
    • Algorithm (10)
    • Git (2)
    • Data Engineer (21)
      • Data PipeLine (3)
      • AI (11)
      • SQLD (4)
    • Python (1)
    • Front-end (0)
      • React (0)
    • Back-end (10)
      • Django (5)
      • Spring-boot (5)
    • Network (1)
  • 홈
  • 태그
  • 방명록
  • 글쓰기
일반적인 데이터 파이프라인 패턴

일반적인 데이터 파이프라인 패턴

ETL과 ELTData Warehousing 에 뿌리를 두고 있는 이 두 패턴은 모두 데이터 웨어하우스에 데이터를 공급하고 분석가나 보고 도구가 이를 유용하게 쓸 수 있게 하는 데이터 처리에 대한 접근 방식임.차이점은 마지막 두 단계 (Transform & Load) 의 순서임. Extract : 로드 및 변환을 준비하기 위해 다양한 소스에서 데이터를 수집Load : 원본 데이터 (ELT) 또는 완전히 변환된 데이터 (ETL)를 최종 대상으로 가져온다. 어느 쪽이든 최종 결과는 데이터 웨어하우스, 데이터 레이크 또는 기타 대상에 데이터를 로드하는 것,,Transform : 분석가, 시각화 도구 또는 파이프라인이 제공하는 모든 사용 사례에 유용하게 쓸 수 있게 각 소스 시스템의 원본 데이터를 결합하고 형식..

  • format_list_bulleted Data Engineer/Data PipeLine
  • · 2024. 11. 20.
  • textsms

SQLD - SQL 활용

SubQuery하나의 쿼리 안에 존재하는 또 다른 쿼리바깥에 있는 엄마쿼리를 메인쿼리 - 안에 있는 아기쿼리를 서브쿼리위치에 따른 SubQuerySELECT 절FROM 절WHERE 절, HAVING 절Scalar SubQueryInline ViewNested SubQuery Scalar SubQuery주로 SELECT 절에 위치하지만, Column이 올 수 있는 대부분의 위치에 사용 가능반드시 하나의 값만을 반환해야 하며, 그렇지 않은 경우 에러 발생Inline ViewFROM 절 등 테이블명이 올 수 있는 위치에 사용 가능Nested SubQueryWHERE 절과 HAVING 절에 사용 가능Main Query와의 관계에 따라 나눌 수 있음Uncorrelated SubQuerycorrelated SubQ..

  • format_list_bulleted Data Engineer/SQLD
  • · 2024. 11. 18.
  • textsms

AI - 국민청원 분류

NLP (Natural Language Processing)다양한 분야가 존재Text Classification, Sentiment Analysis, Summarization, Machine Translation, Question Answering국민청원 분류TextCNN 이라는 모델을 적용수많은 청원 글 중 주목받을 만한 글을 예측하는 것이 목적관심이 필요한 많은 사연들에 사람들의 눈길이 한 번 더 닿는 것프로젝트의 전체적인 흐름"주목받을 만한" 이라는 표현이 모호함주관적 판단을 배제할 수 있는 방법으로 Deep Learning 도입Model 을 통하여 높은 청원 참여인원을 기록한 글들의 특징을 학습하여 새로운 글이 입력되었을 때 청원 참여인원이 높은 글들과의 유사성을 계산하여 주목받을 만한 글인지 아..

  • format_list_bulleted Data Engineer/AI
  • · 2024. 11. 17.
  • textsms
AI - 작물 잎 사진으로 질병 분류

AI - 작물 잎 사진으로 질병 분류

출처 : "한 줄씩 따라 해보는 파이토치 딥러닝 프로젝트" (이경택, 박희경, 전종섭, 김수지, 신훈철, 조민호, 이승현, 심은선, 장예은)  이미지 분류 모델을 활용하여 작물 잎 사진의 종류와 질병 유무를 판단하는 ProjectProject 에서 사용하는 총 데이터의 수는 40,000개 이고 분류 클래스와 각 클래스에 해당하는 데이터 수는 밑에 그림과 같음. 기본적인 BaseLine Model 모델을 구축 vs Pre-Trained Model 사용 (Transfer Learning 기법 사용) 후 비교! 데이터를 Train / Validation / Test 데이터로 나누고 각각의 클래스에 해당하는 폴더에 저장하는 작업을 시행하여야 함.Train Data : 모델을 훈련시키기 위한 용도Validatio..

  • format_list_bulleted Data Engineer/AI
  • · 2024. 11. 16.
  • textsms
최신 데이터 인프라

최신 데이터 인프라

데이터 소스의 다양성대부분 조직에는 수백 개는 아니더라도 수십 개의 데이터 소스가 있으며, 이를 통해 분석 작업을 수행할 수 있음. Source System 소유권Data ingestion : 한 source에서 데이터를 추출하여 다른 소스로 로드하는 것을 의미한다..소스 시스템이 위치하는 곳이 어디인지를 이해하는 것은 여러 가지 이유로 중요타사 데이터 소스에 위치한 데이터에 엑세스하려고 한다면 액세스 방법에 제한이 걸릴 수 있음수집 인터페이스 및 데이터 구조데이터 엔지니어가 새로운 데이터 수집을 구축할 때 데이터 엔지니어가 가장 먼저 알아볼 것은 소스 데이터를 얻는 방법과 형식이다.아래는 데이터에 대한 인터페이스의 일반적인 것들이다.Postgres or MySQL DB와 같은 Application 뒤에..

  • format_list_bulleted Data Engineer/Data PipeLine
  • · 2024. 11. 15.
  • textsms
AI - Pytorch

AI - Pytorch

Pytorch란?딥러닝을 다루는 Library 중 하나Python의 언어 구조와 굉장히 유사하고 간결함내부적으로 CUDA, cuDNN 이라는 API를 이용해 GPU 연산을 가능하게 하고 연산 속도가 월등히 빠름2019년 중반 이후 부터는 Pytorch 구현 논문이 많아졌음 -> 위상이 높아짐데이터의 형태로 Tensor를 사용한다는 점Tensor수학적인 개념의 "데이터의 배열"과 같음0차원 - Scalar, 1차원 - Vector, 2차원 - Matrix, 3차원 이상 - n차원 Tensor (또는 초평면) 이라고 부름 Anaconda 설치Anaconda 는 선형 대수를 다루는 Numpy, 정형 데이터를 다루는 Pandas, 여러 머신러닝 알고리즘 모델이 포함된 Sklearn 등 기본 라이브러리를 제공가상..

  • format_list_bulleted Data Engineer/AI
  • · 2024. 11. 14.
  • textsms
  • navigate_before
  • 1
  • 2
  • 3
  • 4
  • navigate_next
공지사항
전체 카테고리
  • 분류 전체보기 (59)
    • Bootcamp (9)
    • Java (5)
    • Algorithm (10)
    • Git (2)
    • Data Engineer (21)
      • Data PipeLine (3)
      • AI (11)
      • SQLD (4)
    • Python (1)
    • Front-end (0)
      • React (0)
    • Back-end (10)
      • Django (5)
      • Spring-boot (5)
    • Network (1)
최근 글
인기 글
최근 댓글
태그
  • #오블완
  • #data engineer
  • #pytorch
  • #deep learning
  • #데이터 파이프라인 핵심 가이드
  • #ai
  • #티스토리챌린지
  • #코딩테스트
  • #코드트리
  • #코드트리조별과제
전체 방문자
오늘
어제
전체
Copyright © 쭈미로운 생활 All rights reserved.
Designed by JJuum

티스토리툴바