ETL과 ELTData Warehousing 에 뿌리를 두고 있는 이 두 패턴은 모두 데이터 웨어하우스에 데이터를 공급하고 분석가나 보고 도구가 이를 유용하게 쓸 수 있게 하는 데이터 처리에 대한 접근 방식임.차이점은 마지막 두 단계 (Transform & Load) 의 순서임. Extract : 로드 및 변환을 준비하기 위해 다양한 소스에서 데이터를 수집Load : 원본 데이터 (ELT) 또는 완전히 변환된 데이터 (ETL)를 최종 대상으로 가져온다. 어느 쪽이든 최종 결과는 데이터 웨어하우스, 데이터 레이크 또는 기타 대상에 데이터를 로드하는 것,,Transform : 분석가, 시각화 도구 또는 파이프라인이 제공하는 모든 사용 사례에 유용하게 쓸 수 있게 각 소스 시스템의 원본 데이터를 결합하고 형식..
SubQuery하나의 쿼리 안에 존재하는 또 다른 쿼리바깥에 있는 엄마쿼리를 메인쿼리 - 안에 있는 아기쿼리를 서브쿼리위치에 따른 SubQuerySELECT 절FROM 절WHERE 절, HAVING 절Scalar SubQueryInline ViewNested SubQuery Scalar SubQuery주로 SELECT 절에 위치하지만, Column이 올 수 있는 대부분의 위치에 사용 가능반드시 하나의 값만을 반환해야 하며, 그렇지 않은 경우 에러 발생Inline ViewFROM 절 등 테이블명이 올 수 있는 위치에 사용 가능Nested SubQueryWHERE 절과 HAVING 절에 사용 가능Main Query와의 관계에 따라 나눌 수 있음Uncorrelated SubQuerycorrelated SubQ..
NLP (Natural Language Processing)다양한 분야가 존재Text Classification, Sentiment Analysis, Summarization, Machine Translation, Question Answering국민청원 분류TextCNN 이라는 모델을 적용수많은 청원 글 중 주목받을 만한 글을 예측하는 것이 목적관심이 필요한 많은 사연들에 사람들의 눈길이 한 번 더 닿는 것프로젝트의 전체적인 흐름"주목받을 만한" 이라는 표현이 모호함주관적 판단을 배제할 수 있는 방법으로 Deep Learning 도입Model 을 통하여 높은 청원 참여인원을 기록한 글들의 특징을 학습하여 새로운 글이 입력되었을 때 청원 참여인원이 높은 글들과의 유사성을 계산하여 주목받을 만한 글인지 아..
출처 : "한 줄씩 따라 해보는 파이토치 딥러닝 프로젝트" (이경택, 박희경, 전종섭, 김수지, 신훈철, 조민호, 이승현, 심은선, 장예은) 이미지 분류 모델을 활용하여 작물 잎 사진의 종류와 질병 유무를 판단하는 ProjectProject 에서 사용하는 총 데이터의 수는 40,000개 이고 분류 클래스와 각 클래스에 해당하는 데이터 수는 밑에 그림과 같음. 기본적인 BaseLine Model 모델을 구축 vs Pre-Trained Model 사용 (Transfer Learning 기법 사용) 후 비교! 데이터를 Train / Validation / Test 데이터로 나누고 각각의 클래스에 해당하는 폴더에 저장하는 작업을 시행하여야 함.Train Data : 모델을 훈련시키기 위한 용도Validatio..
데이터 소스의 다양성대부분 조직에는 수백 개는 아니더라도 수십 개의 데이터 소스가 있으며, 이를 통해 분석 작업을 수행할 수 있음. Source System 소유권Data ingestion : 한 source에서 데이터를 추출하여 다른 소스로 로드하는 것을 의미한다..소스 시스템이 위치하는 곳이 어디인지를 이해하는 것은 여러 가지 이유로 중요타사 데이터 소스에 위치한 데이터에 엑세스하려고 한다면 액세스 방법에 제한이 걸릴 수 있음수집 인터페이스 및 데이터 구조데이터 엔지니어가 새로운 데이터 수집을 구축할 때 데이터 엔지니어가 가장 먼저 알아볼 것은 소스 데이터를 얻는 방법과 형식이다.아래는 데이터에 대한 인터페이스의 일반적인 것들이다.Postgres or MySQL DB와 같은 Application 뒤에..
Pytorch란?딥러닝을 다루는 Library 중 하나Python의 언어 구조와 굉장히 유사하고 간결함내부적으로 CUDA, cuDNN 이라는 API를 이용해 GPU 연산을 가능하게 하고 연산 속도가 월등히 빠름2019년 중반 이후 부터는 Pytorch 구현 논문이 많아졌음 -> 위상이 높아짐데이터의 형태로 Tensor를 사용한다는 점Tensor수학적인 개념의 "데이터의 배열"과 같음0차원 - Scalar, 1차원 - Vector, 2차원 - Matrix, 3차원 이상 - n차원 Tensor (또는 초평면) 이라고 부름 Anaconda 설치Anaconda 는 선형 대수를 다루는 Numpy, 정형 데이터를 다루는 Pandas, 여러 머신러닝 알고리즘 모델이 포함된 Sklearn 등 기본 라이브러리를 제공가상..