출처 : "한 줄씩 따라 해보는 파이토치 딥러닝 프로젝트" (이경택, 박희경, 전종섭, 김수지, 신훈철, 조민호, 이승현, 심은선, 장예은) 이미지 분류 모델을 활용하여 작물 잎 사진의 종류와 질병 유무를 판단하는 ProjectProject 에서 사용하는 총 데이터의 수는 40,000개 이고 분류 클래스와 각 클래스에 해당하는 데이터 수는 밑에 그림과 같음. 기본적인 BaseLine Model 모델을 구축 vs Pre-Trained Model 사용 (Transfer Learning 기법 사용) 후 비교! 데이터를 Train / Validation / Test 데이터로 나누고 각각의 클래스에 해당하는 폴더에 저장하는 작업을 시행하여야 함.Train Data : 모델을 훈련시키기 위한 용도Validatio..
데이터 소스의 다양성대부분 조직에는 수백 개는 아니더라도 수십 개의 데이터 소스가 있으며, 이를 통해 분석 작업을 수행할 수 있음. Source System 소유권Data ingestion : 한 source에서 데이터를 추출하여 다른 소스로 로드하는 것을 의미한다..소스 시스템이 위치하는 곳이 어디인지를 이해하는 것은 여러 가지 이유로 중요타사 데이터 소스에 위치한 데이터에 엑세스하려고 한다면 액세스 방법에 제한이 걸릴 수 있음수집 인터페이스 및 데이터 구조데이터 엔지니어가 새로운 데이터 수집을 구축할 때 데이터 엔지니어가 가장 먼저 알아볼 것은 소스 데이터를 얻는 방법과 형식이다.아래는 데이터에 대한 인터페이스의 일반적인 것들이다.Postgres or MySQL DB와 같은 Application 뒤에..
Pytorch란?딥러닝을 다루는 Library 중 하나Python의 언어 구조와 굉장히 유사하고 간결함내부적으로 CUDA, cuDNN 이라는 API를 이용해 GPU 연산을 가능하게 하고 연산 속도가 월등히 빠름2019년 중반 이후 부터는 Pytorch 구현 논문이 많아졌음 -> 위상이 높아짐데이터의 형태로 Tensor를 사용한다는 점Tensor수학적인 개념의 "데이터의 배열"과 같음0차원 - Scalar, 1차원 - Vector, 2차원 - Matrix, 3차원 이상 - n차원 Tensor (또는 초평면) 이라고 부름 Anaconda 설치Anaconda 는 선형 대수를 다루는 Numpy, 정형 데이터를 다루는 Pandas, 여러 머신러닝 알고리즘 모델이 포함된 Sklearn 등 기본 라이브러리를 제공가상..
관계형 데이터베이스 개요DB데이터들을 저장하는 공간용도와 목적에 맞는 데이터들끼리 모아서 저장 관계형 데이터베이스 (Relational DB)관계형 데이터 모델에 기초를 둔 DB모든 데이터를 2차원 테이블 형태로 표현한 뒤 각 테이블 간의 관계 정의RDBMS (Relational DB Management System) : RDB를 관리, 감독하기 위한 시스템 -> Oracle, SQL Server, MySQL, MariaDB, PostgreSQL 등이 이에 속함.TABLE엑셀을 작성할 때 흔히 이용하는 표 형식Row : 각각의 가로 행Col : 세로 열로, 속성이라고도 표현한다. 관계형 데이터베이스의 기본 단위이고 DB는 여러 개의 테이블로 구성된다.TABLE 형태로 데이터를 저장하는 주된 목적은 데이터..
Deep Learning 머신러닝딥러닝활용 데이터 형태정형 데이터비정형 데이터데이터 의존도데이터가 적어도, 적정 수준의 성능 확보 가능데이터가 적으면, 성능이 좋지 않음하드웨어 의존도저사양 하드웨어에서 실행 가능고사양 하드웨어(GPU) 필요설명력회귀분석, 의사결정 나무 등 설명력이 강점인 방법론이 있음모델 내부 연산 논리에 대해 추론이 어려움문제 해결 방법분석가가 임의로 문제를 여러 단계로 나누어 해결End-to-End 방식으로 입력부터 출력까지 분석가의 개입 없이 가능특징(Feature) 추출도메인 지식 또는 분석가의 의견이 반영되어 생성(Feature Engineering)딥러닝 네트워크 내부에서 스스로 학습(Feature Extraction) 비정형 데이터의 경우 일반적으로 높은 차원의 형태차원이 ..
API 사용 요금API (Application Programming Interface : Software Application 구축하고 상호 작용하기 위한 규칙과 프로토콜의 집합개발자는 API를 사용하여 OpenAI 서버로 일련의 메시지를 보내고, 서버는 모델에서 생성된 메시지를 응답으로 반환OpenAI에서 제공하는 언어 모델마다 별도의 요금 정책이 존재GPT-4가장 우수한 성능을 가진 모델 (현재는 기본 모델)GPT-4o, GPT-4o-mini 라는 모델이 새로 등장첫 번째 GPT-4 모델최대 8,192개의 토큰 처리 가능GPT-3.5의 두 배 처리 능력두 번째 GPT-4 모델 (gpt-4-32k)최대 32,768개의 토큰 처리 가능세 번째 GPT-4 모델 (gpt-4-turbo)유일하게 2023년 4..