Devidas
close
프로필 배경
프로필 로고

Devidas

  • 분류 전체보기 (59)
    • Bootcamp (9)
    • Java (5)
    • Algorithm (10)
    • Git (2)
    • Data Engineer (21)
      • Data PipeLine (3)
      • AI (11)
      • SQLD (4)
    • Python (1)
    • Front-end (0)
      • React (0)
    • Back-end (10)
      • Django (5)
      • Spring-boot (5)
    • Network (1)
  • 홈
  • 태그
  • 방명록
  • 글쓰기
[Week 14] Day 3 - TIL

[Week 14] Day 3 - TIL

Topics Topic modeling Topic modeling Topic : 문서 집합 안에서 논의되는 주제나 개념을 의미함. Modeling : 통계적인 방법으로 데이터의 패턴을 추출하는 과정을 의미함. 따라서, Topic modeling 은 대규모 텍스트 데이터 안에 존재하는 다양한 주제를 자동으로 식별하고 분류하는 과정으로, 이를 통해 데이터 안에 숨겨진 주제 구조를 발견하고 이해하려고 한다. 텍스트 마이닝, 자연어 처리, 정보 검색 등 다양한 분야에서 활용한다. Topic modeling 주제 토픽 모델링의 주제는 일반적으로 단어의 집합으로 표현한다. 텍스트 내의 특정 패턴이나 빈도를 기준으로 선택한다. 데이터 소스에 따라서 주제의 범위가 결정되고, 하나의 문서에 다수의 주제가 포함될 수 있다..

  • format_list_bulleted Bootcamp
  • · 2024. 3. 5.
  • textsms
[Week 14] Day 2 - TIL

[Week 14] Day 2 - TIL

Topics Embedding Word embedding Sentence embedding Sentiment Analysis Embedding 언어라는 것은 특정 개념을 표현하기 위한 약속의 집합이다. 컴퓨터에게 인간의 언어를 입력하기 위해서는 컴퓨터가 이해할 수 있는 형태로 변경하여야 한다. 컴퓨터는 특정 단어를 숫자의 형태로 받아들이므로 단어를 숫자의 형태로 변형하는 과정이 필요한데 이 과정을 Embedding 이라고 한다. 즉, Embedding 의 정의는 다음과 같다. 텍스트 데이터 (글자) 를 벡터 (숫자) 로 변환하는 기술 자연어 처리에서 매우 기본적인 과정으로 글에서 유용한 정보를 추출해 분석하는 과정에서 컴퓨터가 이를 처리할 수 있도록 만듦 Embedding 을 진행하기 위한 과정 데이터 ..

  • format_list_bulleted Bootcamp
  • · 2024. 2. 28.
  • textsms
[Week 14] Day 1 - TIL

[Week 14] Day 1 - TIL

Topics 텍스트 마이닝이란 텍스트 마이닝의 절차 텍스트 마이닝의 사례 텍스트 마이닝이란 텍스트 데이터 (Text data) 문자, 문장, 단어로 구성된 데이터 대규모 데이터는 매일 약 8200만 TB의 텍스트가 생성되는데, 그 중에서 text만 추출한 것 텍스트 데이터를 통해 시장 변화를 파악하고 대응하거나, 고객의 요구사항과 feedback을 파악할 수 있음 텍스트 데이터의 특징 텍스트 데이터를 구성하는 요소 (문장, 문자, 단어) 에서 단어는 주변의 단어들과 연관성이 존재하는데, 이 연관성을 이해하는 방향으로 텍스트 데이터를 처리하여야 함 텍스트 데이터를 처리하는 과정에서 어려움이 발생할 수 있음 1. 비구조적(비정형) 데이터 2. 다양성, 다의성이 존재함 3. 언어별로 고유한 특징이 존재 (문법..

  • format_list_bulleted Bootcamp
  • · 2024. 2. 23.
  • textsms
[Week 11] Day 2 - TIL

[Week 11] Day 2 - TIL

Topics Data EDA Machine Learning Model 추론 과정 Data EDA 데이터 분석이나 모델링 전에 반드시 수행해야 하는 작업 데이터 특성을 확인 항상 깨끗한 데이터는 존재하지 않으므로 데이터 품질 측면에서는 항상 확인하여야 함 데이터를 의심하는 습관 들이기 (실제 Record check 하는 것이 가장 좋음) 데이터를 의심하는 습관 1. 중복 Record check (duplicates) 2. 최근 데이터 여부 파악 3. Primary key Uniqueness 4. 결측치 check 데이터 전처리 기법 1. 기술 통계 분석 숫자와 category 변수 파악 숫자는 숫자 범위, category 변수는 category 개수, 그리고 ML model encoding 방법을 결정 2..

  • format_list_bulleted Bootcamp
  • · 2024. 2. 6.
  • textsms
[Week 11] Day 1 - TIL

[Week 11] Day 1 - TIL

Topics Kaggle 소개 Kaggle competitions Kaggle 대회 실습 1. Kaggle 소개 ❶ Kaggle code Data science module 설치된 Jupyter python notebook 사용 가능 공유가 가능하여 학습에 최적화됨 ❷ Kaggle ranking Competitions, Datasets, Notebooks, Discussions 등을 통하여 Level 결정 Novices ➡️ Contributor ➡️ Experts ➡️ Masters ➡️ Grandmasters 순서로 금 / 은 / 동 메달의 기준은 각각 따로 정해져 있음 이력서를 작성할 때 우대사항 2. Kaggle Competitions Dataset Hosting Real-time Leaderbo..

  • format_list_bulleted Bootcamp
  • · 2024. 2. 5.
  • textsms
[Week 10] Day 1 - TIL

[Week 10] Day 1 - TIL

Topics Machine Learning 선형대수 확률 Machine Learning 1. Machine Learning 정의 간단히 요약하자면 데이터에서 지식을 추출하는 것을 Machine 이 스스로 할 수 있도록 학습하는 것이다. 데이터 내부에 존재하는 특징과 패턴들을 찾는 것을 스스로 할 수 있도록 하는 것이다. 여기서 특징과 패턴들을 Feature 라고 부른다. 인공지능 (AI) 과 ML, DL 의 차이와 발전되는 방향은 다음과 같다. AI : 기계가 사람처럼 생각하고 행동하면 좋겠다.. How? -> ML : 학습을 통해서 사람처럼 생각하여 예측을 진행해야겠다.. How? -> DL : 그렇다면 사람의 인지 과정을 모방해보자! ML은 명시적 프로그램인 Rule-Based Expert Syste..

  • format_list_bulleted Bootcamp
  • · 2024. 2. 5.
  • textsms
  • navigate_before
  • 1
  • 2
  • navigate_next
공지사항
전체 카테고리
  • 분류 전체보기 (59)
    • Bootcamp (9)
    • Java (5)
    • Algorithm (10)
    • Git (2)
    • Data Engineer (21)
      • Data PipeLine (3)
      • AI (11)
      • SQLD (4)
    • Python (1)
    • Front-end (0)
      • React (0)
    • Back-end (10)
      • Django (5)
      • Spring-boot (5)
    • Network (1)
최근 글
인기 글
최근 댓글
태그
  • #ai
  • #코드트리조별과제
  • #pytorch
  • #deep learning
  • #코딩테스트
  • #데이터 파이프라인 핵심 가이드
  • #코드트리
  • #오블완
  • #티스토리챌린지
  • #data engineer
전체 방문자
오늘
어제
전체
Copyright © 쭈미로운 생활 All rights reserved.
Designed by JJuum

티스토리툴바