성동2기 데이터분석가

[성동2기 전Z전능 데이터 분석가] DAY 14

성동2기_YJ 2024. 5. 31. 23:50

2024.05.31🥲

 AI와 머신러닝 개념 및 주요 분석 기법 

인공지능의 정의와 개념

인공지능

지능을 가진 기계를 만드는 연구하는 학문/기술

 

머신러닝

  • 인공지능을 만들기 위해 데이터를 통해 학습하고 개선하는 방법으로 데이터가 주어지면 기계가 스스로 학습한다.
  • 신경망(neural network) 등 다양한 기법이 존재한다.
    (신경망 모델: 뇌의 뉴런과 유사한 정보 입력층계층 활용 → 데이터 학습)
  • 비정형데이터를 정형데이터로 변환해서 컴퓨터한테 학습시킨다

    정형데이터
    샘플: 데이터집합에서의 데이터 요소

    특징/특성: 각각 샘플이 가지고 있는 속성
    레이블/타깃: 모델이나 분류 작업에서 예측하고자 하는 변수

 

딥러닝

신경망 모델을 깊게 구축하고 학습시키는 방법

 

머신러닝

데이터가 주어지면 기계가 스스로 학습

비정형데이터를 정형데이터로 변환해서 컴퓨터한테 학습시킨다

 

정형데이터

샘플: 데이터집합에서의 데이터 요소

특징/특성: 각각 샘플이 가지고 있는 속성

레이블/타깃: 모델이나 분류 작업에서 예측하고자 하는 변수

 


머신러닝 VS 딥러닝

머신러닝

Feature Engineering->Feature Vector -> 분류기(Classifier) 구축-> 고양이/개

딥러닝

모델학습=Feature Engineering+Classifier-> 고양이/개

 

머신러닝은 사람이 좀 떠먹여줘야하고 딥러닝은 아웃풋이 나올 때까지 인풋을 주면서 굴린다.

그래서 연구에서 딥러닝을 썼다, 하면 받아들여지지 않는 편.

 

 


 

머신러닝의 종류

지도학습 ->  분류, 회귀

  • 레이블이 있는 문제를 다루는 방법
  • 목표: 레이블 예측
  • 레이블의 종류에 따라 분류, 회귀로 나눌 수 있음

 

비지도학습-> 군집화, 차원축소

  • 레이블이 없는 문제를 다루는 방법
  • 목표: 정답이 있지 않고 숨겨진 구조, 패턴을 발견하여 새로운 인사이트를 도출해내는 것
  • 비슷한 데이터를 묶어주는 군집화

군집화 ☆

데이터를 분류하기 위한 기준이 명확하게 존재하지 않는 경우,

특정이 유사한 데이터끼리 묶어 여러 개의 군집으로 나누는 방법

->몇 개의 군집으로 묶을 것인지 파악(사전에 결정하는 알고리즘)

 

차원의 저주

고정된 크기의 데이터셋이 차원이 늘어나면서 특성 공간이 희소해지는 현상

고차원 공간에서의 두 관측치 사이의 거리 -> 저차원 공간에서의 두 관측치 사이 거리

 

Q. 딥러닝과 비지도학습의 차이?
A. 딥러닝은 feature를 아예 고려하지 않고 그냥 전부 때려박는다.
     비지도학습은 비지도라고 되어있지만 사람이 계속 관여한다.

 

 

머신러닝 절차

  1. 데이터 수집
  2. 데이터전처리
  3. 모델 검증 및 선택
  4. 성능 평가
  5. 활용

데이터분석의 종류

탐색적 데이터 분석(EDA)

쌓여있는 데이터를 기반으로 가설을 세워 데이터를 분석하는 방법

 

확증적 데이터 분석(CDA)

목적을 가지고 데이터를 수집 분석하는 방법