성동2기 데이터분석가
[성동2기 전Z전능 데이터 분석가] DAY 14
성동2기_YJ
2024. 5. 31. 23:50
2024.05.31🥲
AI와 머신러닝 개념 및 주요 분석 기법
인공지능의 정의와 개념
인공지능
지능을 가진 기계를 만드는 연구하는 학문/기술
머신러닝
- 인공지능을 만들기 위해 데이터를 통해 학습하고 개선하는 방법으로 데이터가 주어지면 기계가 스스로 학습한다.
- 신경망(neural network) 등 다양한 기법이 존재한다.
(신경망 모델: 뇌의 뉴런과 유사한 정보 입력층계층 활용 → 데이터 학습) - 비정형데이터를 정형데이터로 변환해서 컴퓨터한테 학습시킨다
정형데이터
샘플: 데이터집합에서의 데이터 요소
특징/특성: 각각 샘플이 가지고 있는 속성
레이블/타깃: 모델이나 분류 작업에서 예측하고자 하는 변수
딥러닝
신경망 모델을 깊게 구축하고 학습시키는 방법
머신러닝
데이터가 주어지면 기계가 스스로 학습
비정형데이터를 정형데이터로 변환해서 컴퓨터한테 학습시킨다
정형데이터
샘플: 데이터집합에서의 데이터 요소
특징/특성: 각각 샘플이 가지고 있는 속성
레이블/타깃: 모델이나 분류 작업에서 예측하고자 하는 변수
머신러닝 VS 딥러닝
머신러닝
Feature Engineering->Feature Vector -> 분류기(Classifier) 구축-> 고양이/개
딥러닝
모델학습=Feature Engineering+Classifier-> 고양이/개
머신러닝은 사람이 좀 떠먹여줘야하고 딥러닝은 아웃풋이 나올 때까지 인풋을 주면서 굴린다.
그래서 연구에서 딥러닝을 썼다, 하면 받아들여지지 않는 편.
머신러닝의 종류
지도학습 -> 분류, 회귀
- 레이블이 있는 문제를 다루는 방법
- 목표: 레이블 예측
- 레이블의 종류에 따라 분류, 회귀로 나눌 수 있음
비지도학습-> 군집화, 차원축소
- 레이블이 없는 문제를 다루는 방법
- 목표: 정답이 있지 않고 숨겨진 구조, 패턴을 발견하여 새로운 인사이트를 도출해내는 것
- 비슷한 데이터를 묶어주는 군집화
군집화 ☆
데이터를 분류하기 위한 기준이 명확하게 존재하지 않는 경우,
특정이 유사한 데이터끼리 묶어 여러 개의 군집으로 나누는 방법
->몇 개의 군집으로 묶을 것인지 파악(사전에 결정하는 알고리즘)
차원의 저주
고정된 크기의 데이터셋이 차원이 늘어나면서 특성 공간이 희소해지는 현상
고차원 공간에서의 두 관측치 사이의 거리 -> 저차원 공간에서의 두 관측치 사이 거리
Q. 딥러닝과 비지도학습의 차이?
A. 딥러닝은 feature를 아예 고려하지 않고 그냥 전부 때려박는다.
비지도학습은 비지도라고 되어있지만 사람이 계속 관여한다.
머신러닝 절차
- 데이터 수집
- 데이터전처리
- 모델 검증 및 선택
- 성능 평가
- 활용
데이터분석의 종류
탐색적 데이터 분석(EDA)
쌓여있는 데이터를 기반으로 가설을 세워 데이터를 분석하는 방법
확증적 데이터 분석(CDA)
목적을 가지고 데이터를 수집 분석하는 방법