본문 바로가기

성동2기 데이터분석가

[성동2기 전Z전능 데이터 분석가] DAY 25-파이썬 실무프로젝트(6) & 특강

5일간 수행한 파이썬 실무 프로젝트를 발표하고 다른 팀의 발표를 듣는 시간을 가졌다.

 

우리팀 프로젝트

 

소속연예인의 스캔들과 주가 간의 상관관계


더보기
  • 스캔들 기사 발표일 기준으로 주가가 하락한다면, 주가가 며칠만에 회복하는지 분석
  • 여자아이돌의 스캔들의 경우 남자아이돌보다 변동폭과 거래량이 많았다
  • 군입대나 계약문제가 있을 경우 확실하게 하락한다.
  • 결별은 열애설보다 영향을 덜 받는다
  • 스캔들이 있다고 해서 무조건 주가가 하락하는 것은 아니다

 

결론

신중하게 거래하고, 물렸으면 5~7일은 잡고있어라

 


 

피드백

 

  • 데이터 수집 및 전처리하는 과정이 정말 중요하고, 뒤의 시각화는 스킬적인 부분.
  • 데이터 수집기간/ 데이터 수집량/ 출처 등 처음에 보여주면 좋음(데이터의 특성을 보기 좋게)
  • 어떤 역경과 고난 속에서 데이터를 수집했는지 보여줬으면 좋았을 것 같다
  • 이상치의 경우 그냥 제외하는 게 아니라 분석해봤으면 좋았을 듯
  • 감정분석의 경우 자세한 자료를 첨부하면서 gpt에게 질문하면서 물어보면 달랐을 것 같다
  • 결과를 낸 것은 좋지만 왜 이랬을까를 한번 더 Why를 물어봤으면 좋았을 것 같다.

 

 

 

프로젝트 회고

 

keep

  • 배운 것 외에도 다른 검증 방법을 시도해본 것
  • 데이터 수집에 어려움을 겪었음에도 잘 해낸 것
  • 개인 가설을 빠르게 검증하고 검토한 것

problem

  • 데이터가 적어서 정규성을 충족하지 못함
  • 앞쪽에 데이터 수집기간 데이터 수집량 등 한 페이지로 정리했으면 좋았을 듯
  • 팀원들 가설이 중복되는 면이 있었음
  • 기존에 익숙한 방법 외에도 다양한 방법을 사용했으면 좋았을 듯
  • 각자가 뭘 하고 있는지 공유가 잘 안된 것 같음

try

  • 데이터 수집량을 늘리면 좋을 것 같다
  • 강의에서 배운 걸 충분히 활용하지 못한 것 같아서 공부를 좀 더 해야할 듯
  • 구글스프레드 시트 등을 통해서 각자가 무엇을 진행해야 하고, 하고 있는지 좀 더 잘 공유하기

 


 

특강 : 데이터 분석가 해부

주요한 멘토님 특강

 

 

데이터 분석은 서로 상호간의 합의를 이끌어내기 위해서다

 

 

 

데이터 분석을 위해 필요한 것

  • 목표:
  • 방법:
  • 귀무가설:
  • 대립가설:

 

 

데이터 분석이 필요한 예시

예시1

목표: 지역별 대학생 거주인구 수와 지역별 카페의 1년 내 폐점률 두 변수 간의 상관관계 분석

방법: 두 연속형변수 -> 두 변수간의 상관관계 분석

 

 

예시2

앱을 사용하기 이전과 이후의 토익점수가 실제로 차이가 있는지를 통계적으로 검증하고 싶다

목표:영어 교육앱의 사용 전후에 영어 점수의 차이가 있는지 비교

방법: 하나의 모집단에서 샘플링 된 두 집단의 비교를 위해 대응표본 t검정 사용

귀무가설: 앱 사용 전과 후의 영어점수는 유의미한 차이가 없다

대립가설: 앱 사용 전과 후의 영어점수는 유의미한 차이가 있다.

 

+) 두 범주형 변수를 비교하기 위해 동질성 검정을 수행한다.

 

 

목표를 위한 방법 설정

목표: 투썸플레이스 매장의 매출 추정

방법: 추정 논리 수립(MECE: 빠지는 게 없는지 중복되는 게 없는지), 로직트리, 페르미추정 - 데이터 수집 - 계산

MECE: 인풋을 줄인다 아웃풋을 늘린다

페르미 추정: 하나의 단서를 가지고 수행한다.

 

 

 

데이터분석을 위해 필요한 과정

(상황에 따라 어떤 단계는 건너 뛰어도 OK)

 

1. 문제, 목표 정의

 

2. 논리를 세우고, 데이터 만들기

  • -인터뷰를 통해 고객 설문구하기
  • -리서치하기
  • -로그 설계하기

 

3. 쌓인 데이터에서 필요한 데이터를 선별하고 조회하기

  • -쿼리로 조회하기
  • -비정형 데이터 가공하기->파이썬으로 데이터 가공하기
  • -데이터인프라 구축하기 

 

4. 갖고있는 가설을 검증하기

  • -통계분석/검정
  • -수학적 모델링

 

5. 결과를 공유하기

  • -데이터시각화->파이썬/엑셀로

 

 

 

데이터로 일하는 조직이 되기 위해 필요한 것

  1. 1. 데이터 분석을 위한 인프라
  2. 2. 데이터 리터러시

 

인프라

  • -믹스패널
  • -브레이즈
  • -여러 Sass 서비스

 

툴을 썻을때 좋은 점은 업무를 하는 과정을 남기고 데이터 분석을 할 수 있는 여지를 남겨준다는 점
데이터 수집할 때 막막하다 싶으면 이런 툴을 소개시키고 도입하도록 유도하는 것도 방법

 

 

 

데이터 리터러시

  • 조직이 데이터로 일할 수 있는 문화와 역량을 갖추고 있어야함(특히 리더쉽)
  • 높은 수준의 데이터분석을 모두가 갖추는 게 아닌, 아이디어에 대해 데이터로 논의하는 문화가 필요
  • 리터러시가 낮은 조직이라면? 데이터 수집, 가시화에 집중. 눈에 보이면 관리에 대한 니즈가 생김

 

눈으로 보기 전해는 이게 왜 중요한지 모름 근데 SASS 툴을 보면 문제를 인식하고 변화가 생긴다

 

 

 

데이터직군

머신러닝 엔지니어, 데이터사이언티스트랑 데이터애널리스트를 구분하기도 구분하지 않기도.

연구를 하느냐(모델링, 미래예측) 기획자에 가까우냐에 따라 조금씩 차이만.

 

데이터 분석가 

큰 기업으로 가는게 흐름을 이해하는 게 좋을 것 같고

작은 기업으로 가면 제네럴리스트가 될 수 있음

 

 

데이터를 만드는데에 집중하는 회사(규모가 작음)

VS

데이터에서 필요한 데이터를 찾는데에 집중하는 회사(규모가 큼)

 

 

 

 

분석업무(분석목적에 따른 분류 예시)

  • 집계: 매출현황, 사용자 현황 등 집계 후 대시보드화
  • 사후분석: 마케팅 후 효과 추정 등
  • 실험 설계: AB테스트
  • 모델링 및 production
  • 예측모델 개발 및 발표

 

  • 업무 규모에 따른 분류 예시 유지보수: 만들어진 대시보드나 모델의 관리 및 유지 보수
  • adhoc: 이벤트성 분석 요청
  • 대형 프로젝트: 여러 팀원들과 함께 수행하는 프로젝트

 

 

분석가에 들어오는 업무요청 방식

가벼운 요청은 슬랙에, 무게감이 있는 것은 부서장을 통해 요청을 하거나 사내에서 TF를 구축하기도

 

최근에는 스쿼드 & 챕터 조직 형태로 운영하는 경우도 많음

 

 

 

가치창출 사례

1. 수요예측(최신 데이터를 모델에 자주 적용하며 예측주기를 짧게 운영함으로써 예측값을 정교하게 만든다)

마켓컬리 기술블로그 예시

 

2. 인과분석: 아이템에 대한 만족도가 게임에 대한 만족도를 높일까?

 

3. 최적화: 경로 최적화

 

 

포트폴리오를 고민하는 사람들에게

  • 고민은 많이
  • 자료는 compact
  • 실패의 중간했던 과정이나 lesson learned같은 것들은 서로의 회고를 놔두고 포트폴리오에 포함하기는 적절치 x
  • 내가 무엇을 했는지, 그리고 결론 위주로.
  • 자료를 compact하게 zoom in/ zoom out