5일간 수행한 파이썬 실무 프로젝트를 발표하고 다른 팀의 발표를 듣는 시간을 가졌다.
우리팀 프로젝트
소속연예인의 스캔들과 주가 간의 상관관계
- 스캔들 기사 발표일 기준으로 주가가 하락한다면, 주가가 며칠만에 회복하는지 분석
- 여자아이돌의 스캔들의 경우 남자아이돌보다 변동폭과 거래량이 많았다
- 군입대나 계약문제가 있을 경우 확실하게 하락한다.
- 결별은 열애설보다 영향을 덜 받는다
- 스캔들이 있다고 해서 무조건 주가가 하락하는 것은 아니다
결론
신중하게 거래하고, 물렸으면 5~7일은 잡고있어라
피드백
- 데이터 수집 및 전처리하는 과정이 정말 중요하고, 뒤의 시각화는 스킬적인 부분.
- 데이터 수집기간/ 데이터 수집량/ 출처 등 처음에 보여주면 좋음(데이터의 특성을 보기 좋게)
- 어떤 역경과 고난 속에서 데이터를 수집했는지 보여줬으면 좋았을 것 같다
- 이상치의 경우 그냥 제외하는 게 아니라 분석해봤으면 좋았을 듯
- 감정분석의 경우 자세한 자료를 첨부하면서 gpt에게 질문하면서 물어보면 달랐을 것 같다
- 결과를 낸 것은 좋지만 왜 이랬을까를 한번 더 Why를 물어봤으면 좋았을 것 같다.
프로젝트 회고
keep
- 배운 것 외에도 다른 검증 방법을 시도해본 것
- 데이터 수집에 어려움을 겪었음에도 잘 해낸 것
- 개인 가설을 빠르게 검증하고 검토한 것
problem
- 데이터가 적어서 정규성을 충족하지 못함
- 앞쪽에 데이터 수집기간 데이터 수집량 등 한 페이지로 정리했으면 좋았을 듯
- 팀원들 가설이 중복되는 면이 있었음
- 기존에 익숙한 방법 외에도 다양한 방법을 사용했으면 좋았을 듯
- 각자가 뭘 하고 있는지 공유가 잘 안된 것 같음
try
- 데이터 수집량을 늘리면 좋을 것 같다
- 강의에서 배운 걸 충분히 활용하지 못한 것 같아서 공부를 좀 더 해야할 듯
- 구글스프레드 시트 등을 통해서 각자가 무엇을 진행해야 하고, 하고 있는지 좀 더 잘 공유하기
특강 : 데이터 분석가 해부
주요한 멘토님 특강
데이터 분석은 서로 상호간의 합의를 이끌어내기 위해서다
데이터 분석을 위해 필요한 것
- 목표:
- 방법:
- 귀무가설:
- 대립가설:
데이터 분석이 필요한 예시
예시1
목표: 지역별 대학생 거주인구 수와 지역별 카페의 1년 내 폐점률 두 변수 간의 상관관계 분석
방법: 두 연속형변수 -> 두 변수간의 상관관계 분석
예시2
앱을 사용하기 이전과 이후의 토익점수가 실제로 차이가 있는지를 통계적으로 검증하고 싶다
목표:영어 교육앱의 사용 전후에 영어 점수의 차이가 있는지 비교
방법: 하나의 모집단에서 샘플링 된 두 집단의 비교를 위해 대응표본 t검정 사용
귀무가설: 앱 사용 전과 후의 영어점수는 유의미한 차이가 없다
대립가설: 앱 사용 전과 후의 영어점수는 유의미한 차이가 있다.
+) 두 범주형 변수를 비교하기 위해 동질성 검정을 수행한다.
목표를 위한 방법 설정
목표: 투썸플레이스 매장의 매출 추정
방법: 추정 논리 수립(MECE: 빠지는 게 없는지 중복되는 게 없는지), 로직트리, 페르미추정 - 데이터 수집 - 계산
MECE: 인풋을 줄인다 아웃풋을 늘린다
페르미 추정: 하나의 단서를 가지고 수행한다.
데이터분석을 위해 필요한 과정
(상황에 따라 어떤 단계는 건너 뛰어도 OK)
1. 문제, 목표 정의
2. 논리를 세우고, 데이터 만들기
- -인터뷰를 통해 고객 설문구하기
- -리서치하기
- -로그 설계하기
3. 쌓인 데이터에서 필요한 데이터를 선별하고 조회하기
- -쿼리로 조회하기
- -비정형 데이터 가공하기->파이썬으로 데이터 가공하기
- -데이터인프라 구축하기
4. 갖고있는 가설을 검증하기
- -통계분석/검정
- -수학적 모델링
5. 결과를 공유하기
- -데이터시각화->파이썬/엑셀로
데이터로 일하는 조직이 되기 위해 필요한 것
- 1. 데이터 분석을 위한 인프라
- 2. 데이터 리터러시
인프라
- -믹스패널
- -브레이즈
- -여러 Sass 서비스
툴을 썻을때 좋은 점은 업무를 하는 과정을 남기고 데이터 분석을 할 수 있는 여지를 남겨준다는 점
데이터 수집할 때 막막하다 싶으면 이런 툴을 소개시키고 도입하도록 유도하는 것도 방법
데이터 리터러시
- 조직이 데이터로 일할 수 있는 문화와 역량을 갖추고 있어야함(특히 리더쉽)
- 높은 수준의 데이터분석을 모두가 갖추는 게 아닌, 아이디어에 대해 데이터로 논의하는 문화가 필요
- 리터러시가 낮은 조직이라면? 데이터 수집, 가시화에 집중. 눈에 보이면 관리에 대한 니즈가 생김
눈으로 보기 전해는 이게 왜 중요한지 모름 근데 SASS 툴을 보면 문제를 인식하고 변화가 생긴다
데이터직군
머신러닝 엔지니어, 데이터사이언티스트랑 데이터애널리스트를 구분하기도 구분하지 않기도.
연구를 하느냐(모델링, 미래예측) 기획자에 가까우냐에 따라 조금씩 차이만.
데이터 분석가
큰 기업으로 가는게 흐름을 이해하는 게 좋을 것 같고
작은 기업으로 가면 제네럴리스트가 될 수 있음
데이터를 만드는데에 집중하는 회사(규모가 작음)
VS
데이터에서 필요한 데이터를 찾는데에 집중하는 회사(규모가 큼)
분석업무(분석목적에 따른 분류 예시)
- 집계: 매출현황, 사용자 현황 등 집계 후 대시보드화
- 사후분석: 마케팅 후 효과 추정 등
- 실험 설계: AB테스트
- 모델링 및 production
- 예측모델 개발 및 발표
- 업무 규모에 따른 분류 예시 유지보수: 만들어진 대시보드나 모델의 관리 및 유지 보수
- adhoc: 이벤트성 분석 요청
- 대형 프로젝트: 여러 팀원들과 함께 수행하는 프로젝트
분석가에 들어오는 업무요청 방식
가벼운 요청은 슬랙에, 무게감이 있는 것은 부서장을 통해 요청을 하거나 사내에서 TF를 구축하기도
최근에는 스쿼드 & 챕터 조직 형태로 운영하는 경우도 많음
가치창출 사례
1. 수요예측(최신 데이터를 모델에 자주 적용하며 예측주기를 짧게 운영함으로써 예측값을 정교하게 만든다)
마켓컬리 기술블로그 예시
2. 인과분석: 아이템에 대한 만족도가 게임에 대한 만족도를 높일까?
3. 최적화: 경로 최적화
포트폴리오를 고민하는 사람들에게
- 고민은 많이
- 자료는 compact
- 실패의 중간했던 과정이나 lesson learned같은 것들은 서로의 회고를 놔두고 포트폴리오에 포함하기는 적절치 x
- 내가 무엇을 했는지, 그리고 결론 위주로.
- 자료를 compact하게 zoom in/ zoom out
'성동2기 데이터분석가' 카테고리의 다른 글
[성동2기 전Z전능 데이터 분석가] DAY 27-엑셀과 데이터리터러시(1) (0) | 2024.06.24 |
---|---|
[성동2기 전Z전능 데이터 분석가] DAY 26-개인 포트폴리오 정리 (0) | 2024.06.22 |
[성동2기 전Z전능 데이터 분석가] DAY 24-파이썬 실무프로젝트(5) (0) | 2024.06.20 |
[성동2기 전Z전능 데이터 분석가] DAY 23-파이썬 실무프로젝트(4) (0) | 2024.06.18 |
[성동2기 전Z전능 데이터 분석가] DAY 22-파이썬 실무프로젝트(3) (0) | 2024.06.17 |