본문 바로가기

성동2기 데이터분석가

[전Z전능 데이터분석가] DAY48~64 - 파이널프로젝트

데이터 분석 프로젝트 단계

1. 문제정의

2. 가설수립

3. 데이터 수집과 정리

4. 패턴 인식

5. 가설 검증

6. 결론과 의사결정

 

마일스톤을 세운 후 다음 순서에 따라 진행했다.


문제정의

 

주제
식습관 및 운동 등 생활패턴 유형별 주요발병예측모델링을 수행하고

이를 바탕으로 유형별 실질적인 맞춤형 솔루션의 기반을 만들고 기존 서비스를 개선 및 차별화한다.


Why
질병예방 및 건강 유지를 위해 어떻게 생활습관을 개선해야 하는지
유형별로 구체적으로 알아보고 이를 바탕으로 개선 및 차별화할만한 서비스가 있는지를 찾아내고자 한다

변화를 위해서는 개인별로 명확한 목표 제시가 필요하다. 

그러기 위해서 실질적으로 어떤 생활습관이 문제가 되고 있는지를 먼저 알아야 한다.

 

 

(멘토님 피드백)

  • 시장분석
  • 이 시장에 뛰어들었을 때 어느 정도의 수익을 얻을 수 있는가(간단하게만)
  • 액션플랜 어떤 식으로 수행할지
  • 기존 서비스의 정의/ 장점/ 단점
  • 우리는 거기서 어떻게 더 개선시킬 수 있는가
  • 주요질환발병확률모델링이라는 단어가 애매하다(수정완료)
  • 실질적으로는 모델링 만들기 전 데이터 정제 및 만들기를 수행하는 게 좋을 듯

시장분석

디지털 기기로 측정 가능한 수치

수면, 스트레스, 맥박, 혈압, 혈당, ECG

 

 

Continuous Glucose Monitoring이란?
CGM은 체외(땀이나 눈물) 또는 체내(간질액, 혈액)의 혈당을 연속적으로 측정하는 방식을 의미한다.

특히 국내 유통되는 ‘덱스콤G6′(국내 공급사 휴온스)와 ‘프리스타일 리브레'(애보트), ‘가디언커넥트 시스템'(메드트로닉)는 간질액 측정형 혈당측정기.

 

 

기존 서비스정의 (ㅍㅅㅌ 및 기존 헬스케어어플)

 

장점

  • 음식의 정보를 입력할 필요없이 사진만 찍으면 바로 입력이 가능하다
  • 혈당센서를 통해 내 혈당의 변화를 주기적으로 관찰이 가능하다

 

단점

  • 데이터를 일일히 입력해야하는 것이 많다
  • 고가의 혈당센서를 주기적으로 구매해야한다

 

 

보면서 든 생각

  • 해당 서비스의 경우 당뇨, 다이어트 관심이 있는 사람들만 사용
  • 계속 사용하기에는 센서가 고가로, 센서 종료될 시 앱삭할 가능성 매우 높음(지속성이 떨어짐)
  • 식단 기록 시 사진으로 기록 가능한 것은 매우 좋음(푸드샷)
  • 다른 만성질환은 커버불가능

 

정리

  • 문제점 헬스케어 어플이 질환별로 흩어져있고 통합되어있는 것은 없음
  • 개인이 문제의식을 가지기 전에는 관리하기가 힘든 구조
  • 접근성을 높이거나 아니면 타깃을 확실하게 정하는 것이 중요해보임
  • 맞춤형으로 생활패턴 유형별로 나뉜 건 없는 듯

가설수립

생활패턴과 당뇨, 비만에는 어느정도 상관관계가 있을 것이라는

가정 하에 관련이 높을 것으로 예상되는 특정 생활 패턴들을 선정하고 질병에 강한 영향을 줄 것이라고 가설을 세웠다.

이를 증명하고 영향력을 확인하고자 발병예측모델링 계획을 세웠다.

 

식습관 및 운동과 관련된 생활패턴을 선정하였으며 예시는 다음과 같다.

(더 많은 생활패턴을 선정했으나 일부만 기재)

  • 아침, 점심, 저녁을 거르는 빈도
  • 배달음식을 시켜먹는 빈도
  • 식사를 규칙적으로 하는가
  • 달콤한 음료 선호도
  • 알코올섭취
  • 꾸준한 운동
  • 1인 가구

 

 


데이터 수집과 정리

사용한 데이터

  • 식품소비행태조사(2022)
  • 국민건강통계(2022)

 

필요한 칼럼만 추출 및 추가하여 새로운 데이터셋을 만들고 해당 인덱스 설명을 작성했다.

 

예시)

  • 당뇨보유유무를 1과 0으로 이진형변수로 변환 
  • 키와 체중을 이용해 bmi 칼럼 추가
  • 달콤한 음료 선호를 1과 0으로 변환

 


패턴 인식

 

성별, 나이별로 군집화 후 살펴보면서 얻어낸 패턴(SQL로 데이터 추출, 엑셀로 시각화)

  • 비만분율 자체는 남자가 더 높다.
  • 남자의 비만분율은 우상향 추세(19~29세 남자와 30~39세 특히 급상승)
  • 체중감소시도 분율 자체도 남자는 여자에 비해 낮은 축이며 비만인지 분율 자체가 낮았음
  • 여성의 경우는 체중감소를 시도한 분율이 굉장히 높은 편이고 주체적 비만인지가 높다는 것을 알 수 있었다
  • 건강을 관리하고자 하는 집단은 19~60여성 공통적.
  • 당뇨의 경우, 전체의 3%로 표본이 굉장히 적어 유의미한 결과를 얻어내기 어려웠음

당뇨
비만

 

 


가설 검증

당뇨

x: : 나이, 성별, 1인 가구, 달콤한 음료 선호 정도, weight 등 생활패턴

Y: 당뇨 발병 유무(발병 : 1, 발병X : 0)

Y가 1과 0인 이진형변수이므로 로지스틱 회귀분석 사용

 

당뇨인 사람은 전체의 3% 당뇨인 사람이 너무 적어서 비교하기 어려움(데이터의 불균형)

-> SMOTE로 오버샘플링 (KNN기반)

-> 학습데이터와 테스트 데이터로 분할 후 성능 검증

 

가장 영향력이 높은 변수를 찾기 위해서 Lasso 회귀로 변수 선택 후 로지스틱 회귀분석 진행

모델 성능

 

 

비만

X: 나이, 성별, 1인 가구, 달콤한 음료 선호 정도, weight 등 생활패턴

Y: Bmi

Y가 연속형 변수이므로 회귀분석 사용

(Bmi의 경우 25이상일 때가 비만이므로, 가장 최적의 전처리 방법을 찾기 위해 3가지 방법으로 분석 및 방법 선택)

모델 성능

 


결론과 의사결정

 

인사이트

배달/테이크아웃 음식 의존도

 

아침식사 거르는 빈도
당뇨와 비만 모두 달콤한 음료 선호

 

어떤 생활습관이 어떻게 영향을 미쳤으며, 연령대와 성별에 따라 그 양상이 어떻게 달라지는지를 얻어낼 수 있었다.

1인가구유무와 규칙적식사, 달콤한 음료 선호, 아침거르는 빈도 등이 큰 영향을 끼쳤다는 것을 확인했다.

 

이번 프로젝트를 수행하며 유전적인 부분 또는 체질 등 바꿀 수 없는 부분이 존재하며, 어떤 생활 패턴을 가지고 있다는 것이 무조건 질병 발병으로 연결된다는 것은 아니라는 것에 주의하였다. 

그렇지만 특정 생활 패턴과의 상관성은 존재한다는 것에 집중하여 보았고,

이를 변화시켰을 때 개선 가능성을 보고자 하였다.

 

 

보완 및 추후 연구

  • 해당습관을 가지게 된 이유
  • 1형 당뇨와 2형 당뇨 구분
  • 발병 시점 조사
  • 달콤한 음료 섭취 빈도 조사
  • 개인의 변화 관찰 및 추적

위 부분을 보완한 연구가 이루어진다면 모델의 성능을 높이고 더 통찰력있는 결과를 얻어낼 수 있을 것이라고 생각한다.

 

평소 관심이 있었고 꼭 해보고 싶었던 주제였다.

식품영양학과라는 전공지식도 활용할 수 있었으며, 늘 어렵게만 느껴졌던 모델링도 직접 수행해볼 수 있었다.

진행하면서 어려운 점도 많았지만 많이 배웠고 성장할 수 있었다.

당뇨에 초점을 맞춰서 추가 연구를 진행하고, 통계를 더 공부하여 깊게 관찰해보고 싶다.

 

 

 

 

'성동2기 데이터분석가' 카테고리의 다른 글

파이널 프로젝트 KPT  (0) 2024.08.21
[성동 2기 전Z전능 분석가] DAY67 마지막.  (0) 2024.08.16
DAY46  (0) 2024.07.19
DAY 45  (0) 2024.07.18
[성동2기 전Z전능 데이터 분석가] DAY 42  (0) 2024.07.15