본문 바로가기

성동2기 데이터분석가

[성동2기 전Z전능 데이터 분석가] DAY 22-파이썬 실무프로젝트(3)

Daily Scrum

금요일에 오지 못한  분들께 정보를 전달하면서 진행했다.

 

지난주 완료한 작업

  • 지난주, 데이터 수집 및 클리닝 완료
  • 데이터 수집표 작성 완료
  • 기간별로 주가를 관찰하고 싶어서 멘토님께 질문

오늘 해야할 일

  • 주가에 영향을 줄 수 있는 다른 소식들 찾기
  • 그래프 보면서 비교
  • 어떤 지표를 기준으로 영향을 받았는지 정하기

 

 

개인별로 가설을 3개 세우고 검증해봤으면 좋겠다는 멘토님의 말씀에

기존에 세웠던 개인 가설을 다듬고 새로 세웠다.

 

가설

  1. 여자아이돌의 열애설이 남자아이돌의 열애설보다 주가에 큰 영향을 줄 것이다.
    Why: 대중의 경우 여자 아이돌에게 좀 더 엄격한 경향이 있기 때문이다
  2. 결별의 경우 열애설과 달리 주가에 영향을 주지 못할 것이다.
    Why: 결별의 경우 광고주 해지 등 다른 이슈와 이어지지 않기 떄문에
  3.  군입대 발표와 관련된 스캔들 시 열애설보다 주가 하락폭이 클 것이다.
    Why: 콘서트 등 활동량 저하로 인해 수익 저하와도 직접적으로 연결되기 때문이다.

가설 검증 방법 

 

1. 여자아이돌과 남자아이돌의 열애설이 있었을 때 각각의 주식 등락폭을 비교한다.

2. 결별과 열애설의 각각의 주식 등락폭을 비교한다.

3. 군입대 발표와 열애설의 각각의 주식 등락폭을 비교한다.

 

기준으로 삼아야할 지표: 등락폭(스캔들 전날과 당일의 종가 비교), 하루동안의 변동 추이(막대의 길이), 

사건 종류 주식등락폭 변동 추이
결별1    
결별2    
열애1    
열애2    
군입대 발표1    

 

각각의 이슈별로 지표의 평균을 내고 막대그래프를 통해 비교한다.

 


오늘 작업한 것

1. 각 사건별 +5일의 기사 검색량 조사


연예인 및 사건키워드를 검색
eg. 레드벨벳 아이린 검색 시, 관련있는 다른 연예인의 기사가 같이 검색되기도함.
연예인의 이름만 검색할 시, 다른 정보가 섞이는 경우도 많았음

 

2. 스캔들 기사 감정분석 시도

파이썬을 통해서 텍스트 마이닝 후, 감정 분석을 시행하려고 했으나 시간이 너무 오래 걸릴 것이라는 멘토님의 우려 하에 계획을 변경했다.

gpt에게 판단을 내려달라고 시도했다. 갑질논란 등의 사례에서는 부정적인 기사라고 잘 판단을 내렸으나, 열애설과 같은 기사에는 긍정단어가 많이 있어 축하해야할만한 긍정적인 기사라는 결론을 내렸다. 그렇다고 열애 등 해당 단어들은 부정적인 단어라고 학습시킬 시 너무 편향될 가능성이 높아, 감정분석을 통해서 유의미한 결과를 얻기는 어렵다고 판단하고 실행을 중단했다.

만약 미리 gpt에게 물어본다든가, 검증하는 과정을 거쳤다면 실패하는 시간을 줄일 수 있었을 것 같다.

 


했었던 고민들

  • 일자별로 모으냐 시간별로 모으냐
  • 디테일을 보기 어렵거나 모든 걸 시간으로 볼 수 없다면 추세를 보려면 뭉뚝한 그래프를 보는 게 좋아서 일자를 보는 게  좋다.
  • 몇 퍼센트 하락이나 상승을 기준으로 볼 것이냐
  • 거래량도 고려해야한다. 거래량이 늘어난다면 그날 무슨 사건이 있는 것
  • 회귀분석을 사용할 것인가? (그런데 나는 사용할 수 없는 형태가 아닌 것 같다....)

 

사건을 보고 주식시장을 보는 게 아니라, 주식시장을 보고 역으로 분석하는 것도 좋을 것이라는 피드백을 받았다.

시간이 나면 한번 해보기로...

데이터를 직접 수집하고 

 

방향성의 공유는 정말 중요한 것 같다