본문 바로가기
일상

데이터 마이닝으로 소치 올림픽 메달 순위 예측

by 목장주 2014. 2. 7.
반응형

Discovery라는 데이터분석 전문 기업이 있는데 이 회사 홈페이지에 재미난 이 올라왔습니다. 데이터 마이닝 전문가 댄은 동계 올림픽을 보면서 다음과 같은 질문이 떠올랐다고 합니다. 

  • 어느 나라가 가장 많은 메달을 딸까?
  • 아프리카, 남아메리카, 중동 국가는 과연 메달을 딸까?
  • 메달을 몇개씩 가져가는데 나라도 있는데, 그렇지 못하는 나라는 왜 그럴까?
배운게 도둑질이라고, 위의 질문을 데이터 마이닝을 통해 풀고 싶었나봅니다. 한 번 생각해 봅시다 .눈이 많이 오고 산이 많은 곳에 산다면 스키를 접할 기회가 많아집니다 .그러면 그런 나라는 아무래도 스키 활강에서 메달을 딸 확률이 높을 것입니다. 이런 식으로 동계올림픽 메달을 딸 수 있는 변수들을 나열해 봅니다. 

데이터마이닝의 잘못 된 예

산이 발달해 등산에 강한 한국!(출처)






고려 변수

경제력, 인구, 지리적 요건 등등 여러 변수가 있겠지만, 하계 올림픽에서의 메달 획득여부도 중요한 변수가 됩니다. 하계 올림픽에서 메달을 딴 다면 운동인구도 많고 체계적으로 선수들을 훈련시키는 노하우도 있고 경제력도 있으니 수월하겠지요. 실례로 지난 두 번의 동계 올림픽 결과를 볼 때, 먼저 열린 하계 올림픽에서 메달을 따지 못한 나라는 이어서 열린 동계 올림픽에서 메달을 하나도 따지 못했다고 합니다.

여러 변수들 가운데 4가지 변수를 가지고 선형 회귀 분석을 통해 메달량을 예측해 봤다고 합니다.
  • 국토 면적: 국토 면적은 인구, 유전적 차이, 산악 지형의 존재, 섬 나라 여부 등을 나타낼 수 있습니다.
  • 1인당 GDP: 등따시고 배불러야 스포츠에 많은 투자를 합니다.
  • 수출량: GDP와 함께 국가의 총 경제력을 가늠할 수 있습니다.
  • 수도의 위도: 북으로 갈 수록 눈과 얼음이 더 많으니 겨울 스포츠에 유리할 것 입니다.

예측 결과

위의 변수와 데이터를 종합한 예측 결과는 다음과 같습니다.


동계올림픽 메달 예측


적도에서 멀어질 수록, 경제력이 강할 수록, 국토 면적이 클 수록 메달의 수가 올라갑니다.  미국은 땅이 넓어 다양한 지형이 존재할 가능성이 많고, 인구가 많으니 유전자의 다양성이 클 확률도 커집니다. 또 적절하게 북쪽에 있어서 눈과 얼음을 볼 확률도 높고, 경제력이 높아 (1인당 GDP가 높고, 수출 많이하고) 겨울 스포츠에 투자할 시간과 돈이 충분하므로 당연 1등 입니다.


오스트리아의 경우 우리나라보다 면적이 작고, 수출액은 적지만, GDP가 높고 무엇보다 위도가 높아서 메달을 한 개 더 받는다는 예상이 나왔습니다.


우리나라가 통일을 하고 수도를 평양으로 옮긴다고 가정을 해봅시다. 데이터마이닝 전문가가 아니라 정확한 값을 모르겠지만, 1인당 GDP가 줄지 않는다면 예상되는 메달 수는 증가할 것입니다. GDP가 확 줄어버리면 메달 수는 줄어들겠지요.


이번 소치 동계 올림픽에서 우리나라 대표팀은 금 4개, 은 5개, 동 3개 총 12개를 목표로 한다고 합니다. 이에 반해  Discovery는 우리나라가 총 9개의 메달을 딸 것이라고 예측했습니다.  월스트리트 저널은 우리나라가  금 6개를 비롯 총 16개의 메달을 예상했습니다. 


Discovery는 이번에 자신들의 모델을 가지고 2006년, 2010년 메달 순위를 예측해봤지만 언제나 예상 밖의 선전을 하는 나라가 있다며 한국을 포함한 몇 개국을 예로 들었습니다. 왜 이 나라 사람들은 쇼트트랙에 강한지 모르겠다면서 말이죠.


과연 누구 예상이 맞을지 기대가 됩니다.

소치 올림픽 결과




한정된 자료를 가지고 예상한 것이니 재미로 보면 되겠습니다.


대한민국은 금 3, 은3, 동2 총 8개의 메달을 획득했습니다. 9개의 메달을 획득한다는 Discovery의 예측과 비슷합니다. 16개를 예측한 월스트리트 저널과 12개를 목표로한 대표팀은 실제 결과와 많은 차이가 있습니다. 


러시아는 19개를 획득할 것이라는 예측과는 달리 33개 획득이라는 놀라운 성적을 발휘합니다. 1등으로 예측 되었던 미국은 29개와 거의 차이가 없는 28개를 획득했습니다. 중국은 22개를 예상했는데 9개라는 큰 차이를 보이는 군요. 





반응형

'일상' 카테고리의 다른 글

티스토리 사이트맵 생성  (0) 2017.04.01
SSN 카드 재발급  (0) 2017.03.31
번호이동 행사 덕분에 통신요금 할인  (0) 2014.02.21
Let it go로 구글 번역 장난  (2) 2014.02.13
글쓴이  (0) 2014.01.31