대출 상점 총 매출 예측 경진대회

상점 총 매출 예측 대회 3위 수상자 인터뷰 (exipital)

2019.12.04 15:36 1,207 Views

1차 대회 3위 수상자 exipital님 인터뷰를 공유합니다.

 상점 총 매출 예측 대회

전공분야(학력)

전공분야(학력): Master in Mathematics
직업: Data Scientist in Financial Company

수상을 진심으로 축하합니다. 수상 소감 부탁드립니다.

감사합니다. Dacon에서 처음 연 Data Competition에서 수상을 하게 되서 영광입니다.
지인의 소개로 Dacon에서 Data Competition을 개최한 것을 알게 되었고,
혹시 기회가 되면 참가해야지 했다가 데이터가 카드 결제 데이터에 예측 목표가 가맹점의 매출을 예측하는 것이라는 것을 알게 돼서,
흔하게 만질 수 없는 데이터라서 참가하게 되었습니다.

또한, 저 자신이 금융회사에서 Data Scientist로서 일하고 있기 때문에, 관련 있는 금융 데이터를 만지는 것도 의미 있는 일이겠다 싶었습니다.
Kaggle처럼 제가 제출한 정답지에 대한 점수를 리더보드에서 보여주었는데, 특이한 점은 리더보드에 나오는 등수가 실제 등수였다는 점입니다.
그 때문에 저를 비롯한 많은 참가자들이 압박감을 느꼈을 것 같습니다.

저 같은 경우에는 데이터 분석 연습하려는 목적으로 참가했는데, 하다보니 점수가 6~10등을 왔다 갔다 해서 중간부터 진지하게 임한 케이스입니다.
실제 등수라는 점에서 더 자극이 되었습니다.
저는 순위권에 든 적이 마지막 날을 제외하고는 없습니다.
1등 수상자 분, 2등 수상자 분과 다르게, 계속 4등~10등을 왔다 갔다 하다가 대회 종료 6시간 정도 전에 3등을 차지할 수 있었습니다.
혹시라도 4등에서 끝날까봐 조마조마 했는데, 최종적으로 수상을 할 수 있어서 다행입니다.
수상자 중 등수는 가장 낮지만 가장 기뻐한 사람은 아마 제가 아닐까 생각 되네요 ^^
 

데이터 분석에 관심을 가지게 된 계기나 데이터 분석 일을 하게 된 이유가 있다면 무엇인가요?

저는 처음부터 데이터 분석에 관심을 가지지는 않았습니다.
수학을 석사까지만 하고 취업을 하게 되었지만, 본래 계획은 수학으로 박사까지 취득한 후 교수를 노려 보려 해서,
데이터 분석에는 아주 약간 지식만 있는 정도였고 관심은 크게 없었습니다.

그런데 이제 취업을 하려니까, 수학에 조금이라도 관련이 있는 직무를 찾고, 취업을 하고서도 저에게 어울리는 업무를 찾다 보니 데이터 분석에 다다랐습니다.
어떻게 보면 전공에 얽매여서 데이터 분석 일을 시작하게 된 것 같은데요 ^^
그런데 데이터 분석 일을 하면서, 폭발적인 데이터와 급격히 진화하는 데이터 분석 기술을 지켜보고 공부를 하다 보니 자연히 빠져든 것 같습니다.

현재는 직무에 만족하면서, 개인적으로도 공부를 하고 있습니다.
 

데이콘 경진대회에 참여한 동기가 있나요?

데이터 분석 업무를 하면서 풀고자 하는 문제와 관련된 논문을 검색해서 공부하고 구현하는 경우가 많습니다.
그런데, 그렇게 열심히 공부하고 구현해보면 대개는 모델 성능을 향상시켜주지 않았습니다.
즉, 논문에서는 저자들이 성능이 좋다고 주장했는데 실제로는 아닌 경우가 많았습니다.

반면에, 외국의 데이터 경진대회 플랫폼인 Kaggle의 참가자들 사이에서 성능이 좋은 알고리즘이라고 정평이 난 경우는, 열에 일곱은 실무에서도 도움이 되었습니다.
그런 것을 계속 경험하다 보니, 실제 데이터 분석의 실력 향상과 트렌드 파악을 할 수 있는 곳은 데이터 경진대회라고 생각하게 되었습니다.
그리고 저 자신도 이제 실력이 어느 정도 쌓였으니, 실전 경진대회에 도전해보자는 생각을 했습니다
그 시점에서 한국에서도 Dacon에서 데이터 경진대회를 한다는 소식을 들었고, 주제도 관심이 있던 금융 관련 데이터라서 바로 참가하게 되었습니다.
 

학업이나 현업 그리고 일상생활과 관련해서 대회 중 느낀 점이 있다면 무엇입니까?

직장을 다니면서 대회에 참가 하려니 여간 힘든 것이 아니더라구요.
퇴근하고 저녁 먹은 다음 2시간 정도를 TV 보는 대신에 대회에 참가했는데, 데이터가 재미 없는 데이터였다면 하지 못 했을 겁니다.
그런데 Dacon에서 제공해준 데이터가 분석하기에 재밌는 데이터였고, 저 자신도 실력이 느는 것이 느껴져서 계속 시간을 쏟았던 것 같습니다.

덕분에 시계열 데이터 처리 능력이 향상되서, 실무에서 시계열 데이터를 다룰 때도 더 자신 있게 코딩하게 되었습니다.
 

대회에 참여하면서 어려웠던 점이 있다면 무엇일까요?

역시 어려웠던 점은 직장과 병행하면서 대회를 참여해서, 시간이 부족했던 점이 가장 주요한 것 같습니다.
또 직장이 끝난 후 여가시간에 대회에만 집중할 수 있는 상황이 아니어서, 평일과 주말에 시간을 쪼개서 코드를 짰던 기억이 나네요.

지나고 보면 좋은 기억입니다 ^^
 

데이콘에 더 바라는 점, 기대 사항이 있다면 무엇입니까

데이콘이 한국에서 열린 데이터 경진대회에서는 가장 앞선 플랫폼이 아닐까합니다만, 그래도 아직 Kaggle에 부족하면 미진한 부분이 있는 것 같습니다.
데이터 경진대회 플랫폼이 제공해주는 순기능은 다음과 같은 것들이라고 생각합니다.

- Data Scientist들의 경쟁을 통한 투명한 실력 평가 기능
- 트렌디한 기술의 실험의 장이 됨과 동시에 토론의 장
- Data Science 희망자/경력자의 커리어 개발

위의 세가지를 충족하기 위해선 많은 부분을 보충해야 하겠지만,
가장 중요하게 필요한 것은 Ipython Notebook을 업로드하여 다른 참가자에게 공유하는 기능이라고 생각합니다.

자신의 코드를 Notebook 형태로 공유함으로써, 다른 참가자들의 피드백을 받을 수 있고, Discussion이 일어나게 됩니다.
또한, 타인의 코드를 공유받음으로서 자신은 실력을 향상할 수 있게 됩니다.

 따라서 Ipython Notebook 업로드 기능이 꼭 생겼으면 좋겠네요 :)