HD현대 AI Challenge 예선을 마치며

HD현대 AI Challenge

HD현대-AIC

2023.11.02 10:54 2,516 조회

안녕하세요. HD한국조선해양 AI Center, 해커톤 담당자 입니다.

9월 25일 부터 10월 30일까지 HD현대 AI Challenge에 참여해주신 모든 참가자 분들, 그리고 데이콘 담당자 분들께 감사의 말씀을 먼저 올립니다.

이번 2023년 HD현대 AI Challenge에서는 '항만 내 선박의 대기 시간 예측'이라는 주제로 대회를 진행했습니다.

1300명이 넘는 참가자 분들께서 관심을 가져주셨고, 최종적으로는 약 330여 팀이 결과물을 제출해주셨습니다.

이번 대회에서 다소 미숙한 준비로 참자가 분들과 데이콘 측에 불편을 드려 진심을 담아 사과의 말씀을 드립니다.

그럼에도 불구하고 참가자 분들의 뜨거운 열정과 관심을 바탕으로 의미 있는 대회가 만들어 질 수 있었다고 생각하고, 저 역시 이번 대회를 통해 많은 부분을 경험하고 배웠다고 생각하고 있습니다.

예선을 마무리하며 이번 대회를 기획하고 진행하면서 느낀 점을 정리해 볼까 합니다.

문제의 의도

사실 '예측' 문제는 다소 진부하고 전형적인 문제이지만 그럼에도 불구하고 현업에서 가장 많이 활용될 수 있는 문제이기도 합니다.

대회에 대한 자세한 소개 및 문제 설명은 대회 홈페이지에 작성되어 있으니 참고 바라며,

대회 참가자 입장이 아닌 현직자의 시각에서 문제를 어떻게 바라보고, 대회 참가자들에게 어떤 점을 기대하고 있었는지 말씀드리고자 합니다.

1. 제한적으로 주어진 제한된 정보를 어떻게 보완하고, 핵심 피쳐를 어떻게 선정하는지

저희가 제공 드린 데이터는 선박 운항 정보, 선박 재원 정보, 각종 지수 및 기상 정보들을 활용하여 '항차'를 정의한 데이터셋입니다.

다른 게시물에서도 말씀 드린바와 같이 raw 데이터셋에는 각종 민감 데이터가 포함되어있어 대다수의 피쳐를 제공 드리지 못한 점은 저 역시 아쉬운 부분으로 남아있지만, 그럼에도 불구하고 많은 분들이 주어진 피쳐들을 날카롭게 분석해 주셨습니다.

아직 많은 분들의 코드를 검증한 상태는 아니지만, 대회 진행 중에 확인했던 게시물과 Git 등에 공유해주신 내용들 미루어 보았을 때 현업 담당자들이 기대했던 수준보다 더 깊고 자세한 EDA를 진행해 주셨다고 느낄 수 있었습니다.

2. 시간과 외부 이벤트에 강건한 모델 구축

저희가 제공드린 시점은 2012년부터 2022년까지 약 10년치의 정보를 제공해 드렸습니다. 선박의 이동은 제공 드린 기상 등의 조건 외에도 작게는 선박의 컨디션부터 코로나와 같은 전 국가적 이벤트 등의 다양한 요인에 의해 영향을 받게 됩니다. 따라서 다양한 이벤트에도 Robust한 모델을 구축할 것을 유도하도록 시간을 고려한 데이터셋 분할을 디자인 했지만, 제한된 피처를 제공한다는 한계에 부딪혔고 결국은 합리적으로 문제를 제공하기 위해 전체 기간을 셔플링한 Train Set을 제공하게 되었습니다. 그럼에도 불구하고 현업 뿐만 아니라 모든 분석 과제에 있어서 학습 시점에 의존적인 모델은 예측 문제에 대하여 그리 좋은 모델이 아니라는 점은 모두가 알고 계실 것이라고 생각합니다. 저 역시 다음 대회에서는 이러한 부분까지 고려하여 문제를 준비해야겠다는 교훈을 얻을 수 있었습니다.

심사 결과

예선에서는 리더보드 기준으로 평가를 진행하였습니다. 대회 규칙에 명시된 부정 행위가 아니라면 어떠한 방법을 사용해서라도 평가 지표였던 MAE를 줄이기만 한다면 본선 진출 티켓을 거머쥘 수 있었습니다.

심사 결과에서 흥미로웠던 점은 상위 15개 팀만이 30대의 MAE를 달성했다는 점이고, 15등과 16등 팀의 차이가 약 5.5 정도의 비교적 큰 차이가 나고있었다는 점이었습니다. 앞서 말씀드린 것처럼 아직 모든 상위권 팀들의 코드를 검토하지 못해 확인하지는 못했지만, 향후 검증 과정에서 MAE를 30대로 진입시킨 팀들의 특징을 분석해 보려고 합니다.

대다수의 팀들은 AutoML 라이브러리를 사용하였습니다. 여전히 부스팅 알고리즘이나 랜덤 포레스트같은 앙상블 기법을 선호하는 경향도 나타났으며, 딥러닝 기법을 시도한 팀도 존재했습니다. 과거와는 달리 모델을 능숙하게 사용하고, 실제 의미 있는 결과들을 도출하는 팀들이 많았습니다.

대회 준비 및 운영 과정에서 느낀 점

대회를 진행하면서 데이터 사이언티스트, 머신러닝 엔지니어 등 데이터 관련 분야에 우수한 학생들이 이렇게 많이 있구나 라는 점에서 크게 놀랐습니다.

하지만 과도한 예측 성능에 대해 집착해야만 하는 이번 챌린지의 성격이 과연 합리적이었는가에 대해 다시 돌아보기도 하였습니다. 경진대회 특성상 예측 성능으로 순위를 매길 수 밖에 없는데, 비슷한 실력의 참가자들이 경쟁하다보니 근소한 차이고 순위가 바뀌는 경우가 빈번했습니다. 그런데 사실 실제 서비스에서는 대개 이런 정도의 차이는 크게 중요하지 않다는 점을 참가자 분들께 말씀드리고 싶었습니다.

아직 본선 일정이 남아있지만, 예선에서 최선을 다해준 모든 참가자 분들께 다시 한번 감사의 말씀을 드리며,

비록 결과는 다소 아쉬울 수도 있지만, 새로운 경험을 제공했던 대회로 기억에 남을 수 있기를 바라겠습니다.

예선에 참가해주신 1321명의 모든 참가자 분들의 앞날에 좋은 일들만 가득하길 기원합니다.

감사합니다.