분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
대회가 끝나고 난 후의 소감과 아쉬운 점
안녕하세요, 긴 대회가 벌써 끝났네요.
가볍게 해보려다가 너무 많이 공부했습니다. 나쁘지 않은 성적이고 생각했던 것들이 잘 맞아떨어져서 나름의 성과는 있다고 생각합니다.
여러가지 생각과 내용을 공유합니다.
점수로 평가하면 매우 객관적이긴 하지만, 이번 대회의 특성상 의미없는 무한 파라미터 튜닝과 앙상블/스태킹은 누구에게도 도움이 되지 않습니다.
100점 중에 10점이라도 전처리나 모형 적합 과정에 대한 점수가 있었으면 하는 아쉬움이 있습니다.
2. 꽤 많은 전처리, 그러나 큰 의미 없음
자연을 측정한 센서 데이터에는 수많은 이상치와 결측치가 존재할 수 밖에 없습니다. 통제하기가 어려우니까요.
하나씩 뜯어보고 이것저것 신경 많이 썼습니다.
방수량, 유입량에 이상치 있고, 제공된 서해조류 데이터에도 일부 관측치가 밀려들어와 있고요.
유량과 관련된 결측치도 모두 적절한 방법으로 대체할 수 있습니다.
물론 이 대회에서는 이런 과정이 크게 중요하지 않습니다.
저런 사소한 전처리를 통해서 얻을 수 있는 스코어의 개선보다 6,7월 중심의 파인튜닝이 훨씬 더 효율적인 전략이니까요.
3. 비현실적인 주제
올해 강남 침수 사태가 있었고, 지금 태풍도 올라오는데요, 주어진 정보로 10분 뒤를 예측한다는 컨셉은 비현실적입니다.
이미 짐 챙겨서 나오면 침수되는 상황이니까요. 최소 30분 후 예측이었으면 좀 더 현실적이지 않았을까하고 생각합니다.
4. 제출하지 않기로 한 이유
저는 Private 스코어 기준으로 12등?인데요, 상위팀에 Leakage가 있다고 생각합니다.
RMSE는 제곱합에 루트를 씌운 값입니다. RMSE기준 1과 2, 3의 차이는 단순히 1차이가 아닙니다.
루트 씌우기 전 기준으로 1, 4, 9 입니다. 0.7과 1의 차이도 마찬가지입니다. 0.49와 1의 차이고 2배 차이입니다.
일반적인 상황에서는 쉽지 않은 것이라고 생각하고 생각하지 못한 Leakage가 껴 있을 수 있다고 생각합니다.
당연히 모든 팀은 아닐테고, 저는 저한테까지 3등 순위가 밀려올거라고는 생각하지 않습니다.
물론 어쩌다보면 제 후위 등수가 수상할 수도 있을텐데요, 저는 그럼 제 코드를 들고 차라리 지자체들을 설득해서 프로젝트를 진행하는 것이 좋겠다고 생각하고 있습니다. 어차피 데이터는 모두 공개되어 있고 필요하면 공개 요청을 하면 되니까요.
참고로 일반적으로 수상자의 코드는 주최측으로 권리가 넘어가고, 상금이 그 대가가 됩니다.
대회를 하나씩 참여할 때마다 온갖 잡지식이 늘고 있네요ㅎㅎ
한강대교 수위가 1M가 안될때가 있다는 것도 가끔 써먹고 있습니다.
모두들 좋은 결과 있기를 기원합니다!
흥미롭게 읽었습니다~
대회 기간 동안 공유해주신 내용을 통해 많은 인사이트를 얻었습니다. 수고 많으셨습니다 ^^
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
고생하셨습니다