제주도 도로 교통량 예측 AI 경진대회

Algorithm | Tabular | Traffic | Regression | MAE

5,000,000 KRW
2,244 Users Completed

Practice

Overview Data Code (share) Talk Leaderboard

Submission

최종 수상자 발표

DACONIO

2022.11.25 10:03 3,651 Views

안녕하세요 제주도 도로 교통량 예측 AI 경진대회 참가자 여러분.

데이콘입니다.

긴 시간동안 참여해주신 모든 참가자 여러분 모두 정말 고생 많으셨습니다.

'제주도 도로 교통량 예측 AI 경진대회'의 최종 수상자 안내드립니다.

수상하신 모든 팀원 분들께 축하의 말씀드리며,

대회에 관심을 갖고 참가해 주신 모든 분들께 다시 한번 감사의 말씀드립니다.

수상자분들께서는 2022년 11월 29일(화) 16:00 여의도 이룸센터(서울시 영등포구 의사당대로 22 이룸센터 2층)에서 오프라인 시상식이 진행될 예정이며

수상자분들께 총 2번의 오프라인 시상식(서울, 제주) 관련 세부 내용을 개별 상세 안내드리도록 하겠습니다.

또한, 수상자분들께 원활하고 신속한 수상인증서 발급 등의 추가 정보 수집 과정을 위해,

데이콘에서 개별 발송드리는 요청 설문과 서류는 최종 결과 발표 이후 15일 이내에 작성해 주시기 바랍니다.

15일 이내에 요청 서류를 작성하지 않으신 경우 상금 수령을 포기한 것으로 간주됩니다.

감사합니다.

데이콘 드림.

17 Comments

comment

0 / 1000

비회원

2022.11.25 10:10

안녕하세요 게더타운주민들 팀입니다. 혹시 저희 실격 사유를 구체적으로 알 수 있을까요?

DACONIO

2022.11.25 10:33

안녕하세요, 기세현님.
게더타운주민들 팀께 좋지 못한 소식을 전해드리게 되어 매우 유감스럽게 생각합니다.

게더타운주민들 팀이 Data Leakage에 해당하는 이유를 설명드리겠습니다.

게더타운주민들 팀은 target['lane_count'] == 1, 2, 3 으로 나누어 모델링을 하였으나
대회 데이터 제공 시, lane_count의 범위가 1,2,3 만 주어진다고 명시된 내용은 없습니다.
따라서 test의 'lane_count'가 1,2,3인 데이터만 추론하는 방식은 test의 'lane_count'가 1, 2, 3만 존재한다는 정보를 사전에 알 수 있어야만 가능한 방식이며, lane_count가 1,2,3이 아닌 다른 값이 들어왔을 경우에 해당 샘플에 대한 추론은 아예 배제하였기 때문에 Data Leakage에 해당합니다.

감사합니다.

비회원

2022.11.25 10:43

네 답변 감사합니다.

저희가 1,2,3 차선만 사용한 방식의 타당성을 test 데이터랑 연관지어서 보시는 것 같은데 납득이 잘 가지는 않습니다. 마치 결측치를 채우는 과정이 없는게 test데이터에 결측치가 없다고 확인하고 진행했기 때문에 실격이다 라고 하는 것과 유사하다고 생각됩니다.

말씀하신대로의 접근법이면 비전 대회 데이터에 텍스트 데이터가 들어올 때의 예외처리 같은게 포함되어 있지 않으면 실격으로 보는 것과 비슷할 것 같은데 그렇게 생각하시는 걸까요?

실격이라서라기 보다 솔직히 이해가 잘 가지 않습니다...

비회원

2022.11.25 10:56

추가 문의드립니다 향후 대회 참여를 위해서 제가 이래를 명확히 하려는 점 양해 부탁드립니다 ㅎㅎㅎ
특정 샘플(테스트 데이터에 없는)에 대한 추론이 배제 된다는게 submission 형태로 진행 되는 대회 목적에 위반되는 행위인가요?

DACONIO

2022.11.25 11:12

안녕하세요, 기세현님.

Test 데이터는 전혀 알 수 없다 라는 가정하에 진행해야하지만 게더타운주민들 팀 코드를 보면 test에서 lane_count == 1,2,3만 수취하여 lane_count의 1,2,3만 추론하게 됩니다.
예를 들어, lane_count 4가 있을 경우 이는 추론조차 진행되지 않습니다.
즉 결정적인 사유는 특정 Test 데이터의 샘플들을 수취하여 추론을 진행하였다는 점입니다.

감사합니다.

DACONIO

2022.11.25 11:17

안녕하세요, 기세현님.

특정 샘플에 대한 추론이 배제된다는 것은 lane_count == 1,2,3만 수취하여 lane_count의 1,2,3만 추론하게 되는 내용을 얘기하는 것입니다.

감사합니다.

비회원

2022.11.25 12:27

물론 도로가 4차선 이상의 도로도 일반적으로 존재하겠지만 학습 데이터에 3차선까지만 존재했고 차선별 모델링을 위해 테스트 데이터에서 각 차선에 해당하는 데이터만을 추출한 것 입니다. 만약 해당 차선의 데이터가 없다면 당연히 데이터가 없을테고 계속 지적하시는 다른 차선의 경우는 저희가 추론을 못한다면 리더보드상의 페널티 즉, 성능상의 불이익은 저희 몫이겠죠. 저희가 왜 3차선까지만 추출했는지를 학습데이터를 보고 했다는 것 외에 별도로 추가 증명이 필요한건가요?

DACONIO

2022.11.25 13:05

안녕하세요, 기세현님.

말씀 하신 바와 같이, 일반적인 도로는 4차선 이상 존재하기 때문에, "Test 데이터는 전혀 알 수 없다"라고 가정한다면 일반적인 상황을 고려해야 하지만 게더타운주민들 팀의 모델링 방법은 일반적인 상황이 아닌 train/test set 모두 lane_count == 1,2,3만 존재한다는 전제로 진행된 방법입니다.

감사합니다.

비회원

2022.11.25 13:10

시스템이나 서비스를 개발할 때는 당연히 일반적인 것들을 고려해야겠죠. 하지만 모델링 대회에서 학습데이터에서 확인한 정보만을 활용해서 진행한 것을 학습 및 테스트 데이터에 실상에 적용할 일반성이 떨어진다고 실격이라는 것인가요? 학습데이터의 lane_count 종류가 더 많은데 특정 lane_count만 예측시 사용한 것도 아닌데 무엇이 문제인지 납득이 안됩니다..

비회원

2022.11.25 13:34

추가로 제 답변은 저희가 일반성이 떨어지는 모델링을 했다는 것이 아니라 학습데이터의 정보만 사용해도 가능한 방식이라는 것 입니다. 특정 차선의 존재 여부를 테스트 데이터를 보고 정했다고 할 근거가 없지 않나요? 1,2,3 차선은 학습데이터만 봐도 알 수 있고 말씀하신 test 데이터의 차선은 4차선 이상의 차선이 있다면 그건 리더보드에 반영이 될테니 애초에 문제가 되지 않는다고 봅니다.

DACONIO

2022.11.25 13:52

Deleted Comment

DACONIO

2022.11.25 14:18

안녕하세요, 기세현님.

마지막으로 정리해서 안내드립니다.

기세현님께서 말씀하신 것처럼, 일반적인 도로는 4차선 이상이 존재함을 알 수 있습니다.
만약 lane_count가 대회 데이터 안내 부분에 1,2,3만 존재한다고 명시하였더라면, Data Leakage에 해당하지 않습니다.
그러나 lane_count의 범위에 대한 정보는 주어지지 않았으며, 이는 기세현님께서 말씀해주신 것과 같이 일반적인 도로는
1,2,3차선 외에도 4차선 이상이 존재할 수 있음을 충분히 인지할 수 있기 때문입니다.
또한 게더타운주민들 팀의 코드를 바탕으로 보았을 때 제출하여 다른 팀과 높은 순위 경쟁이 가능했던 것으로 보면
Test 데이터는 1,2,3차선만 존재하고 있음을 알고 있는 것과 다름이 없습니다.
따라서 일반적인 도로는 1,2,3차선 외에도 4차선 이상이 존재함을 사전에 알고 있음에도 불구하고,
Test 데이터가 1,2,3차선만 존재하기 때문에 Test 데이터의 lane_count를 1,2,3만 추출하여 추론하는 것은 명백한 Data Leakage에 해당합니다.
또한 Test 데이터셋에 4차선 이상이 존재할 경우, sample_submission.csv (제출 양식)에서 설정된 인간이 임의로 설정한 값으로 예측되기 때문에
이는 https://dacon.io/more/notice/13 의 규정과 같이 올바른 예측 방법이 아닙니다.

감사합니다.

비회원

2022.11.25 14:07

lane_count의 범위는 누차 말씀드리지만 주최측의 명시 여부와는 상관 없습니다. 모델링 이전에 eda를 왜하는지 아실텐데요. 학습데이터만 봐도 3차선까지 존재한다는 것을 알 수 있습니다. 전처리나 모델링은 학습데이터를 보고 하지 않나요? 저희가 높은 성능을 낸게 테스트 데이터의 정보를 알고 사용했다고 주장하시는데 거듭 말씀드리지만 차선 정보는 학습 데이터에서 확인한 것이고 말미에 언급하신 인간이 임의 설정 값으로 예측된다고 하는 것은 저희가 해당 됐을 때의 일이라고 생각합니다. 다시 말씀드리지만 차선 정보는 학습데이터만 봐도 알 수 있고 테스트 데이터의 차선 종류와 일치한다고 해서 또 성능이 높았기 때문에 테스트 정보를 미리 인지했다고 하는건 납득하기 어렵습니다.

비회원

2022.11.25 18:10

Deleted Comment