HD현대 AI Challenge

알고리즘 | 채용 | 정형 | 조선해양 | 회귀 | MAE

  • moneyIcon Prize : 2,000만 원
  • 1,627명 마감

 

재배포된 데이터의 풍향, 온도 데이터에 대한 적법성 판단

2023.10.18 10:23 3,898 Views language

재배포된 데이터에 대한 미래 시점 반영 여부를 판단한 코드 입니다.

풍향과 온도 데이터에 대해서도, ATA와 CI_HOUR을 더하여 정렬을 하였을 때, 하나의 값으로 정해지는 상황이 관찰되었습니다.

Code
로그인이 필요합니다
0 / 1000
준용_Choi
2023.10.18 10:43

해당 부분은 확실히 문제점이 있어 보이네요. 정말 시간을 많이 소모한 입장에서 너무 멘탈이 약해지네요 ㅠㅠ.. 문제점 공유 감사합니다.

EISLab_이희원
2023.10.18 10:44

저도 50회 가까이 제출을 했었는데, 좀 많이 허탈하네요....

준용_Choi
2023.10.18 11:21

조치가 어떻게 이루어지든 화이팅합시다 희원님!

EISLab_이희원
2023.10.18 11:22

넵넵

율동공원
2023.10.18 12:20

저 또한 대회 시작일부터 지금까지 성실히 꾸준하게 달려왔는데 받아들이기 힘들네요.
사실 데이터의 특성 몇 개가 사라진다고 해서 해결된다기보다 그 특성이 사라짐으로써
다시 시작이라고 생각이 듭니다.

대회 일정이 잡히면 해당 일정을 보고 바쁘지 않을 때 많이 분석을 한다던지, 각 팀마다 스퍼트 시기가 다를 텐데,
갑자기 막바지에 이렇게 되니 다른 일정들도 몰려 쉽지 않습니다.

그럼에도 불구하고 다들 열심히 하고 계신 것 같아, 같은 참가자로서 다 같이 힘내봅시다.

EISLab_이희원
2023.10.18 13:01

일단 기상 데이터로 Berting 변수 만들어서 한번 제출해봐야 겠네요....

준용_Choi
2023.10.18 13:16

희원님 데이터 설명이 살짝 바뀌었습니다..!

EISLab_이희원
2023.10.18 13:42

오 확인했습니다..!

뉴숩
2023.10.18 11:16

아.............

나구밍자
2023.10.18 11:21

참가자 분들의 3주 간의 노력과 고생이 물거품이 되어버렸네요...
다른 대회에서는 데이터 적법성 검토가 더 잘 이루어져, 이런 불미스러운 일이 없었으면 좋겠습니다.

EISLab_이희원
2023.10.18 11:27

이번 문제점은 대회 기간이 절반이 지난 시점까지 몰랐던 것이었습니다.
물론 주최 측에서 데이터 검증을 하였겠지만, 생각하지 못한 문제점이었다고 생각합니다.
옛날에 kaggle에서도 가끔씩 이런 경우가 발생하였으니, 누구의 잘못이다라고는 볼 수 없겠네요.....

NN_is_all_you_need
2023.10.18 13:54

결과적으로 기존 유가 정보 Feature만 제외된 거니까 흔들리지 않고 그동안 분석한 내용들을 활용 해봐야죠...
파이팅합시다!

NN_is_all_you_need
2023.10.18 13:22

업데이트된 데이터 명세에 예보 정보라고 명시가 된 것 보면 이 인사이트는 활용해도 문제 없어 보입니다

NN_is_all_you_need
2023.10.18 14:38

그런데 궁금한 점이 생겼는데....
기상 정보가 미래 정보를 반영한다는 것이 마지막 Plot 결과와 무슨 관계가 있는건가요??

EISLab_이희원
2023.10.18 15:09

ATA 기준으로 같은 시간의 기상 정보에 오차가 있습니다. 위에서 plot한 그래프에서 옅은 파란색이 오차의 범위를 나타냅니다.
하지만, ATA와 CI_HOUR을 더하여, 기상 정보를 plot하면, 오차 없는 그래프가 나타납니다.

선박에서 측정된 값이 아닌, 관측소에서 측정하였으므로, 같은 시간, 같은 위치에서의 기상 정보에 차이가 있으면 안됩니다.
ATA와 CI_HOUR을 더하였을 때, 즉, 선박이 접안한 시점에서 동일 위치와 시간의 기상 정보가 동일하므로,
기상 정보에 미래 정보가 반영되었다고 주장하는 것이지요.

주최 측에서 관련 의견 올리셨네요

NN_is_all_you_need
2023.10.18 15:19

명확한 설명 감사합니다!
주최측 의견을 종합하면 미래 정보가 아닌 예보 정보이고 내부 공개할 수 없는 Feature를 활용해서 목표 시점(접안?)에 대한 예보를 생성했다는 거네요.
이 Feature를 활용해서 예보를 생성하는 것은 공신력 있는 기관에서 생성한 실제 주최측 내부에서도 활용하는 데이터라는 것이고....
덕분에 이해가 되었습니다 감사합니다.

EISLab_이희원
2023.10.18 15:28

넵넵!!😃

AmurTigro
2023.10.26 10:30

삭제된 댓글입니다

EISLab_이희원
2023.10.26 10:29

도착항구와 시간별로 train의 통계를 test에 적용시켜서 제출해봤는데, 과적합되서 그런지 성능이 더 떨어지더라구요...