분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
재배포된 데이터의 풍향, 온도 데이터에 대한 적법성 판단
재배포된 데이터에 대한 미래 시점 반영 여부를 판단한 코드 입니다.
풍향과 온도 데이터에 대해서도, ATA와 CI_HOUR을 더하여 정렬을 하였을 때, 하나의 값으로 정해지는 상황이 관찰되었습니다.
저도 50회 가까이 제출을 했었는데, 좀 많이 허탈하네요....
조치가 어떻게 이루어지든 화이팅합시다 희원님!
넵넵
저 또한 대회 시작일부터 지금까지 성실히 꾸준하게 달려왔는데 받아들이기 힘들네요.
사실 데이터의 특성 몇 개가 사라진다고 해서 해결된다기보다 그 특성이 사라짐으로써
다시 시작이라고 생각이 듭니다.
대회 일정이 잡히면 해당 일정을 보고 바쁘지 않을 때 많이 분석을 한다던지, 각 팀마다 스퍼트 시기가 다를 텐데,
갑자기 막바지에 이렇게 되니 다른 일정들도 몰려 쉽지 않습니다.
그럼에도 불구하고 다들 열심히 하고 계신 것 같아, 같은 참가자로서 다 같이 힘내봅시다.
일단 기상 데이터로 Berting 변수 만들어서 한번 제출해봐야 겠네요....
희원님 데이터 설명이 살짝 바뀌었습니다..!
오 확인했습니다..!
아.............
참가자 분들의 3주 간의 노력과 고생이 물거품이 되어버렸네요...
다른 대회에서는 데이터 적법성 검토가 더 잘 이루어져, 이런 불미스러운 일이 없었으면 좋겠습니다.
이번 문제점은 대회 기간이 절반이 지난 시점까지 몰랐던 것이었습니다.
물론 주최 측에서 데이터 검증을 하였겠지만, 생각하지 못한 문제점이었다고 생각합니다.
옛날에 kaggle에서도 가끔씩 이런 경우가 발생하였으니, 누구의 잘못이다라고는 볼 수 없겠네요.....
결과적으로 기존 유가 정보 Feature만 제외된 거니까 흔들리지 않고 그동안 분석한 내용들을 활용 해봐야죠...
파이팅합시다!
업데이트된 데이터 명세에 예보 정보라고 명시가 된 것 보면 이 인사이트는 활용해도 문제 없어 보입니다
그런데 궁금한 점이 생겼는데....
기상 정보가 미래 정보를 반영한다는 것이 마지막 Plot 결과와 무슨 관계가 있는건가요??
ATA 기준으로 같은 시간의 기상 정보에 오차가 있습니다. 위에서 plot한 그래프에서 옅은 파란색이 오차의 범위를 나타냅니다.
하지만, ATA와 CI_HOUR을 더하여, 기상 정보를 plot하면, 오차 없는 그래프가 나타납니다.
선박에서 측정된 값이 아닌, 관측소에서 측정하였으므로, 같은 시간, 같은 위치에서의 기상 정보에 차이가 있으면 안됩니다.
ATA와 CI_HOUR을 더하였을 때, 즉, 선박이 접안한 시점에서 동일 위치와 시간의 기상 정보가 동일하므로,
기상 정보에 미래 정보가 반영되었다고 주장하는 것이지요.
주최 측에서 관련 의견 올리셨네요
명확한 설명 감사합니다!
주최측 의견을 종합하면 미래 정보가 아닌 예보 정보이고 내부 공개할 수 없는 Feature를 활용해서 목표 시점(접안?)에 대한 예보를 생성했다는 거네요.
이 Feature를 활용해서 예보를 생성하는 것은 공신력 있는 기관에서 생성한 실제 주최측 내부에서도 활용하는 데이터라는 것이고....
덕분에 이해가 되었습니다 감사합니다.
넵넵!!😃
삭제된 댓글입니다
도착항구와 시간별로 train의 통계를 test에 적용시켜서 제출해봤는데, 과적합되서 그런지 성능이 더 떨어지더라구요...
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
해당 부분은 확실히 문제점이 있어 보이네요. 정말 시간을 많이 소모한 입장에서 너무 멘탈이 약해지네요 ㅠㅠ.. 문제점 공유 감사합니다.