HD현대 AI Challenge

현재 상황..

2023.10.18 10:40 1,972 조회

저희 팀에서는 날씨, 풍향 등의 날씨 컬럼에 결측치가 많아 제외하고 모델링 진행중이였는데 이부분 또한 전의 상황과 똑같은 상황인 것 같네요. 제 생각으로는 해당 컬럼들도 전의 유가 컬럼과 같이 제외하고 진행해야 된다고 생각하는데 주최측의 의견을 기다려 봐야겠네요. 다만 현재 데이터를 가지고 어제 모델링을 이미 많이 진행한 팀 (저희 팀...)이 있기 때문에 새로 데이터를 재배포하기 보다는, 해당 컬럼들을 학습에 사용할 시 부정행위로 간주하는 방법이 어떨지.. 생각됩니다. 데이터를 새로 받아 또 EDA와 모델링을 진행해야 하는데 대회에 13일 밖에 남지 않은 시점에서 제출수를 늘리는 것은 의미가 크게 없다고 생각됩니다. 여러분의 의견은 어떠한지 공유 부탁드립니다.

로그인이 필요합니다
0 / 1000
NN_is_all_you_need
2023.10.18 11:28

이번에 새로 배포된 데이터도 문제의 해당 컬럼만 제거해서 새로 배포하는 걸로 보이는데 '해당 컬럼들을 학습에 사용할 시 부정행위로 간주하는 방법이 어떨지'랑 같은거 아닌가요? 날씨 컬럼은 이전 유가 정보랑은 다르게 GT에 가까운 도출을 가능케하는 정보는 아닌것으로 보이는데...

준용_Choi
2023.10.18 11:34

현재 재배포된 데이터는 train 데이터도 대략 3만개 정도 추가된 걸로 알고있습니다. 현재 모델링을 진행할 때 이미 k-fold 혹은 random_seed 등 현재 데이터에 맞는 모델링을 진행하였지만 인덱스가 바뀌거나 데이터가 달라진다면 그동안 했던 것이 또 reset 되기 때문이라고 생각이 듭니다.

NN_is_all_you_need
2023.10.18 11:37

그래서 제출 횟수 한도를 늘려준거같네요

준용_Choi
2023.10.18 11:39

일단 주최측의 의견을 들어봐야 할 것 같습니다 ㅠㅠ 좋은 의견 감사합니다!

율동공원
2023.10.18 11:43

다들 고생 많으십니다. 주최측 의견을 기다려봅시다,,

준용_Choi
2023.10.18 11:57

율동공원님도 굉장히 많은 제출수 였던 것 같은데 고생 많으시네요 ㅠㅠ 저희 모두 화이팅 합시다!

율동공원
2023.10.18 12:22

감사합니다. 준용님도 수상권으로 기억에 남았는데 화이팅해봅시다!