분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
HD현대 AI Challenge
현재 상황..
저희 팀에서는 날씨, 풍향 등의 날씨 컬럼에 결측치가 많아 제외하고 모델링 진행중이였는데 이부분 또한 전의 상황과 똑같은 상황인 것 같네요. 제 생각으로는 해당 컬럼들도 전의 유가 컬럼과 같이 제외하고 진행해야 된다고 생각하는데 주최측의 의견을 기다려 봐야겠네요. 다만 현재 데이터를 가지고 어제 모델링을 이미 많이 진행한 팀 (저희 팀...)이 있기 때문에 새로 데이터를 재배포하기 보다는, 해당 컬럼들을 학습에 사용할 시 부정행위로 간주하는 방법이 어떨지.. 생각됩니다. 데이터를 새로 받아 또 EDA와 모델링을 진행해야 하는데 대회에 13일 밖에 남지 않은 시점에서 제출수를 늘리는 것은 의미가 크게 없다고 생각됩니다. 여러분의 의견은 어떠한지 공유 부탁드립니다.
현재 재배포된 데이터는 train 데이터도 대략 3만개 정도 추가된 걸로 알고있습니다. 현재 모델링을 진행할 때 이미 k-fold 혹은 random_seed 등 현재 데이터에 맞는 모델링을 진행하였지만 인덱스가 바뀌거나 데이터가 달라진다면 그동안 했던 것이 또 reset 되기 때문이라고 생각이 듭니다.
그래서 제출 횟수 한도를 늘려준거같네요
일단 주최측의 의견을 들어봐야 할 것 같습니다 ㅠㅠ 좋은 의견 감사합니다!
다들 고생 많으십니다. 주최측 의견을 기다려봅시다,,
율동공원님도 굉장히 많은 제출수 였던 것 같은데 고생 많으시네요 ㅠㅠ 저희 모두 화이팅 합시다!
감사합니다. 준용님도 수상권으로 기억에 남았는데 화이팅해봅시다!
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
이번에 새로 배포된 데이터도 문제의 해당 컬럼만 제거해서 새로 배포하는 걸로 보이는데 '해당 컬럼들을 학습에 사용할 시 부정행위로 간주하는 방법이 어떨지'랑 같은거 아닌가요? 날씨 컬럼은 이전 유가 정보랑은 다르게 GT에 가까운 도출을 가능케하는 정보는 아닌것으로 보이는데...