분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
우리의 모델은 예측을 잘 하고 있는 걸까...? EDA
리더보드를 보면서 문득 이런 생각이 들었습니다.
'test set 단지 50개의 MAE가 100이 넘는 것은 주차면수 약 5000개 가량의 오차가 있다는 걸까🤔'
현재 글 올리는 시각 기준으로 public 5위부터 mae score가 100이 넘어갑니다. 아직 대회가 시작된지 얼마 안되었다고는 하지만
얼핏봐도 오차가 좀 크다는 생각이 들어 대회에서 제공하는 베이스라인 기준으로 EDA를 진행해보았습니다.
지극히 주관적인 생각으로 대충 EDA를 한거라 참고만 해주시기 바랍니다. 의견이나 비판은 언제나 감사합니다 😊
맞습니다. 이 대회에서 아무리 좋은 모델을 만들어내도 실제 주차수요 예측함에 있어서 제 기능을 할지 모르겠네요 ㅠㅠ
MAPE를 보면 상식적으로 좋지 못한 모델을 만들고 있다는걸 알 수 있죠. 또한 모델이 실효성을 갖는지에 대해 저도 의문을 갖고 있었습니다. 좋은 글 감사합니다.
MAPE로 검증해볼 생각을 못했네요 ㅎㅎ... 그러면 더 명확하게 모델 검증이 가능할것같네요 감사합니다!
저도 처음 잡고 있던 로직을 전부 뒤엎고 다시 시작할까 생각중입니다...
그저 시류를 따라가다가 말씀해주신 거 보니 정신을 차리게 되네요.
감사합니다 :)
제 의견이 무의미하지 않은 것같아 다행이네요
저야말로 감사합니다 :)
EDA 를 보니 Train/Test 데이터 분포가 너무 다른것 같은 느낌이 드네요...쩝,,,,
ㅎㅎㅎ.. 그래서 리더보드를 너무 맹신하면 안될것같네요
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
결국 단지코드별 등록차량수를 예측하는건데 train에 있는 유니크한 단지코드수가 400여개밖에 안됩니다. 데이터가 너무 적은 것 같아요.