주차수요 예측 AI 경진대회

알고리즘 | 정형 | 회귀 | 교통 | MAE

  • moneyIcon 상금 : 총 1,300만원
  • 2,271명 마감

 

우리의 모델은 예측을 잘 하고 있는 걸까...? EDA

2021.06.23 11:31 6,897 조회 language

리더보드를 보면서 문득 이런 생각이 들었습니다.
'test set 단지 50개의 MAE가 100이 넘는 것은 주차면수 약 5000개 가량의 오차가 있다는 걸까🤔'

현재 글 올리는 시각 기준으로 public 5위부터 mae score가 100이 넘어갑니다. 아직 대회가 시작된지 얼마 안되었다고는 하지만 
얼핏봐도 오차가 좀 크다는 생각이 들어 대회에서 제공하는 베이스라인 기준으로 EDA를 진행해보았습니다.

지극히 주관적인 생각으로 대충 EDA를 한거라 참고만 해주시기 바랍니다.  의견이나 비판은 언제나 감사합니다  😊

코드
로그인이 필요합니다
0 / 1000
psystat
2021.06.23 13:21

결국 단지코드별 등록차량수를 예측하는건데 train에 있는 유니크한 단지코드수가 400여개밖에 안됩니다. 데이터가 너무 적은 것 같아요.

실명전사김동혁
2021.06.23 14:56

맞습니다. 이 대회에서 아무리 좋은 모델을 만들어내도 실제 주차수요 예측함에 있어서 제 기능을 할지 모르겠네요 ㅠㅠ

둘리3
2021.06.23 15:36

MAPE를 보면 상식적으로 좋지 못한 모델을 만들고 있다는걸 알 수 있죠. 또한 모델이 실효성을 갖는지에 대해 저도 의문을 갖고 있었습니다. 좋은 글 감사합니다.

실명전사김동혁
2021.06.23 16:02

MAPE로 검증해볼 생각을 못했네요 ㅎㅎ... 그러면 더 명확하게 모델 검증이 가능할것같네요 감사합니다!

끙정
2021.06.25 21:38

저도 처음 잡고 있던 로직을 전부 뒤엎고 다시 시작할까 생각중입니다...
그저 시류를 따라가다가 말씀해주신 거 보니 정신을 차리게 되네요.
감사합니다 :)

실명전사김동혁
2021.06.25 23:52

제 의견이 무의미하지 않은 것같아 다행이네요
저야말로 감사합니다 :)

2400
2021.06.25 22:38

EDA 를 보니 Train/Test 데이터 분포가 너무 다른것 같은 느낌이 드네요...쩝,,,,

실명전사김동혁
2021.06.25 23:52

ㅎㅎㅎ.. 그래서 리더보드를 너무 맹신하면 안될것같네요