line-coupon

데이스쿨 할인 리턴즈

line-coupon-mobile

데이스쿨 할인 리턴즈

주차수요 예측 AI 경진대회

알고리즘 | 정형 | 회귀 | 교통 | MAE

상금 1,300만원
2,319명 마감

대회안내 데이터 코드 공유 토크 리더보드

제출

우리의 모델은 예측을 잘 하고 있는 걸까...? EDA

실명전사김동혁

2021.06.23 11:31 9,296 조회 language

language

리더보드를 보면서 문득 이런 생각이 들었습니다.
'test set 단지 50개의 MAE가 100이 넘는 것은 주차면수 약 5000개 가량의 오차가 있다는 걸까🤔'

현재 글 올리는 시각 기준으로 public 5위부터 mae score가 100이 넘어갑니다. 아직 대회가 시작된지 얼마 안되었다고는 하지만
얼핏봐도 오차가 좀 크다는 생각이 들어 대회에서 제공하는 베이스라인 기준으로 EDA를 진행해보았습니다.

지극히 주관적인 생각으로 대충 EDA를 한거라 참고만 해주시기 바랍니다. 의견이나 비판은 언제나 감사합니다 😊

코드

로그인이 필요합니다

comment

0 / 1000

psystat

2021.06.23 13:21

결국 단지코드별 등록차량수를 예측하는건데 train에 있는 유니크한 단지코드수가 400여개밖에 안됩니다. 데이터가 너무 적은 것 같아요.

실명전사김동혁

2021.06.23 14:56

맞습니다. 이 대회에서 아무리 좋은 모델을 만들어내도 실제 주차수요 예측함에 있어서 제 기능을 할지 모르겠네요 ㅠㅠ

둘리3

2021.06.23 15:36

MAPE를 보면 상식적으로 좋지 못한 모델을 만들고 있다는걸 알 수 있죠. 또한 모델이 실효성을 갖는지에 대해 저도 의문을 갖고 있었습니다. 좋은 글 감사합니다.

실명전사김동혁

2021.06.23 16:02

MAPE로 검증해볼 생각을 못했네요 ㅎㅎ... 그러면 더 명확하게 모델 검증이 가능할것같네요 감사합니다!

끙정

2021.06.25 21:38

저도 처음 잡고 있던 로직을 전부 뒤엎고 다시 시작할까 생각중입니다...
그저 시류를 따라가다가 말씀해주신 거 보니 정신을 차리게 되네요.
감사합니다 :)

실명전사김동혁

2021.06.25 23:52

제 의견이 무의미하지 않은 것같아 다행이네요
저야말로 감사합니다 :)

2400

2021.06.25 22:38

EDA 를 보니 Train/Test 데이터 분포가 너무 다른것 같은 느낌이 드네요...쩝,,,,

실명전사김동혁

2021.06.25 23:52

ㅎㅎㅎ.. 그래서 리더보드를 너무 맹신하면 안될것같네요

📣 댓글 작성 창의 위치가 댓글 리스트 상단으로 이동했습니다!

to_list

DACON 관계자님 데이터 오류 참고하세요

대회 - 주차수요 예측 AI 경진대회

현재 글

우리의 모델은 예측을 잘 하고 있는 걸까...? EDA

대회 - 주차수요 예측 AI 경진대회

좋아요 14

조회 9,296

댓글 8

5년 전

주차수요 예측 EDA & Catboost Baseline

대회 - 주차수요 예측 AI 경진대회