Iris Sepal/Petal Width Prediction AI Hackathon

Algorithm | Structured | Regression | Science | MAE

참가시 최소 50 XP, 특별상 데이콘 후드
590 Users Completed

Practice

Overview Data Code (share) Talk Leaderboard

Submission

Imbalanced data처리, 단순한 Augmentation

LAVIE

2021.10.28 18:26 5,663 Views language

1. 데이터 불균형을 처리하기 위해 SMOTE 기법을 사용했습니다.
2. 데이터를 늘리기 위해서 난수를 통해 증강 하였습니다.
3. XGBoost 모델을 사용하셨습니다.

* species별 scaling은 시로님의 코드(https://dacon.io/competitions/official/235836/codeshare/3627?page=2&dtype=recent)를 참고하였습니다.

Code

3 Comments

comment

0 / 1000

비회원

2021.10.29 09:34

좋은 코드 공유 감사합니다! 질문이 하나 있는데 scaling의 경우 학습데이터에는 fit_transform을 하고 이 때 학습한 scaler로 test데이터는 transform을 해주는 것으로 알고 있는데 test데이터에 fit_transform을 하면 data leakage문제가 발생하지 않나요???

LAVIE

2021.10.29 10:13

말씀하신 경우는 test data의 개념이 우리가 가진 train에서 분리된 경우(split)인 것 같고, 이 경진대회는 test데이터가 분리되어있으니 상관 없을 것 같습니다. 제 의견이니 틀릴수도 있습니다 ㅎㅎ; 말씀하신게 맞다면 과적합이 일어났어야 할 것 같아요!

비회원

2021.10.29 10:22

넵 감사합니다!

📣 The comment input field has been moved to the top of the comment list!

List

데이터 분석 과정 정리 ( Public : 0.16557, RandomForest )

Competition - Iris 너비 예측 AI 해커톤

Likes 8