분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
Private 4위 | nn | weighted label | UCLA Isaac Han
이모델의 설명은 다음과 같습니다.
1. F1 스코어 리더보드의 스코어 0.51 포화상태를 보아서 데이타의 distribution이 간결하지 않다고 생각하였습니다. SMOTE같은 Augmentation은 질 낮은 데이터에서 사용을 할경우 Data Leakage 문제가 발생할 수 있다고 생각하여서 K-fold stratification을 사용하였습니다. 레이벨이 틀린 데이타가 training set에 들어가거나 서로 근접한데 레이벨이 다른 기존의 데이터셋보다 더강한 문제를 초래할 수 있다고 생각했습니다.
2. 대회시작전에 xgsboost모델로 예시로 올려놓은 글을 보았습니다. 데이터 분석에서 수치형 데이터를 다버리라고 할정도로 데이터의 질이 좋지 않다고 생각해서 모델구조에서 BatchNormalization과 Dropout(0.4)등 학습 강화요소와 과적합 방지요소를 강하게 넣고 General한 트렌드만 배우도록 시켰습니다. 따라서 Public스코어에서는 130+등정도로 등수가 낮았습니다.
3. Scheduled Learning Rate (동적 러닝 레이트)를 사용하여 General한 트렌드를 배우고서 조금더 배울내용이 있으면 배워보라고 시켰습니다. 조금씩 Hyperparameter튜닝을 하면 등수가 올라갈 수 있었을거 같습니다. (step, polynomial, linear, etc). 다만 Public 등수가 130+ 였고 랭크권에 크게 기대를 안하고있어서 시간투자가 많은 튜닝을 하지 않고 기본적인 수치만 사용해서 올렸습니다. 마지막에 4등까지 간거를 보고 바꿨으면 더 높을 수 있었겠다는 아쉬움이 남슴니다.
코딩|수학|물리관련 코칭을 합니다. 관심있으시면 LInkedIn 주소 방문해서 연락주시거나 개인 이메일 cogitoergosum01001@gmail.com로 연락을 주세요.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io |
전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved