분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
데이콘 x BDA 제 2회 학습자 수료 예측 AI 경진대회
순위권 분들은 이번 대회 CV 어떻게 사용하셨나요?
저희 팀은 5Fold OOF CV를 사용하려 했지만 대회 기간 내내 CV와 LB 분포 차이를 좁히지 못하다가 결국 Public LB가 가장 높았던 파일을 제출했습니다..
다행히 seed + model 간 ensemble을 진행하여 Public/Private score 차이가 크지 않아 큰 shake-down이 일어나지는 않았지만(12nd -> 15th) CV 설정에 실패한 것 같아 아쉽습니다.
혹시 다른 분들은 어떻게 접근하셨는지 궁금합니다.
안녕하세요. 저희 팀의 접근 방식을 간단히 공유해 드립니다.
저희가 분석한 바로는 Train(9기)과 Test(10기) 간의 데이터 성격, 특히 텍스트 변수들에서 등장하는 단어와 분포가 너무 달랐고, 행이 매우 작았던 것(오히려 Test 데이터가 더 큼)이 CV가 무용지물이 된 가장 큰 원인이었던 것 같습니다.
분포가 다르다 보니, 모델의 다양성으로 승부를 보려 했습니다. CatBoost, 딥러닝, 로지스틱 회귀, RandomForest 등 최대한 여러 구조의 모델에서 확률값을 뽑아낸 뒤, 모델들이 서로의 약점을 상호 보완해 주도록 앙상블을 진행했습니다.
그리고 최종 단계에서는 SVM을 활용하여 애매한 경계선에 있는 예측값들을 뒤집고 필터링하는 방식으로 점수를 끌어올렸습니다.
하지만 이렇게 여러 보완책을 썼음에도 불구하고, 결국 저희 역시 Public LB에 어느 정도 과적합되는 것을 완벽하게 피할 수는 없었던 것 같네요... 아무래도 0/1 분류 대회라서 Public LB만 보면서 개선해나가다보면 당연한 것 같습니다..! 그만큼 Train/Test의 이질성 때문에 모델 검증이 참 까다로운 대회였습니다.
안녕하세요 호지안님. 답변 정말 감사드립니다!!
저도 검증이 안되는 점 때문에 정말 까다롭다고 느꼈습니다 ㅠ
Train(9기)과 Test(10기) 간의 데이터 성격, 텍스트 변수들에서 등장하는 단어와 분포가 다른 점을 제가 놓친 거 같네요..! ㅎㅎ
public에서 0.5찍으신거 보고 감탄했는데, 그래도 수상 축하 드립니다!!
감사합니다!!
두 분 모두 좋은 인사이트 주셔서 감사합니다!
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io |
전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
저도 궁금합니다..!!
앙상블을 많이 쳐서 Shake-up이 좋은 쪽으로 왔지만, 예상했던 결과는 아니어서, 상위권 분들은 어떤 기준으로 최종 제출물을 선정하셨는지, 또 어떤 접근 방식으로 public에서 성능을 확보하셨는지 궁금합니다. 지금까지 참여했던 대회 중 가장 까다로웠던 만큼, 상위권 분들의 노하우를 배우고 싶습니다.