데이콘 x BDA 제 2회 학습자 수료 예측 AI 경진대회

순위권 분들은 이번 대회 CV 어떻게 사용하셨나요?

2026.02.23 10:15 480 Views

저희 팀은 5Fold OOF CV를 사용하려 했지만 대회 기간 내내 CV와 LB 분포 차이를 좁히지 못하다가 결국 Public LB가 가장 높았던 파일을 제출했습니다..

다행히 seed + model 간 ensemble을 진행하여 Public/Private score 차이가 크지 않아 큰 shake-down이 일어나지는 않았지만(12nd -> 15th) CV 설정에 실패한 것 같아 아쉽습니다.


혹시 다른 분들은 어떻게 접근하셨는지 궁금합니다.

Login Required
0 / 1000
진욱
2026.02.23 11:12

저도 궁금합니다..!! 
앙상블을 많이 쳐서  Shake-up이 좋은 쪽으로 왔지만, 예상했던 결과는 아니어서, 상위권 분들은 어떤 기준으로 최종 제출물을 선정하셨는지, 또 어떤 접근 방식으로 public에서 성능을 확보하셨는지 궁금합니다. 지금까지 참여했던 대회 중 가장 까다로웠던 만큼, 상위권 분들의 노하우를 배우고 싶습니다.

호지안
2026.02.23 14:41

안녕하세요. 저희 팀의 접근 방식을 간단히 공유해 드립니다.

저희가 분석한 바로는 Train(9기)과 Test(10기) 간의 데이터 성격, 특히 텍스트 변수들에서 등장하는 단어와 분포가 너무 달랐고, 행이 매우 작았던 것(오히려 Test 데이터가 더 큼)이 CV가 무용지물이 된 가장 큰 원인이었던 것 같습니다.

분포가 다르다 보니,  모델의 다양성으로 승부를 보려 했습니다. CatBoost, 딥러닝, 로지스틱 회귀, RandomForest 등 최대한 여러 구조의 모델에서 확률값을 뽑아낸 뒤, 모델들이 서로의 약점을 상호 보완해 주도록 앙상블을 진행했습니다.

그리고 최종 단계에서는 SVM을 활용하여 애매한 경계선에 있는 예측값들을 뒤집고 필터링하는 방식으로 점수를 끌어올렸습니다.
하지만 이렇게 여러 보완책을 썼음에도 불구하고, 결국 저희 역시 Public LB에 어느 정도 과적합되는 것을 완벽하게 피할 수는 없었던 것 같네요... 아무래도 0/1 분류 대회라서 Public LB만 보면서 개선해나가다보면 당연한 것 같습니다..! 그만큼 Train/Test의 이질성 때문에 모델 검증이 참 까다로운 대회였습니다.

진욱
2026.02.23 15:21

안녕하세요 호지안님. 답변 정말 감사드립니다!! 
저도 검증이 안되는 점 때문에 정말 까다롭다고 느꼈습니다 ㅠ
Train(9기)과 Test(10기) 간의 데이터 성격, 텍스트 변수들에서 등장하는 단어와 분포가 다른 점을 제가 놓친 거 같네요..! ㅎㅎ
public에서 0.5찍으신거 보고 감탄했는데, 그래도 수상 축하 드립니다!!

호지안
2026.02.23 16:50

감사합니다!!

knowin_kyeong
2026.02.24 00:01

두 분 모두 좋은 인사이트 주셔서 감사합니다!