데이콘 Basic 스트레스 지수 예측 : 건강 데이터로 마음의 균형을 찾아라!

수상 인터뷰 - JeongJea

2025.09.15 15:48 308 Views

안녕하세요, JeongJea입니다.

먼저, 이렇게 좋은 기회를 제공해준 데이콘에 진심으로 감사의 말씀을 드립니다. 그리고 함께 열정을 다해 경쟁하며 서로에게 좋은 자극이 되어준 모든 참가자분들께도 감사의 마음을 전하겠습니다.


전략은 기본에만 충실히 하는 것이었습니다.

  1. 데이터 전처리: 모델의 성능은 결국 데이터의 품질에 달려있다고 생각합니다. 범주형과 수치형 변수를 명확히 구분하고, 각 특성에 맞는 최적의 전처리 방식을 적용했습니다. 범주형 데이터는 레이블 인코딩을, 수치형 데이터는 Standard Scaling을 통해 모델이 데이터를 편향 없이 학습되게 했습니다.
  2. XGBoost 모델 활용: 예측 모델로는 현재 캐글과 같은 데이터 경진대회에서 가장 뛰어난 성능을 보여주는 XGBoost(eXtreme Gradient Boosting) 회귀 모델을 선택했습니다. XGBoost의 강력한 성능과 유연성은 복잡한 비선형 관계를 가진 데이터를 효과적으로 학습하는 데 큰 도움이 되었습니다.
  3. 정교한 하이퍼파라미터 최적화: 최고의 성능을 이끌어내기 위해, GridSearchCV 기법을 활용하여 모델의 핵심 파라미터들을 체계적으로 탐색했습니다. 특히, 수백 번의 반복 학습 과정에서 발생할 수 있는 과적합을 방지하고 최적의 학습 지점을 포착하기 위해 Early Stopping을 적용한 것이 이번 수상의 결정적인 요인이었다고 생각합니다.
  4. 교차 검증: 마지막으로, 모델의 성능이 특정 데이터에만 국한된 것이 아님을 증명하기 위해 5-Fold Cross-Validation으로 모델의 신뢰도를 엄격하게 평가했습니다. 이 과정을 통해 모델이 새로운 데이터에 대해서도 안정적인 예측 성능을 보일 것이라는 확신을 가질 수 있었습니다.

이번 대회를 통해 좋은 모델을 만들기 위한 여정은 기본에 충실한 데이터 처리와 끊임없는 최적화 노력에서 시작된다는 것을 배울 수 있었습니다.