분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
어떤 프로젝트일지 시작하기 전에 읽어보세요
개요
이 프로젝트는 데이터 과학의 전반적인 과정을 체계적으로 다루며, 실제 데이터 사이언스 프로젝트에서 요구되는 다양한 기술과 접근 방식을 학습하는 것을 목표로 합니다. 스테이지 1부터 8까지의 과정을 통해 참가자들은 데이터 분석의 기본부터 고급 모델링 기술, 데이터 전처리 및 특성 공학, 클래스 불균형 해결, 모델 튜닝 및 최적화 방법을 배웁니다.
목표
1. 데이터 분석의 기본 이해 : 데이터 구조와 특성을 이해하고, 기술통계량을 분석합니다.
2. 피처와 타겟 변수 간 관계 분석 : 시각화 기법과 통계적 방법을 통해 변수 간 관계와 분포를 분석합니다.
3.결측값 처리 : 학습 데이터의 결측값을 예측하기 위해 RandomForest 모델을 도입하고, 나머지 결측값은 SimpleImputer 기법을 활용하여 보간함으로써 데이터의 완전성을 강화합니다.
4. 이상치 탐지 및 처리 : 다양한 이상치 탐지 및 처리 기법(IQR 방법, log1p, BoxCox, sqrt, Z-Score, DBSCAN)을 학습하고 활용하여 데이터에서 효과적으로 이상치를 식별하고 처리합니다.
5. 특성 공학: 범주형 데이터(교육 수준, 본 국적, 나이 등) 간의 관계를 카이제곱 검정을 활용해 분석하고, 효과적인 범주화를 통해 데이터의 차원을 축소하고 분석을 단순화합니다.
6. 클래스 불균형 해결과 데이터 표준화: 클래스 불균형 문제를 해결하기 위해 BorderlineSMOTE를 사용한 오버샘플링과 데이터 표준화를 위한 StandardScaler를 집중적으로 다룹니다. 이를 통해 데이터 일관성을 높이고, 모델의 예측 정확도를 개선합니다.
7. 모델 튜닝 및 최적화: LightGBM과 Optuna를 사용한 하이퍼파라미터 튜닝과 Stratified K-Fold 교차 검증을 통해 모델의 성능을 극대화하고, Gradient Boosting과 LightGBM을 활용한 Hard 및 Soft Voting 앙상블 학습을 통해 예측 정확도를 높이는 방법을 배웁니다.
8. 테스트 데이터 예측 및 결과 제출: 실제 테스트 데이터에 모델을 적용하고, 예측 결과를 제출용 CSV 파일로 저장하여 실제 경진대회 제출 과정을 경험합니다.
설명
본 프로젝트는 데이터 과학의 기본부터 고급 기술까지 다루는 종합적인 교육 과정입니다. 스테이지별로 차근차근 데이터 과학의 다양한 측면을 탐구하며, 실제 데이터에 적용할 수 있는 전문 지식과 기술을 습득합니다. 프로젝트를 통해 학습자는 데이터 분석, 전처리, 특성 공학, 모델링, 튜닝, 그리고 최적화 기법을 실제 문제에 적용하는 능력을 개발할 수 있습니다. 이 과정은 데이터 과학 분야에서 필요한 실질적인 경험을 제공하며, 데이터 과학자로서의 역량을 키우는 데 큰 도움이 됩니다.
차근차근 단계를 밟아 학습해보세요.
스테이지 8 개
안녕하세요! 🙋♀️ 데이스쿨은 인공지능 초/중급 학습자를 위한 프로젝트 학습, 해커톤, 트랙으로 구성된 학습 플랫폼이에요. 부단한 연습과 매일의 작은 노력을 통해 여러분의 학습 목표를 달성해 보세요. 🏆 여러분의 성공을 위해 데이스쿨이 함께 할게요. 🎉 📧 문의: dacon0school@gmail.com
더보기