분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
어떤 프로젝트일지 시작하기 전에 읽어보세요
📢 아래 교재들은 AI를 처음 배우는 분들을 위한 연계된 시리즈입니다.
이론 4권 + 실습 2권으로 구성되어 있으며, AI의 개념부터 실전 활용까지 단계적으로 익힐 수 있습니다.
📚 이론 교재 (기초 개념부터 머신러닝 원리까지)
1️⃣ 인공지능 첫걸음: 상 - 인공지능의 정의, 역사, 그리고 미래 전망
2️⃣ 인공지능 첫걸음: 하 - 인공지능 프로젝트의 기획부터 배포까지
3️⃣ 코드 없이 배우는 머신러닝 첫걸음: 상 - 학습 원리와 다양한 알고리즘 유형
4️⃣ 코드 없이 배우는 머신러닝 첫걸음: 하 - AI의 학습 과정과 데이터 활용 방법
📚 실습 교재 (실제 데이터를 활용한 머신러닝 실습)
5️⃣ 프로젝트 입문 - 따라하면서 배우는 머신러닝 프로젝트: 분류
6️⃣ 프로젝트 입문 - 따라하면서 배우는 머신러닝 회귀 프로젝트 -> 추후 공개 예정
AI 모델이 성공적으로 예측을 수행하려면, 단순한 모델 선택뿐만 아니라 데이터를 이해하고 가공하는 과정이 필수적입니다. 이번 교재에서는 앞서 배운 이론 교재 4개에서 학습한 개념을 실제 데이터에 적용하여 당뇨병 예측 프로젝트를 수행합니다.
이 프로젝트에서는 데이터 전처리부터 모델 학습, 평가, 그리고 최종 제출까지 AI 모델 개발의 전 과정을 실습하며, 실제 해커톤과 유사한 환경에서 머신러닝을 경험할 수 있습니다.
📌 이 교재에서는 어떤 내용을 배우나요?
⚫️ 스테이지 1~2: 프로젝트의 목적과 데이터를 이해하기
당뇨병 예측 프로젝트의 목적과 규칙을 학습하고, 사용할 데이터셋(train.csv, test.csv, sample_submission.csv)의 구조를 이해합니다.
AI 모델의 성능을 평가하는 핵심 지표인 정확도(Accuracy) 의 개념과 모델 평가 방법을 익힙니다.
⚫️ 스테이지 3~4: 데이터 탐색 및 기본 조작 방법 익히기pandas
라이브러리를 사용해 데이터를 불러오고, describe()
, value_counts()
등을 활용하여 데이터를 분석합니다.
데이터에서 특정 행과 열을 선택하는 방법을 익히고, loc[]
, iloc[]
을 활용하여 원하는 데이터를 효율적으로 추출하는 방법을 배웁니다.
⚫️ 스테이지 5~6: 탐색적 데이터 분석(EDA)과 이상치 처리
시각화 기법(막대그래프, 히스토그램, 박스플롯, 산점도)을 활용하여 데이터의 패턴과 이상값을 분석합니다.
결측값과 이상치를 탐색하고, 이를 처리하는 방법(제거 또는 중앙값 대체)을 학습하여 데이터 품질을 개선합니다.
⚫️ 스테이지 7~8: 특성 공학(Feature Engineering) 및 데이터 정규화
특정 특성을 그룹화(저혈압, 정상 혈압, 고혈압) 하여 새로운 변수를 생성하고, apply()
와 replace()
를 활용해 범주형 데이터를 숫자로 변환하는 방법을 익힙니다.StandardScaler
를 사용하여 데이터 정규화를 수행하고, 머신러닝 모델이 데이터 패턴을 더욱 효과적으로 학습할 수 있도록 돕습니다.
⚫️ 스테이지 9~10: 머신러닝 모델 학습 및 예측
로지스틱 회귀(Logistic Regression) 모델을 활용하여 학습을 수행하고, 학습된 모델을 바탕으로 테스트 데이터에 대한 예측을 수행합니다.train_test_split()
을 사용하여 학습 데이터와 검증 데이터를 분리하고, 검증 데이터를 활용하여 모델 성능을 평가하는 방법을 익힙니다.
⚫️ 스테이지 11~12: 모델 평가 및 성능 분석
검증 데이터를 활용하여 모델 성능을 평가하고, accuracy_score()
를 사용하여 정확도를 계산하는 방법을 학습합니다.
테스트 데이터에서 예측된 결과를 제출 파일(submission.csv
)로 저장하고, 실제 대회나 프로젝트에서 활용하는 방법을 익힙니다.
⚫️ 스테이지 13: 과적합(Overfitting) 문제와 해결 방법
학습 데이터에서 높은 정확도를 보이지만 검증 데이터에서 성능이 떨어지는 과적합(Overfitting) 개념을 이해하고, 이를 방지하는 전략을 학습합니다.
의사결정나무(Decision Tree) 모델을 활용하여 과적합이 발생하는 원리를 실습하며, 모델의 일반화 성능을 높이는 방법을 익힙니다.
⚫️ 스테이지 14~15: 최종 제출 - 모든 과정 종합하기
모델 학습 및 평가의 전체 과정을 종합하여 최종 제출 파일을 생성하는 방법을 학습합니다.
데이터를 전처리하고, 혈압 데이터를 그룹화하며, 의사결정나무(Decision Tree) 모델을 활용한 최종 학습 및 예측을 수행합니다.to_csv()
를 사용하여 제출 파일을 저장하고, 대회나 실전 환경에서 AI 모델을 적용하는 방법을 배웁니다.
✅ AI 모델을 처음 학습하는 입문자도 쉽게 따라할 수 있도록 실습을 단계별로 구성했습니다.
✅ 데이터 분석부터 머신러닝 모델 학습, 평가, 제출까지 실전 프로젝트 경험을 쌓을 수 있습니다.
✅ 단순한 모델 구현을 넘어 데이터 전처리와 피처 엔지니어링의 중요성을 직접 경험할 수 있습니다.
✅ AI 모델을 처음 실습해보는 입문자로, 데이터 분석부터 모델 학습까지 직접 해보고 싶은 분
✅ 데이터 전처리와 피처 엔지니어링이 왜 중요한지 실전 예제를 통해 배우고 싶은 분
✅ 머신러닝 프로젝트에서 모델 평가와 과적합 문제를 해결하는 방법을 익히고 싶은 분
✅ AI 해커톤이나 경진대회 참가를 준비하며 실제 예측 모델을 만들어보고 싶은 분
지금 바로 시작해서, 데이터에서 인사이트를 찾고 AI 모델을 구축하는 과정을 익혀봅시다! 🚀
차근차근 단계를 밟아 학습해보세요.
스테이지 15 개
안녕하세요! 🙋♀️ 데이스쿨은 인공지능 초/중급 학습자를 위한 프로젝트 학습, 해커톤, 트랙으로 구성된 학습 플랫폼이에요. 부단한 연습과 매일의 작은 노력을 통해 여러분의 학습 목표를 달성해 보세요. 🏆 여러분의 성공을 위해 데이스쿨이 함께 할게요. 🎉 📧 문의: dacon0school@gmail.com
더보기