Python 튜토리얼

기초

  • moneyIcon Prize : 교육
  • 31명 D-100445

DACON_101: 머신러닝이 처음이라면 🤔

🏃‍♀️ [데이터 다운로드] 부터 ️[대회 제출] 까지 🏃‍♂



Lv1. 의사결정회귀나무로 따릉이 데이터 예측하기


🏃‍♂️Lv1 | EDA | 라이브러리 불러오기 (import)

⬇️Lv1 | EDA | 파일 불러오기 (read_csv())

🔍Lv1 | EDA | 행열갯수 관찰하기 (shape)

Lv1 | EDA | 데이터 확인하기 (head())

💣Lv1 | EDA | 결측치 확인하기 (is_null())


🧲Lv1 | 전처리 | 데이터 결측치 확인하기 (info())

🛠Lv1 | 전처리 | 결측치 삭제하기, 대체하기 (dropna(), fillna())


🌲Lv1 | 모델링 | scikit-learn (DecisionTreeClassifier)

👨‍🏫Lv1 | 모델링 | 모델개념 (의사결정나무)

🌳Lv1 | 모델링 | 모델선언 (DecisionTreeClassifier())

🏃Lv1 | 모델링 | 모델훈련 (fit())

✈️Lv1 | 모델링 | 테스트예측(predict())

🙋Lv1 | 모델링 | 제출파일생성(to_csv())


📝Lv1 | 복습



Lv2. 결측치 보간법과 랜덤포레스트로 따릉이 데이터 예측하기


🤔 Lv2 | 전처리 | 결측치 평균으로 대체 (fillna({mean}))

😲 Lv2 | 전처리 | 결측치 보간법으로 대체 (interpolate())


🔨 Lv2 | 모델링 | 랜덤포레스트 개념, 선언 (RandomForestRegressor())

✏️ Lv2 | 모델링 | 랜덤포레스트를 평가척도에 맞게 학습 (criterion='mse')


🔎 Lv2 | 튜닝 | 랜덤포레스트 변수중요도 확인 (feature_importances_)

Lv2 | 튜닝 | 변수 제거 (drop())

🚆 Lv2 | 튜닝 | 하이퍼파라미터, GridSearch 개념 (정지규칙)

Lv2 | 튜닝 | GridSearch 구현 (GridSearchCV())


📝 Lv2 | 복습



Lv3. 교차검증과 LGBM 모델을 활용한 와인 품질 분류하기


🔎 Lv3 | EDA | read_csv(), info(), shape, head()

🤔 Lv3 | EDA | 결측치 유무 확인하기 isnull().sum()

🗂 Lv3 | EDA | 수치데이터 특성 보기 (describe())

Lv3 | EDA | 타깃 변수 분포 시각화 seaborn distplot()

📈Lv3 | EDA | Matplotlib 선 그래프 그리기 (plot())

🔲 Lv3 | EDA | Matplotlib 히스토그램 그리기 (hist())



👍 Lv3 | 전처리 | 이상치 탐지 seaborn_boxplot()

🎁 Lv3 | 전처리 | 이상치 제거 IQR

💕Lv3 | 전처리 | 수치형 데이터 정규화 MinMaxScaler()

🌏Lv3 | 전처리 | 원-핫 인코딩 OneHotEncoder()


😎Lv3 | 모델링 | 모델 정의 RandomForestClassifier()

🐱‍🏍Lv3 | 모델링 | 모델 실습 RandomForestClassifier()

👏Lv3 | 모델링 | 교차 검증 정의 K-Fold

👍Lv3 | 모델링 | 교차검증 실습 K-Fold


🍦Lv3 | 튜닝 | Bayesian Optimization

🍧Lv3 | 튜닝 | 그리드, 랜덤 서치 vs Bayesian Optimization

🍨Lv3 | 튜닝 | Bayesian Optimization 실습


📝 Lv3 | 복습



Lv4. 교차검증과 모델 앙상블을 활용한 와인 품질 분류하기



🍦 Lv4 | EDA | 1/5 | seaborn pairplot

🍨 Lv4 | EDA | 2/5 | seaborn distplot

🍧 Lv4 | EDA | 3/5 | seaborn | heatamp

🥝Lv4 | EDA | 4/5 | 다중공선성 Scatter plot

🍎Lv4 | EDA | 5/5 | 다중공선성 VIF(분산 팽창 요인)

🥕Lv4 | EDA | 복습 🧓👴



🧸Lv4 | 전처리 | 1/9 | 다중공선성 해결 | 변수 정규화

🎨Lv4 | 전처리 | 2/9 | 다중공선성 해결 | 변수 제거

🧵Lv4 | 전처리 | 3/9 | 다중공선성 해결 - PCA (1)

🪀Lv4 | 전처리 | 4/9 | 다중공선성 해결 - PCA (2)

🥌Lv4 | 전처리 | 5/9 | 다중공선성 해결 - PCA (3)

🏐Lv4 | 전처리 | 6/9 | 연속형 변수 변환 (1)

🎣Lv4 | 전처리 | 7/9 | 연속형 변수 변환 (2)

🎢Lv4 | 전처리 | 8/9 | Polynomial Features (1)

🎪Lv4 | 전처리 | 9/9 | Polynomial Features (2)

🥕Lv4 | 전처리 | 복습 - (1) 🧓👴

🍇Lv4 | 전처리 | 복습 - (2) 👸🤴


🍖Lv4 | 모델링 | 1/8 | XGBoost 개념

🍗Lv4 | 모델링 | 2/8 | XGBoost 실습

🥩Lv4 | 모델링 | 3/8 | LightGBM 개념

🍤Lv4 | 모델링 | 4/8 | LightGBM 실습

🍩Lv4 | 모델링 | 5/8 | stratified k-fold 정의

🍪Lv4 | 모델링 | 6/8 | stratified k-fold 실습

🍘Lv4 | 모델링 | 7/8 | Voting Classifier 정의

🍙LV4 | 모델링 | 8/8 | Voting Classifier 실습

🥛LV4 | 모델링 | 복습 - (1)

🧴 Lv4 | 모델링 | 복습 - (2)


🛹Lv4 | 튜닝 | 1/6 | Bayesian Optimization 복습

🧷Lv4 | 튜닝 | 2/6 | Bayesian Optimization 실습

🚧Lv4 | 튜닝 | 3/6 | XGBoost 튜닝

🚀Lv4 | 튜닝 | 4/6 | Light GBM 튜닝

🚁Lv4 | 튜닝 | 5/6 | 모델 튜닝 / Voting Classifier(1)

🚲Lv4 | 튜닝 | 6/6 | 모델 튜닝 / Voting Classifier(2)


🌀Lv4 | 복습


🛫정형 데이터 분석 파이프라인 - (1)

🛬정형 데이터 분석 파이프라인 - (2)



Lv1. LGBM모델로 청와대 청원 데이터 분류하기


💫Lv1 | EDA | 1/12 | 파일 불러오기 - (nrows, n번째 행까지 불러오기)

🚗Lv1 | EDA | 2/12 | 파일 불러오기 - (header, 원하는 행을 컬럼으로 지정하여 불러오기)

🚓Lv1 | EDA | 3/12 | 파일 불러오기 - (index_col, 원하는 컬럼을 인덱스로 지정하여 불러오기)

🚕Lv1 | EDA | 4/12 | 파일 불러오기 - (na_filter, 결측치를 제외하고 불러오기)

🪂 Lv1 | EDA | 5/12 | 파일 불러오기 - (skipfooter, 뒤에서 n개 행 제외하고 불러오기)

🚍Lv1 | EDA | 6/12 | 파일 불러오기 - (encoding, 데이터의 인코딩 형식을 맞춰 불러오기)

🚆Lv1 | EDA | 7/12 | 파일 불러오기 - (names, 데이터를 불러올 때 컬럼명을 지정해서 불러오기)

🍈Lv1 | EDA | 8/12 | 파일 내보내기 - (index=False, 데이터를 저장할 때 index 제외하고 저장)

🍉Lv1 | EDA | 9/12 | 데이터 확인하기 - (head(),tail())

🍊Lv1 | EDA | 10/12 | 데이터 결측치 확인하기 - (isnull().sum())

🍋Lv1| EDA | 11/12 | unique value 값 개수 출력(value_counts()

🍌Lv1 | EDA | 12/12 | 데이터 기본 정보 보기(info())


🥧Lv1 | 전처리 | 1/14 | 텍스트 데이터 전처리 개요

🍦Lv1 | 전처리 | 2/14 | 텍스트 데이터 특정 텍스트 제거(replace())

🍧Lv1 | 전처리 | 3/14 | 텍스트 데이터 특정 텍스트 제거(isalpha())

🍨Lv1 | 전처리 | 4/14 | 텍스트 데이터 특정 텍스트 제거(isalnum())

🍩Lv1 | 전처리 | 5/14 | 텍스트 데이터 특정 텍스트 제거(isdecimal())

🍪Lv1 | 전처리 | 6/14 | 특정 텍스트 제거 - apply(),lambda()

🎂Lv1 | 전처리 | 7/14 | 형태소 분석기 - (1)

🧁Lv1 | 전처리 | 8/14 | 형태소 분석기 - (2)

🍫Lv1 | 전처리 | 9/14 | 형태소 분석기 - (3)

🍬Lv1 | 전처리 | 10/14 | Bag of Words

🍭Lv1 | 전처리 | 11/14 | CountVectorizer - (1)

🍡Lv1 | 전처리 | 12/14 | CountVectorizer - (2)

🍺Lv1 | 전처리 | 13/14 | TF-IDF(Term Frequency - Inverse Document Frequency) - (1)

🍻Lv1 | 전처리 | 14/14 | TF-IDF(Term Frequency - Inverse Document Frequency) - (2)


🌺Lv1 | 모델링 | 1/6 | train_test_split - (1)

🌻Lv1 | 모델링 | 2/6 | train_test_split - (2)

🌼Lv1 | 모델링 | 3/6 | train_test_split - (3)

🌷Lv1 | 모델링 | 4/6 | train_test_split - (4)

🥀Lv1 | 모델링 | 5/6 | train_test_split / LGBM - (1)

🌱Lv1 | 모델링 | 6/6 | train_test_split / LGBM - (2)


🌴Lv1 | 튜닝 | 1/2 | 파라미터 / 하이퍼 파라미터

🌾Lv1 | 튜닝 | 2/2 | 하이퍼 파라미터 튜닝 / gird search





#데이콘 #데이콘_101 #파이썬 #머신러닝 #딥러닝 #인공지능 #앙상블 #의사결정나무 #코랩 #데이터 #데이터분석 #판다스 #넘파이 #데이터사이언티스트 #AI #Python # Pandas #Numpy #lightgbm #read_csv #DACON #kaggle #sckit-learn

Main Event Schedule

  1. 01.18

    대회 시작

  2. 02.18

    Team Merger Deadline

  3. 02.18

    대회 종료

DACON_101: 머신러닝이 처음이라면 🤔

🏃‍♀️ [데이터 다운로드] 부터 ️[대회 제출] 까지 🏃‍♂



Lv1. 의사결정회귀나무로 따릉이 데이터 예측하기


🏃‍♂️Lv1 | EDA | 라이브러리 불러오기 (import)

⬇️Lv1 | EDA | 파일 불러오기 (read_csv())

🔍Lv1 | EDA | 행열갯수 관찰하기 (shape)

Lv1 | EDA | 데이터 확인하기 (head())

💣Lv1 | EDA | 결측치 확인하기 (is_null())


🧲Lv1 | 전처리 | 데이터 결측치 확인하기 (info())

🛠Lv1 | 전처리 | 결측치 삭제하기, 대체하기 (dropna(), fillna())


🌲Lv1 | 모델링 | scikit-learn (DecisionTreeClassifier)

👨‍🏫Lv1 | 모델링 | 모델개념 (의사결정나무)

🌳Lv1 | 모델링 | 모델선언 (DecisionTreeClassifier())

🏃Lv1 | 모델링 | 모델훈련 (fit())

✈️Lv1 | 모델링 | 테스트예측(predict())

🙋Lv1 | 모델링 | 제출파일생성(to_csv())


📝Lv1 | 복습



Lv2. 결측치 보간법과 랜덤포레스트로 따릉이 데이터 예측하기


🤔 Lv2 | 전처리 | 결측치 평균으로 대체 (fillna({mean}))

😲 Lv2 | 전처리 | 결측치 보간법으로 대체 (interpolate())


🔨 Lv2 | 모델링 | 랜덤포레스트 개념, 선언 (RandomForestRegressor())

✏️ Lv2 | 모델링 | 랜덤포레스트를 평가척도에 맞게 학습 (criterion='mse')


🔎 Lv2 | 튜닝 | 랜덤포레스트 변수중요도 확인 (feature_importances_)

Lv2 | 튜닝 | 변수 제거 (drop())

🚆 Lv2 | 튜닝 | 하이퍼파라미터, GridSearch 개념 (정지규칙)

Lv2 | 튜닝 | GridSearch 구현 (GridSearchCV())


📝 Lv2 | 복습



Lv3. 교차검증과 LGBM 모델을 활용한 와인 품질 분류하기


🔎 Lv3 | EDA | read_csv(), info(), shape, head()

🤔 Lv3 | EDA | 결측치 유무 확인하기 isnull().sum()

🗂 Lv3 | EDA | 수치데이터 특성 보기 (describe())

Lv3 | EDA | 타깃 변수 분포 시각화 seaborn distplot()

📈Lv3 | EDA | Matplotlib 선 그래프 그리기 (plot())

🔲 Lv3 | EDA | Matplotlib 히스토그램 그리기 (hist())



👍 Lv3 | 전처리 | 이상치 탐지 seaborn_boxplot()

🎁 Lv3 | 전처리 | 이상치 제거 IQR

💕Lv3 | 전처리 | 수치형 데이터 정규화 MinMaxScaler()

🌏Lv3 | 전처리 | 원-핫 인코딩 OneHotEncoder()


😎Lv3 | 모델링 | 모델 정의 RandomForestClassifier()

🐱‍🏍Lv3 | 모델링 | 모델 실습 RandomForestClassifier()

👏Lv3 | 모델링 | 교차 검증 정의 K-Fold

👍Lv3 | 모델링 | 교차검증 실습 K-Fold


🍦Lv3 | 튜닝 | Bayesian Optimization

🍧Lv3 | 튜닝 | 그리드, 랜덤 서치 vs Bayesian Optimization

🍨Lv3 | 튜닝 | Bayesian Optimization 실습


📝 Lv3 | 복습



Lv4. 교차검증과 모델 앙상블을 활용한 와인 품질 분류하기



🍦 Lv4 | EDA | 1/5 | seaborn pairplot

🍨 Lv4 | EDA | 2/5 | seaborn distplot

🍧 Lv4 | EDA | 3/5 | seaborn | heatamp

🥝Lv4 | EDA | 4/5 | 다중공선성 Scatter plot

🍎Lv4 | EDA | 5/5 | 다중공선성 VIF(분산 팽창 요인)

🥕Lv4 | EDA | 복습 🧓👴



🧸Lv4 | 전처리 | 1/9 | 다중공선성 해결 | 변수 정규화

🎨Lv4 | 전처리 | 2/9 | 다중공선성 해결 | 변수 제거

🧵Lv4 | 전처리 | 3/9 | 다중공선성 해결 - PCA (1)

🪀Lv4 | 전처리 | 4/9 | 다중공선성 해결 - PCA (2)

🥌Lv4 | 전처리 | 5/9 | 다중공선성 해결 - PCA (3)

🏐Lv4 | 전처리 | 6/9 | 연속형 변수 변환 (1)

🎣Lv4 | 전처리 | 7/9 | 연속형 변수 변환 (2)

🎢Lv4 | 전처리 | 8/9 | Polynomial Features (1)

🎪Lv4 | 전처리 | 9/9 | Polynomial Features (2)

🥕Lv4 | 전처리 | 복습 - (1) 🧓👴

🍇Lv4 | 전처리 | 복습 - (2) 👸🤴


🍖Lv4 | 모델링 | 1/8 | XGBoost 개념

🍗Lv4 | 모델링 | 2/8 | XGBoost 실습

🥩Lv4 | 모델링 | 3/8 | LightGBM 개념

🍤Lv4 | 모델링 | 4/8 | LightGBM 실습

🍩Lv4 | 모델링 | 5/8 | stratified k-fold 정의

🍪Lv4 | 모델링 | 6/8 | stratified k-fold 실습

🍘Lv4 | 모델링 | 7/8 | Voting Classifier 정의

🍙LV4 | 모델링 | 8/8 | Voting Classifier 실습

🥛LV4 | 모델링 | 복습 - (1)

🧴 Lv4 | 모델링 | 복습 - (2)


🛹Lv4 | 튜닝 | 1/6 | Bayesian Optimization 복습

🧷Lv4 | 튜닝 | 2/6 | Bayesian Optimization 실습

🚧Lv4 | 튜닝 | 3/6 | XGBoost 튜닝

🚀Lv4 | 튜닝 | 4/6 | Light GBM 튜닝

🚁Lv4 | 튜닝 | 5/6 | 모델 튜닝 / Voting Classifier(1)

🚲Lv4 | 튜닝 | 6/6 | 모델 튜닝 / Voting Classifier(2)


🌀Lv4 | 복습


🛫정형 데이터 분석 파이프라인 - (1)

🛬정형 데이터 분석 파이프라인 - (2)



Lv1. LGBM모델로 청와대 청원 데이터 분류하기


💫Lv1 | EDA | 1/12 | 파일 불러오기 - (nrows, n번째 행까지 불러오기)

🚗Lv1 | EDA | 2/12 | 파일 불러오기 - (header, 원하는 행을 컬럼으로 지정하여 불러오기)

🚓Lv1 | EDA | 3/12 | 파일 불러오기 - (index_col, 원하는 컬럼을 인덱스로 지정하여 불러오기)

🚕Lv1 | EDA | 4/12 | 파일 불러오기 - (na_filter, 결측치를 제외하고 불러오기)

🪂 Lv1 | EDA | 5/12 | 파일 불러오기 - (skipfooter, 뒤에서 n개 행 제외하고 불러오기)

🚍Lv1 | EDA | 6/12 | 파일 불러오기 - (encoding, 데이터의 인코딩 형식을 맞춰 불러오기)

🚆Lv1 | EDA | 7/12 | 파일 불러오기 - (names, 데이터를 불러올 때 컬럼명을 지정해서 불러오기)

🍈Lv1 | EDA | 8/12 | 파일 내보내기 - (index=False, 데이터를 저장할 때 index 제외하고 저장)

🍉Lv1 | EDA | 9/12 | 데이터 확인하기 - (head(),tail())

🍊Lv1 | EDA | 10/12 | 데이터 결측치 확인하기 - (isnull().sum())

🍋Lv1| EDA | 11/12 | unique value 값 개수 출력(value_counts()

🍌Lv1 | EDA | 12/12 | 데이터 기본 정보 보기(info())


🥧Lv1 | 전처리 | 1/14 | 텍스트 데이터 전처리 개요

🍦Lv1 | 전처리 | 2/14 | 텍스트 데이터 특정 텍스트 제거(replace())

🍧Lv1 | 전처리 | 3/14 | 텍스트 데이터 특정 텍스트 제거(isalpha())

🍨Lv1 | 전처리 | 4/14 | 텍스트 데이터 특정 텍스트 제거(isalnum())

🍩Lv1 | 전처리 | 5/14 | 텍스트 데이터 특정 텍스트 제거(isdecimal())

🍪Lv1 | 전처리 | 6/14 | 특정 텍스트 제거 - apply(),lambda()

🎂Lv1 | 전처리 | 7/14 | 형태소 분석기 - (1)

🧁Lv1 | 전처리 | 8/14 | 형태소 분석기 - (2)

🍫Lv1 | 전처리 | 9/14 | 형태소 분석기 - (3)

🍬Lv1 | 전처리 | 10/14 | Bag of Words

🍭Lv1 | 전처리 | 11/14 | CountVectorizer - (1)

🍡Lv1 | 전처리 | 12/14 | CountVectorizer - (2)

🍺Lv1 | 전처리 | 13/14 | TF-IDF(Term Frequency - Inverse Document Frequency) - (1)

🍻Lv1 | 전처리 | 14/14 | TF-IDF(Term Frequency - Inverse Document Frequency) - (2)


🌺Lv1 | 모델링 | 1/6 | train_test_split - (1)

🌻Lv1 | 모델링 | 2/6 | train_test_split - (2)

🌼Lv1 | 모델링 | 3/6 | train_test_split - (3)

🌷Lv1 | 모델링 | 4/6 | train_test_split - (4)

🥀Lv1 | 모델링 | 5/6 | train_test_split / LGBM - (1)

🌱Lv1 | 모델링 | 6/6 | train_test_split / LGBM - (2)


🌴Lv1 | 튜닝 | 1/2 | 파라미터 / 하이퍼 파라미터

🌾Lv1 | 튜닝 | 2/2 | 하이퍼 파라미터 튜닝 / gird search





#데이콘 #데이콘_101 #파이썬 #머신러닝 #딥러닝 #인공지능 #앙상블 #의사결정나무 #코랩 #데이터 #데이터분석 #판다스 #넘파이 #데이터사이언티스트 #AI #Python # Pandas #Numpy #lightgbm #read_csv #DACON #kaggle #sckit-learn

Main Event Schedule

  1. 01.18

    대회 시작
  2. 02.18

    Team Merger Deadline
  3. 02.18

    대회 종료