[스터디] 정규반 1기

데이스쿨 | 스터디 | 베이스라인 | 우승자코드

  • moneyIcon 상금 : 수료증
  • 69명 마감

 

D팀 step1 분석

공동작성자

stroke
2023.10.02 08:21 421 조회 language

랜덤 포레스트

1. 앙상블 기법
- 모델의 성능 개선을 목적으로 다양한 알고리즘을 이용한 다수의 모델을 통합하는 방법
- 전체 데이터에서 변수나 데이터를 샘플링하여 만든 훈련용 데이터를 이용하여 다수의 모델을 만들고 결합

- 독립적으로 다수의 모델을 생성하고 결합하여 예측값 평균을 산출하는 방법 --> 랜덤포레스트 기법
- 순차적으로 이전 모델의 파라미터를 조정해서 오차를 지속적으로 줄이는 모델링 방법 --> 그래디언트 부스팅 기법

장점 
- 전체 분산을 감소시킴으로써 오차를 줄이는 경향성을 보임
- 일반적으로 과대적합을 줄이는 경향성을 보임

단점
- 직관적이지 않고 해석의 어려움

2. 랜덤 포레스트
1) 정의 
- 독립적으로 다수의 결정 트리를 생성하고 그 결과를 결합한 최종 모델을 생성함으로써 성능을 높이고 과대적합을 방지하여 안정적인 모델을 생성하는 앙상블 방법

2) 내용
- 일반적으로 설명변수 및 표본을 무작위로 추출(bagging 방식)
- 생성된 다수 모델의 예측값을 평균하여 최종 예측값 산출
- 과대 적합 위험이 있는 하나의 결정 트리보다 안정적이고 예측 성능이 좋음

3) 장점
- 파라미터 조정이 쉽다. 
- 데이터 Scale 변환이 불필요
- 일반화 및 성능이 좋은 모델

4) 하이퍼 파라미터
- 트리 개수
- 최대 깊이
- 최소 자료 수

5) GridSearchCV 구동 결과
- 파라미터를 너무 많이 설정하여 시간이 오래 걸려 실패
- 최적의 파라미터는 무엇일까?

6) 데이터
3. 데이터 정리
- Train Data : 2022.6.01 ~ 2022.8.24
- Test Data : 2022.8.25 ~ 2022.8.31
--> 30 + 31 + 24 = 85일 간의 데이터
--> 1주일 간 데이터를 예측해봐라~!

코드