분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
D팀 step1 분석
공동작성자
랜덤 포레스트
1. 앙상블 기법
- 모델의 성능 개선을 목적으로 다양한 알고리즘을 이용한 다수의 모델을 통합하는 방법
- 전체 데이터에서 변수나 데이터를 샘플링하여 만든 훈련용 데이터를 이용하여 다수의 모델을 만들고 결합
- 독립적으로 다수의 모델을 생성하고 결합하여 예측값 평균을 산출하는 방법 --> 랜덤포레스트 기법
- 순차적으로 이전 모델의 파라미터를 조정해서 오차를 지속적으로 줄이는 모델링 방법 --> 그래디언트 부스팅 기법
장점
- 전체 분산을 감소시킴으로써 오차를 줄이는 경향성을 보임
- 일반적으로 과대적합을 줄이는 경향성을 보임
단점
- 직관적이지 않고 해석의 어려움
2. 랜덤 포레스트
1) 정의
- 독립적으로 다수의 결정 트리를 생성하고 그 결과를 결합한 최종 모델을 생성함으로써 성능을 높이고 과대적합을 방지하여 안정적인 모델을 생성하는 앙상블 방법
2) 내용
- 일반적으로 설명변수 및 표본을 무작위로 추출(bagging 방식)
- 생성된 다수 모델의 예측값을 평균하여 최종 예측값 산출
- 과대 적합 위험이 있는 하나의 결정 트리보다 안정적이고 예측 성능이 좋음
3) 장점
- 파라미터 조정이 쉽다.
- 데이터 Scale 변환이 불필요
- 일반화 및 성능이 좋은 모델
4) 하이퍼 파라미터
- 트리 개수
- 최대 깊이
- 최소 자료 수
5) GridSearchCV 구동 결과
- 파라미터를 너무 많이 설정하여 시간이 오래 걸려 실패
- 최적의 파라미터는 무엇일까?
6) 데이터
3. 데이터 정리
- Train Data : 2022.6.01 ~ 2022.8.24
- Test Data : 2022.8.25 ~ 2022.8.31
--> 30 + 31 + 24 = 85일 간의 데이터
--> 1주일 간 데이터를 예측해봐라~!
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved