sklearn으로 교차검증 마스터하기🔥(1) -KFold, Stratified KFold

2022.02.17 19:44 18,648 Views language

안녕하세요! sssssun 입니당 :)!
이번주도 계속해서 sklearn을 통한 머신러닝을 배워보고 있는데요!
이번 포스팅은 sklearn을 활용한 다양한 교차 검증법 1편입니다. 
교차검증의 A to Z 부터 다뤄볼 것이라 입문자분들도 쉽게 이해하실 수 있을 겁니다!ㅎㅎ

본 포스팅은 데이콘 서포터즈 “데이크루" 1기 활동의 일환입니다.

Code
Login Required
0 / 1000
jihyeheo
2022.02.18 02:34

확실히 그냥 k-fold와 계층별 k-fold의 결과 차이가 많이 나네요. 일반 k-fold 같은 경우 shuffle을 그냥 두면 iris 데이터에서 마지막 정확도가 0.7x대로 많이 무너지는데 평균을 내는 결과를 선택하는 바람에 결과값이 많이 올라가는 모습이 보이네요!! 두 가지 방법을 비교하면서 계층별 k-fold가 요 데이터에서는 좋은 방법임을 확인하는 과정을 흥미롭게 잘 보았습니다! 실제 데이터에서 k-fold를 적용할 때 잘 안됐었는데 sssssun님의 코드를 보면서 다시 시도해보아야겠어요! 좋은 포스팅 감사합니다 :) 

sssssun
2022.02.19 03:45

맞아요, 폴드 세트의 레이블 분포에 따라 정확도가 많이 흔들리더라구요..! 꼼꼼하게 너무 잘 읽어주신 것 같아 정말 감사한 마음이 드네요..ㅠㅠ! 다른 교차검증법들도 많은 것 같아서 다음포스팅에서 다뤄볼 예정이에요:) 읽어주시고 댓글 달아주셔서 넘 감사합니다^_^!!

readData
2025.02.27 17:31

split 함수를 활용하면 데이터를 n_splits 등분하고 1개마다 인덱스번호값을 붙여준다는 건가요?!?