분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
[baseLine] 학습 데이터가 적을 땐, K-fold를 적용! [성능: 0.1774]
안녕하세요, 저같은 초보 유저에게 쉽게 접근할 수 있는 경진대회가 열린 것에 대해 무척 기쁘고 제가 학습한 내용을 다른 분들께 공유 드리고자 글을 남깁니다.
저의 경우 sklearn을 사용하였으며, 학습 데이터가 적을 때 활용되는 K-fold를 사용하였습니다.
sklearn을 통해서 초보자 분들이 쉽게 접근 하실 수 있다고 생각하며, 글 재주가 없지만 공유해 봅니다.
안녕하세요, 전체 데이터로는 실험을 아직 해보지는 않아서 결과값에 대해서는 실험을 통해 진행해봐야 알 수 있을것같습니다.
말씀해 주신 내용처럼 제가 작성한 내용에서는 전체 데이터로 여러개의 모델로 제일 작은 에러를 선택하는 방식과 동일하지 않나 생각이 듭니다.
저도 딥린이여서 자세히 답변을 드리지못하지만, 마지막 추가의 내용이 K-fold와 연관성이 있지 않을까 싶습니다
답변 감사합니다 ㅎㅎ
One-Hot Encoding을 적용해서 k-fold = 5 조건으로 해 보았더니 성능이 살짝 개선되네요 (0.1774 => 0.1736)
코드 공유 감사합니다^^
저의 댕댕한 글을 읽어봐 주셔서 정말 감사합니다.
안녕하세요. 덕분에 많이 배웠습니다!
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
좋은 내용 공유 감사합니다. K-Fold를 사용했을 때가 전체 데이터를 학습에 사용했을 때 보다 혹시 성능이 얼마나 더 좋아졌는지 알려주실 수 있나요?
Iris 꽃받침 대회에서는 training 데이터 수가 75개 뿐이라 K-Fold를 할경우 모델에 60개의 데이터만 학습되어 오히려 성능이 떨어질 것 같아서 궁금합니다!