Iris 너비 예측 AI 해커톤

알고리즘 | 정형 | 회귀 | 과학 | MAE

Prize : 참가시 최소 50 XP, 특별상 데이콘 후드
541명 마감

Practice

Overview Data Code (share) Talk Leaderboard

Submission

[baseLine] 학습 데이터가 적을 땐, K-fold를 적용! [성능: 0.1774]

야옹아 멍멍해봐

2021.10.23 21:33 1,655 Views language

안녕하세요, 저같은 초보 유저에게 쉽게 접근할 수 있는 경진대회가 열린 것에 대해 무척 기쁘고 제가 학습한 내용을 다른 분들께 공유 드리고자 글을 남깁니다.
저의 경우 sklearn을 사용하였으며, 학습 데이터가 적을 때 활용되는 K-fold를 사용하였습니다.
sklearn을 통해서 초보자 분들이 쉽게 접근 하실 수 있다고 생각하며, 글 재주가 없지만 공유해 봅니다.

Code

Comments 6개

로그인이 필요합니다

comment

0 / 1000

안녕해요

2021.10.24 00:45

좋은 내용 공유 감사합니다. K-Fold를 사용했을 때가 전체 데이터를 학습에 사용했을 때 보다 혹시 성능이 얼마나 더 좋아졌는지 알려주실 수 있나요?
Iris 꽃받침 대회에서는 training 데이터 수가 75개 뿐이라 K-Fold를 할경우 모델에 60개의 데이터만 학습되어 오히려 성능이 떨어질 것 같아서 궁금합니다!

야옹아 멍멍해봐

2021.10.24 11:24

안녕하세요, 전체 데이터로는 실험을 아직 해보지는 않아서 결과값에 대해서는 실험을 통해 진행해봐야 알 수 있을것같습니다.
말씀해 주신 내용처럼 제가 작성한 내용에서는 전체 데이터로 여러개의 모델로 제일 작은 에러를 선택하는 방식과 동일하지 않나 생각이 듭니다.
저도 딥린이여서 자세히 답변을 드리지못하지만, 마지막 추가의 내용이 K-fold와 연관성이 있지 않을까 싶습니다

안녕해요

2021.10.24 13:34

답변 감사합니다 ㅎㅎ

entropii

2021.10.25 15:01

One-Hot Encoding을 적용해서 k-fold = 5 조건으로 해 보았더니 성능이 살짝 개선되네요 (0.1774 => 0.1736)
코드 공유 감사합니다^^

야옹아 멍멍해봐

2021.10.25 16:44

저의 댕댕한 글을 읽어봐 주셔서 정말 감사합니다.

Ye-Ji Kim

2021.10.29 17:15

안녕하세요. 덕분에 많이 배웠습니다!