분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
코드 공유드립니다.
지금까지 작업한 내용 공유드립니다.
데이터 유형들이 imbalanced 되어 있는 상황에 어떤 테크닉들이 있는지 살펴봤을 때 기본적으로 focal loss, weighted sampling, augmentation 이 있는 것 같아요
Augmentation는 rotation 과 vertical flip은 오히려 성능이 떨어지는 문제가 발생해서 제외하였습니다. 몇 몇 이미지는 증강 방법들에 특징들 때문에 오히려 학습을 방해하는 것 같군요. Weighted Sampling 같은 경우는 기본적으로 적은 데이터는 많이, 많은 데이터는 적게 추출되게 세팅하는 방식입니다. 이렇게 하면 모델이 레이블이 많은 데이터의 과적합을 막아주겠죠?
focal loss 같은 경우는 loss에서 정답과 가까울수록 학습 loss를 덜 주고 정답과 멀게 나올수록 더 많은 loss가 발생하게 유도하는 테크닉입니다. alpha 값은 positive 과 negative sample들을 구분지어 loss 를 틀리게 주게 됩니다.
(이렇게 돌려도 사실 리더보드 상에서는 결과가 그리 좋지는 않아요... )
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved