도배 하자 유형 분류 AI 경진대회

알고리즘 | 비전 | 분류 | MLOps | Weighted F1 Score

  • moneyIcon Prize : 1,000 만원
  • 2,093명 마감

 

코드 공유드립니다.

2023.05.12 12:11 2,418 Views language

지금까지 작업한 내용 공유드립니다. 

데이터 유형들이 imbalanced 되어 있는 상황에 어떤 테크닉들이 있는지 살펴봤을 때 기본적으로 focal loss, weighted sampling, augmentation 이 있는 것 같아요

Augmentation는 rotation 과 vertical flip은 오히려 성능이 떨어지는 문제가 발생해서 제외하였습니다. 몇 몇 이미지는 증강 방법들에 특징들 때문에 오히려 학습을 방해하는 것 같군요. Weighted Sampling 같은 경우는 기본적으로 적은 데이터는 많이, 많은 데이터는 적게 추출되게 세팅하는 방식입니다. 이렇게 하면 모델이 레이블이 많은 데이터의 과적합을 막아주겠죠?

focal loss 같은 경우는 loss에서 정답과 가까울수록 학습 loss를 덜 주고 정답과 멀게 나올수록 더 많은 loss가 발생하게 유도하는 테크닉입니다. alpha 값은 positive 과 negative sample들을 구분지어 loss 를 틀리게 주게 됩니다.

(이렇게 돌려도 사실 리더보드 상에서는 결과가 그리 좋지는 않아요... )

Code