분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
전략과 Score 변동 기록
안녕하세요, 다시 딥러닝 공부하면서 이것저것 시도하고 있습니다.
초보자를 위해 전략에 따른 score 변동을 공유합니다.
(회전 등 기본적인 augmentation을 모두 적용했습니다.)
* 1~7. 정사각형으로 pad( 0으로 채움) 후 resize 적용(Xception의 경우 사이즈 299*299, 입력값 -1~1로 변환)
- 예) 100*200 -> 200*200 -> 299*299(확대), 300*400 -> 400*400 -> 299*299(축소)
- 예) (0, 0, 0) -> (-1, -1, -1), (255, 255, 255) -> (1, 1, 1)
--------------------------------------------------------
* 여기부터는 299*299로 pad( 127.5로 채움) 후 큰 이미지는 resize 적용
- 예) 100*200 -> 299*299(확대 없음), 300*400 -> 400*400 -> 299*299(축소)
- 예) (127.5, 127.5, 127.5) -> (0, 0, 0) ; 기존에 검은색((0,0,0))으로 채웠을 경우 padding한 면적이 영향을 미치는 것 같은 찝찝한 기분이 있었음
8. 0.7009 - Xception + f.t.
9. 0.7098 - 8 + Class weights
10. 0.7255 - 8 + 9 + 9(seed 변경) 앙상블
확실히 큰 모형이 더 나은 성능을 보이고
특히 "Etc" 등이 상대적으로 비중이 적은데 class weights를 적용하면 개선될 여지가 있습니다.
단순한 평균을 활용한 앙상블은 극적인 효과는 없는 것 같네요!
좋은 정보 감사합니다!
Etc를 제외하고 학습하면 해도 되려나요??
지표 F1-macro에서 Etc의 f1값도 1/7만큼 반영되어 중요하기 때문에 굳이 제외할 필요는 없습니다.
다만, 이미지 개수가 다른 클래스에 비해 적고, 이도저도 아닌 애매한 것들이 Etc에 몰려있어 트롤링을 하는 것 같습니다.
Etc를 제외하고 모형을 적합한다면 예측 확률에서 augmax를 기준으로 클래스를 예측하지 않고,
"예측 확률이 0.8 이상일 때 해당 클래스로 분류"와 같이 좀 더 빡빡한 룰을 설정하고, 이도저도 아닌 남은 것들을 Etc로 분류할 수도 있겠네요.
뭘 더해보려고 해도 시간도 부족한데, 너무 학습이 오래 걸리네요ㅠㅠ
순서대로 아래를 시도해보려고 합니다.
8. 더 다양한 증강(augmentation)
9. seed를 바꿔 train/validation 새로운 조합을 생성하고 복수 모형 앙상블
10. test 데이터에 일부 증강을 적용하고 앙상블
11. 9+10
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io |
전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
정말 다양하게 시도해주셨네요. 감사히 참고하겠습니다