농업 환경 변화에 따른 작물 병해 진단 AI 경진대회

알고리즘 | CV | 분류 | 농작물 | Macro f1 score

  • moneyIcon 상금 : 총 1,000만원
  • 1,892명 마감

 

3중대 3소대장, Private 3위 (0.95381)

2022.02.07 22:40 2,469 조회 language

-

코드
로그인이 필요합니다
0 / 1000
딱따구리부리박기
2022.02.08 00:56

혹시 
"왜냐하면 Validation Set에서는 성능 향상이 뚜렷하진 않지만, 훨씬 개수가 많은 Test Data에서는 긍정적 작용을 할 수도 있고,
그렇기에 Test Data에 Generalization하는데에 도움이 될 수 있을거라 생각했기 때문입니다."
라고 말씀하셨는데, 이거는 경험적인 insight인가요? 아니면 뭔가 이런걸 말했던 논문같은게 있나요?
저는 Dataset Distribution이 개박살난 dataset이라고 생각해서 성능 향상이 없던 augmentation을 빼는 방향으로 진행을 했었는데, 잘못된 insight인지 궁금합니다!

3중대 3소대장
2022.02.08 01:57

네 논문보다는 경험적인 견해 입니다.

제 경험상 성능 향상이 없던 Augmentation을 굳이 뺄 필요가 없더라구요.
(물론 터무니 없는 Augmentation이 아니라, Data에 적절한 Augmentation이다는 전제조건하.)

왜냐하면
1. 성능향상이 없긴 하지만, 추가해준다고 해서 성능이 떨어지진 않음 (단, 과도한 Augmentation인 경우는 성능이 떨어짐)
2. 그 Augmentation이 적용된 이미지가 우리에게 주어진 Data Distribution에는 없을지라도, 그 외 추가적인 실제 Data(Test Data)의 Distribution에서는 있을 수 있음.

위 두 가지 이유에서 저는 제외시키지 않았습니다.

제 개인적인 경험을 말씀드리자면,
저는 의료(병리 진단) 데이터(Whole Slide Image)로 여러가지 딥러닝 알고리즘을 적용을 해왓는데,
과거에 분류모델을 만들면서 Val Data에서 검증된 Augmentation보다 더 강하게 Augmentation 해줬던 실험 경험이 있습니다.
왜냐하면 제게 주어진 Data는 Color가 보라색, 분홍색 빛 이지만
실제 세계의 방대한 Data에는 빨간색도 있고 갈색도 있고, 어두운 색도 있고 등등.., 다양한 색상과 밝기를 갖는 Data가 있었기 때문입니다.
이렇게 방대한 Test Data의 distribution을 다 포괄하기 위해서는 ColorJitter 측면에서 조금 더 강하게 해줬어야 했습니다.
물론 Val Data에서 성능이 떨어지지 않는 정도까지만요.

당연히 제 논리가, 제 실험이 틀렸을수도 있으며 위는 한 가지 사례에 불과합니다.
Machine Learning이라는게 Data마다의 편차도 크다는 점이 있다고 생각하니
그 점 고려해주시면 감사하겠습니다!

딱따구리부리박기
2022.02.14 19:55

답글 감사합니다! 
역시 다 이유가 있으신 선택이셨네요...! 많이 배웠습니다!

3중대 3소대장
2022.02.08 01:44

삭제된 댓글입니다

2022.02.08 14:33

좋은 내용 공유 감사드립니다!  혹시 Ensemble을 하실때는 각 모델이 출력한 class별 proba 값을 토대로 class 별 7개의 proba값의 평균을 낸 뒤
가장 높은 것으로 classification 하는 방법을 택하신건가요? 감사합니다!