농업 환경 변화에 따른 작물 병해 진단 AI 경진대회

알고리즘 | CV | 분류 | 농작물 | Macro f1 score

상금 : 총 1,000만원
1,892명 마감

연습

대회안내 데이터 코드 공유 토크 리더보드

제출

3중대 3소대장, Private 3위 (0.95381)

3중대 3소대장

2022.02.07 22:40 2,469 조회 language

코드

댓글 5개

로그인이 필요합니다

comment

0 / 1000

딱따구리부리박기

2022.02.08 00:56

혹시
"왜냐하면 Validation Set에서는 성능 향상이 뚜렷하진 않지만, 훨씬 개수가 많은 Test Data에서는 긍정적 작용을 할 수도 있고,
그렇기에 Test Data에 Generalization하는데에 도움이 될 수 있을거라 생각했기 때문입니다."
라고 말씀하셨는데, 이거는 경험적인 insight인가요? 아니면 뭔가 이런걸 말했던 논문같은게 있나요?
저는 Dataset Distribution이 개박살난 dataset이라고 생각해서 성능 향상이 없던 augmentation을 빼는 방향으로 진행을 했었는데, 잘못된 insight인지 궁금합니다!

3중대 3소대장

2022.02.08 01:57

네 논문보다는 경험적인 견해 입니다.

제 경험상 성능 향상이 없던 Augmentation을 굳이 뺄 필요가 없더라구요.
(물론 터무니 없는 Augmentation이 아니라, Data에 적절한 Augmentation이다는 전제조건하.)

왜냐하면
1. 성능향상이 없긴 하지만, 추가해준다고 해서 성능이 떨어지진 않음 (단, 과도한 Augmentation인 경우는 성능이 떨어짐)
2. 그 Augmentation이 적용된 이미지가 우리에게 주어진 Data Distribution에는 없을지라도, 그 외 추가적인 실제 Data(Test Data)의 Distribution에서는 있을 수 있음.

위 두 가지 이유에서 저는 제외시키지 않았습니다.

제 개인적인 경험을 말씀드리자면,
저는 의료(병리 진단) 데이터(Whole Slide Image)로 여러가지 딥러닝 알고리즘을 적용을 해왓는데,
과거에 분류모델을 만들면서 Val Data에서 검증된 Augmentation보다 더 강하게 Augmentation 해줬던 실험 경험이 있습니다.
왜냐하면 제게 주어진 Data는 Color가 보라색, 분홍색 빛 이지만
실제 세계의 방대한 Data에는 빨간색도 있고 갈색도 있고, 어두운 색도 있고 등등.., 다양한 색상과 밝기를 갖는 Data가 있었기 때문입니다.
이렇게 방대한 Test Data의 distribution을 다 포괄하기 위해서는 ColorJitter 측면에서 조금 더 강하게 해줬어야 했습니다.
물론 Val Data에서 성능이 떨어지지 않는 정도까지만요.

당연히 제 논리가, 제 실험이 틀렸을수도 있으며 위는 한 가지 사례에 불과합니다.
Machine Learning이라는게 Data마다의 편차도 크다는 점이 있다고 생각하니
그 점 고려해주시면 감사하겠습니다!