분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
[Private 4위] siwooyong : CLIPSeg + EVA + ML-Decoder + COCO
재밌는 대회 진행해주신 데이콘, 포디랜드, AI Frenz께 깊은 감사의 말씀을 전합니다.
또한 긴 시간동안 대회에 참여하신 참가자분들도 정말 수고하셨습니다.
개발 환경
: colab pro+(Linux)
버전
: python==3.8.10
: albumentations==1.3.0
: numpy==1.21.6
: pandas==1.3.5
: cv2==4.1.2
: sklearn==1.0.2
: json==2.0.9
: torch==1.13.1+cu116
: timm==0.6.12
: transformers==4.26.0
코드
: preprocess, model1_training, model2_training, inference 순서로 run하시면 됩니다.
Private Score 복원이 가능한 코드 파일 : https://github.com/siwooyong/4DLand-AI-Challenge-for-block-multi-label-classification
Private Score 복원이 가능한 모델 weight 파일 : https://drive.google.com/drive/folders/1m2j5nY6LLN5HA_IdDB_LjfDOupD2J7bG?usp=sharing
사용한 외부 데이터 파일 및 출처 : http://images.cocodataset.org/zips/val2014.zip
서면 평가 PPT 자료 : https://drive.google.com/file/d/12o4oM4TGOLCZj0Km_SMMpan0u39b9VQz/view?usp=sharing
저도 경험상 한 원본 1번 사진을 학습해서 아주 작은 각도를 돌린 2번 사진을 예측하면 val score가 굉장히 높게 나왔던 것 같습니다. 그런 면에서 data split을 하나의 원본마다 묶음으로 처리를 해주던지, 셔플을 하지 않는 방식이 유리하다고 판단하신 걸로 이해했습니다... (맞을까요..?)
좋은 질문 감사합니다.
그렇습니다. 대회초반에 셔플을 하고 학습을 했을때 validation 스코어가 지속적으로 상승하는 모습을 보고 data leakge가 발생했다라는 것을 짐작을 했고, 데이터 분석 후에 이유를 파악하게 되었습니다. 해당대회는 train 데이터 overfitting시에 test 데이터에서의 악영향이 더 컸을것이기 때문에 데이터를 shuffle하지 않고 올바른 validation을 수행하는 것이 중요했습니다.
삭제된 댓글입니다
발표자료 감사합니다. 정말 많이 배워갑니다!
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
발표자료 잘 봤습니다. 많이 배워갑니다.
하나 질문드리고 싶습니다. ' 데이터를 shuffle한 후 train, val을 나누어 학습하면 data leakage' 라는 내용이 있는데,
조금의 각도변화는 거의 동일한 이미지라고 판단하셔서 leakage라고 보신건가요?