분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
다들 제공받은 기본 train 폴더를 사용 중이신가요?
저는 어느 정도 쓸데없는 1~ 2 천 장 정도를 걸러내고 사용 중인데, 혹시 걸러낸 파일을 사용 중이시라면 train 데이터셋은 몇 장 정도 되시나요?
다소 공격적으로 필터링하긴했습니다. 동일 코드로 폴더만 바꿔 돌렸을 때 점수 향상이 있어서 일단은 사용 중이긴 하나, 추가적인 분석을 해봐야할 것 같네요 답변 감사합니다!
공격적인 필터링 이후 점수 향상이 어느정도 이뤄졌는지 공유 가능할까요?
극초반에 했던 시도라 애매하긴한데 제출 점수로 0.006 정도 logloss 감소했습니다
저희 팀도 초기 단계라 원본 그대로 사용한 상태입니다.
하지만, 노이즈로 판단되는 사진들이 있어 해당 부분을 제거 중에 있고 도입 예정입니다.
하지만 1,000장정도 걸러지는 것은 상당히 많은 부분을 저도 공격적인 필터링이라고 생각합니다.
저희는 정말 아예 이미지가 다르거나, 문제되는 사진이 아니라고 판단된다면 최대한 들고갈 예정입니다.
좋은 정보 공유 감사합니다! 대부분 거의 그대로 들고 가시는군요 ㅠ 저희도 다시 고려해봐야겠습니다
저는 5장 정도를 제외하고 그대로 들고가고 있습니다.
와 거의 원본 그대로군요 답변 감사합니다!
전 그냥 원본 그대로 사용했습니다. 내부든 외부든 결국 해당 차량이미지라고 인식하고 차량 간에도 내부가 다르기 때문에 그냥 아예 다 집어넣었습니다.
그렇군요 답변 감사합니다!
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io |
전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
저희 팀은 아직 초기 단계라 원본 그대로 사용하였습니다.
다만 Manual하게 걸러낼 경우(천 장 정도면 꽤 공격적으로 필터링하고 계신 것으로 생각됩니다)
모델이 실제로는 잘 구분하는 샘플을 걸러낼 위험이 있으니 EDA 등 분석해 보시고
Manual하게 거르는 건 가급적 보수적으로 접근하시는 걸 추천드립니다.
이를테면 "더_뉴_K3_2세대_2022_2024_0001.jpg" 등의 사진은 완전 노이즈에 해당하는 사진이라 걸러도 괜찮아 보이지만,
"6시리즈_GT_G32_2018_2020_0018.jpg" 등의 사진은 애매한 경계에 있는 crop된 사진이라 생각됩니다.