HAI(하이)! - Hecto AI Challenge : 2025 상반기 헥토 채용 AI 경진대회

채용 | 알고리즘 | 헥토 | 비전 | 분류

  • moneyIcon 상금 : 2,600만원
  • 1,414명 마감

 

다들 제공받은 기본 train 폴더를 사용 중이신가요?

2025.06.07 19:22 909 조회

저는 어느 정도 쓸데없는 1~ 2 천 장 정도를 걸러내고 사용 중인데, 혹시 걸러낸 파일을 사용 중이시라면 train 데이터셋은 몇 장 정도 되시나요?

로그인이 필요합니다
0 / 1000
NAJUNGHWAN
2025.06.07 19:58

저희 팀은 아직 초기 단계라 원본 그대로 사용하였습니다. 
다만 Manual하게 걸러낼 경우(천 장 정도면 꽤 공격적으로 필터링하고 계신 것으로 생각됩니다)
모델이 실제로는 잘 구분하는 샘플을 걸러낼 위험이 있으니 EDA 등 분석해 보시고 
Manual하게 거르는 건 가급적 보수적으로 접근하시는 걸 추천드립니다.

이를테면 "더_뉴_K3_2세대_2022_2024_0001.jpg" 등의 사진은 완전 노이즈에 해당하는 사진이라 걸러도 괜찮아 보이지만,
"6시리즈_GT_G32_2018_2020_0018.jpg" 등의 사진은 애매한 경계에 있는 crop된 사진이라 생각됩니다.

국어선생님
2025.06.07 21:27

다소 공격적으로 필터링하긴했습니다. 동일 코드로 폴더만 바꿔 돌렸을 때 점수 향상이 있어서 일단은 사용 중이긴 하나, 추가적인 분석을 해봐야할 것 같네요 답변 감사합니다!

과적합방지위원회
2025.06.07 21:52

공격적인 필터링 이후 점수 향상이 어느정도 이뤄졌는지 공유 가능할까요?

국어선생님
2025.06.08 01:53

극초반에 했던 시도라 애매하긴한데 제출 점수로 0.006 정도 logloss 감소했습니다

과적합방지위원회
2025.06.07 20:10

저희 팀도 초기 단계라 원본 그대로 사용한 상태입니다. 
하지만, 노이즈로 판단되는 사진들이 있어 해당 부분을 제거 중에 있고 도입 예정입니다.

하지만 1,000장정도 걸러지는 것은 상당히 많은 부분을 저도 공격적인 필터링이라고 생각합니다. 
저희는 정말 아예 이미지가 다르거나, 문제되는 사진이 아니라고 판단된다면 최대한 들고갈 예정입니다.

국어선생님
2025.06.07 21:27

좋은 정보 공유 감사합니다! 대부분 거의 그대로 들고 가시는군요 ㅠ 저희도 다시 고려해봐야겠습니다

LEXXSH
2025.06.07 20:34

저는 5장 정도를 제외하고 그대로 들고가고 있습니다.

국어선생님
2025.06.07 21:29

와 거의 원본 그대로군요 답변 감사합니다! 

zzuniie
2025.06.08 18:37

전 그냥 원본 그대로 사용했습니다. 내부든 외부든 결국 해당 차량이미지라고 인식하고 차량 간에도 내부가 다르기 때문에 그냥 아예 다 집어넣었습니다.

국어선생님
2025.06.09 20:25

그렇군요 답변 감사합니다!