분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
코스포 x 데이콘 자동차 충돌 분석 AI경진대회 채용
Label 0 data의 weather labeling에 대하여
저는 지금까지 label 0 data를 labeling해서 학습시키고 있었는데요, 시간이 갈수록 test의 label 기준에 맞지 않는 방법으로 labeling 돼 있다는 생각이 드네요!
val loss, val f1, val acc 모두 더 나아졌음에도(validation set 여러 개로 실험) test f1 score가 많이 하락하네요
여러분들은 labeling을 하셨나요 아니면 그냥 있는 데이터만으로 학습하셨나요?
궁금합니다!
저도 같은 느낌을 받고 있습니다.. 나중에 이세의인공지능님 코드 꼭 한 번 보고싶네요
직접 봐도 비가오는건지, 눈이오는건지 헷갈리는 데이터도 많아서 포기했습니다..
저도 그렇네요... 맞게 학습을 하는건지 의문이 듭니다 ㅎㅎ
저도 Label 0 데이터를 모두 labeling해서 학습에 사용했는데 성능 향상에 큰 영향이 없었습니다...
training 영상들을 직접 보면서
1. crash와 non-crash 데이터 사이에 해상도 차이
2. 동영상 구석에 있는 글자들
등 crash, non-crash 데이터 차이로 인해 weather, timing을 학습하는데 Label 0 데이터를 사용하는 것이 별 효과가 없었던 것 같습니다.
오히려 crash 데이터들의 weather, timing을 직접 다시 labeling해 사용했을 때 score 향상이 가장 컸습니다!
저는 label 0 data를 labeling하면서 원래 데이터도 다시 labeling했는데 효과가 있는 모양이군요!
timing data는 그대로 두었는데 건드려볼걸 그랬네요..
좋은 답변 감사합니다!
저도 직접 라벨을 봤는데 눈이 길에 조금 온 영상도 어떤 라벨은 눈이라고 되어있고, 아닌것 도 있고 그래서 결국 포기했습니다... 갈수록 날씨를 맞추는 것보다 Test set의 라벨링 한 사람의 분포를 따라가는 느낌이 드네요.
저도 같은 느낌을 받았습니다.. 제대로 분류하는 게 중요하기보다 Test labeling 기준을 찾는 것이 중요하게 느껴졌어요
저는 그냥 있는 데이터만으로 학습을 진행했습니다. 그래서 그런지 혹은 제가 못해서 그런지 성능이 매우 낮습니다ㅜ
혹시 추가적인 라벨링없이 했을 경우에 성능이 몇까지 나왔는지 여쭤봐도 될까요?
라벨링 없이는 거의 안해봤고, 한 것들도 대부분 전처리 적용 전이라 정확하지 않은 것 같습니다 ㅜㅜ
weather val f1이 0.6 ~ 0.7 언저리였던 걸로 기억해요
저는 모두 라벨링한 후 애매한 데이터 200개 정도 삭제했더니 성능 향상이 있었습니다.
outlier 삭제도 성능 향상에 도움주나보네요!
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
저도 학습시키는 데이터 라벨 상태와 실제로 인간이 문제를 해결하고자 하는 방향(test데이터)이 일치하지 않는 것처럼 느껴져서 작업을 멈췄습니다..ㅎ 점수를 더 올리려면 다시 라벨링을 하면 되겠지만요..