코스포 x 데이콘 자동차 충돌 분석 AI경진대회 채용

Label 0 data의 weather labeling에 대하여

2023.03.12 02:12 1,511 조회

저는 지금까지 label 0 data를 labeling해서 학습시키고 있었는데요, 시간이 갈수록 test의 label 기준에 맞지 않는 방법으로 labeling 돼 있다는 생각이 드네요!

val loss, val f1, val acc 모두 더 나아졌음에도(validation set 여러 개로 실험) test f1 score가 많이 하락하네요

여러분들은 labeling을 하셨나요 아니면 그냥 있는 데이터만으로 학습하셨나요?

궁금합니다!

로그인이 필요합니다
0 / 1000
이세의인공지능
2023.03.12 13:30

저도 학습시키는 데이터 라벨 상태와 실제로 인간이 문제를 해결하고자 하는 방향(test데이터)이 일치하지 않는 것처럼 느껴져서 작업을 멈췄습니다..ㅎ 점수를 더 올리려면 다시 라벨링을 하면 되겠지만요..

설빙더아이스
2023.03.13 00:59

저도 같은 느낌을 받고 있습니다.. 나중에 이세의인공지능님 코드 꼭 한 번 보고싶네요

욱근
2023.03.12 16:33

직접 봐도 비가오는건지, 눈이오는건지 헷갈리는 데이터도 많아서 포기했습니다..

설빙더아이스
2023.03.13 00:59

저도 그렇네요... 맞게 학습을 하는건지 의문이 듭니다 ㅎㅎ

안녕해요
2023.03.13 10:14

저도 Label 0 데이터를 모두 labeling해서 학습에 사용했는데 성능 향상에 큰 영향이 없었습니다...
training 영상들을 직접 보면서 
1. crash와 non-crash 데이터 사이에 해상도 차이
2. 동영상 구석에 있는 글자들
등 crash, non-crash 데이터 차이로 인해 weather, timing을 학습하는데 Label 0 데이터를 사용하는 것이 별 효과가 없었던 것 같습니다.
오히려 crash 데이터들의 weather, timing을 직접 다시 labeling해 사용했을 때 score 향상이 가장 컸습니다!

설빙더아이스
2023.03.13 10:19

저는 label 0 data를 labeling하면서 원래 데이터도 다시 labeling했는데 효과가 있는 모양이군요!
timing data는 그대로 두었는데 건드려볼걸 그랬네요..
좋은 답변 감사합니다!

중요한건꺾이지않는마음
2023.03.13 10:18

저도 직접 라벨을 봤는데 눈이 길에 조금 온 영상도 어떤 라벨은 눈이라고 되어있고, 아닌것 도 있고 그래서 결국 포기했습니다... 갈수록 날씨를 맞추는 것보다 Test set의 라벨링 한 사람의 분포를 따라가는 느낌이 드네요.

설빙더아이스
2023.03.13 10:20

저도 같은 느낌을 받았습니다.. 제대로 분류하는 게 중요하기보다 Test labeling 기준을 찾는 것이 중요하게 느껴졌어요

셀렌디스
2023.03.13 15:12

저는 그냥 있는 데이터만으로 학습을 진행했습니다. 그래서 그런지 혹은 제가 못해서 그런지 성능이 매우 낮습니다ㅜ

혹시 추가적인 라벨링없이 했을 경우에 성능이 몇까지 나왔는지 여쭤봐도 될까요?

설빙더아이스
2023.03.13 17:49

라벨링 없이는 거의 안해봤고, 한 것들도 대부분 전처리 적용 전이라 정확하지 않은 것 같습니다 ㅜㅜ 
weather val f1이 0.6 ~ 0.7 언저리였던 걸로 기억해요

jsh0551
2023.03.13 19:01

저는 모두 라벨링한 후 애매한 데이터 200개 정도 삭제했더니 성능 향상이 있었습니다. 

설빙더아이스
2023.03.14 06:36

outlier 삭제도 성능 향상에 도움주나보네요!