분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
코스포 x 데이콘 자동차 충돌 분석 AI경진대회 채용
[대회 질문] 잘못된 label 수정에 대한 data leakage 여부
토크에서 많은 분들이 weather에 대해 잘못된 label이 붙어있는 것 같다고 의견을 주셨는데요,
이 경우에 참가자가 train dataset의 weather 라벨을 수정하는 것이 data leakage인지 궁금합니다.
또, train dataset에 있는 0 class의 weather를 라벨링하는 것 또한 어떻게 판단되는지 궁금합니다!
test데이터가 아닌 train 데이터셋의 문제를 확인하고 고치는 부분은 정형 데이터에서 EDA를 해서 이상치를 쳐내는 것과 같은 맥락이 아닐까 생각도 드네요..
헛수고가 될까봐 논란이 될 만한 부분들은 구상만 하고 건들진 않고 있네요
여태까진 학습된 내용으로 빈 데이터를 pseudo labeling하는 것까지만 해봤네요!
pseudo labeling이 성능에 도움을 주진 못했습니다.
넵넵 맞습니다 EDA로 outlier 제거 하는 건 코드(rule-based)를 통한 행위니까 인정되는 것 같아요.
pseudo labeling도 학습시키는게 은근히 쉽지 않아서... ㅠㅠ 아무튼 파이팅입니다!
EDA와 threshold를 통한 룰베이스 라벨 재설정은 괜찮겠네요..!
이전 대회들에서도 멋진 결과물들 잘 봤습니다..! 화이팅입니다..!
아래 댓글 달아주신 분들 말씀 확인해보니 train dataset은 labeling 수정이 가능한 것 같네요! 처음 알았습니다.. ㅎㅎ 혼선을 드린 것 같네요 죄송합니다..ㅠ
train data를 다시 라벨링해서 사용하는 것은 문제가 없지 않나요?
https://dacon.io/en/forum/407120
예전 대회에서 이런 문답이 있었네요.
위에 miinngdok 님께서 언급해 주신 것처럼,
저도 train dataset에서 잘못 라벨링 된 데이터 수정(수기 수정 포함), 이상치 제거는 Cheating 아닌 것으로 알고 있습니다.
데이콘 규정은 모르겠지만 캐글에서 상위 커널을 보면 빈번하게 수기 수정 or 제거 하는 것을 볼 수 있거든요
다만 test 데이터의 예측값을 임의 수기 수정은 안되고, clipping과 같이 코드로 rule-base 수정은 가능한 것으로 알고 있습니다.
안녕하세요 데이콘입니다.
Train 데이터의 Label은 자유롭게 수정하여 진행하실 수 있습니다. 예를 들어, Train 데이터 중 노이즈라고 판단되는 샘플을 제거하거나, Label을 직접 수정하는 방법은 충분히 가능합니다. 단, Test 데이터 샘플의 예측 값은 절대로 수기로 기입될 수 없습니다.
감사합니다.
라벨을 직접 수정한다는 것이 글쓴이 질문처럼 임의로 라벨을 부여하는 것도 포함되는게 맞을까요?
Train 데이터셋 내에서는 모두 가능합니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
저는 손수 해당 데이터를 라벨링하는건 cheating으로 알고 있어요. 라벨링하고 싶으시다면, 코드(rule-based, modeling 등...)을 통해서 하셔야 인정되는 거로 알고 있습니다..