코스포 x 데이콘 자동차 충돌 분석 AI경진대회 채용

[대회 질문] 잘못된 label 수정에 대한 data leakage 여부

2023.02.12 00:43 1,786 Views

토크에서 많은 분들이 weather에 대해 잘못된 label이 붙어있는 것 같다고 의견을 주셨는데요,

이 경우에 참가자가 train dataset의 weather 라벨을 수정하는 것이 data leakage인지 궁금합니다.

또, train dataset에 있는 0 class의 weather를 라벨링하는 것 또한 어떻게 판단되는지 궁금합니다!

로그인이 필요합니다
0 / 1000
재애애영
2023.02.12 18:07

저는 손수 해당 데이터를 라벨링하는건 cheating으로 알고 있어요. 라벨링하고 싶으시다면, 코드(rule-based, modeling 등...)을 통해서 하셔야 인정되는 거로 알고 있습니다..

이세의인공지능
2023.04.23 14:54

test데이터가 아닌 train 데이터셋의 문제를 확인하고 고치는 부분은 정형 데이터에서 EDA를 해서 이상치를 쳐내는 것과 같은 맥락이 아닐까 생각도 드네요..
헛수고가 될까봐 논란이 될 만한 부분들은 구상만 하고 건들진 않고 있네요
여태까진 학습된 내용으로 빈 데이터를 pseudo labeling하는 것까지만 해봤네요!
pseudo labeling이 성능에 도움을 주진 못했습니다.

재애애영
2023.02.12 19:34

넵넵 맞습니다 EDA로 outlier 제거 하는 건 코드(rule-based)를 통한 행위니까 인정되는 것 같아요.
pseudo labeling도 학습시키는게 은근히 쉽지 않아서... ㅠㅠ 아무튼 파이팅입니다! 

이세의인공지능
2023.02.12 23:08

EDA와 threshold를 통한 룰베이스 라벨 재설정은 괜찮겠네요..!
이전 대회들에서도 멋진 결과물들 잘 봤습니다..! 화이팅입니다..!

재애애영
2023.02.13 04:55

아래 댓글 달아주신 분들 말씀 확인해보니 train dataset은 labeling 수정이 가능한 것 같네요! 처음 알았습니다.. ㅎㅎ  혼선을 드린 것 같네요 죄송합니다..ㅠ

miinngdok
2023.02.12 18:41

train data를 다시 라벨링해서 사용하는 것은 문제가 없지 않나요?

miinngdok
2023.02.12 19:48

https://dacon.io/en/forum/407120
예전 대회에서 이런 문답이 있었네요. 

베이스라인
2023.02.13 04:17

위에 miinngdok 님께서 언급해 주신 것처럼,
저도 train dataset에서 잘못 라벨링 된 데이터 수정(수기 수정 포함), 이상치 제거는 Cheating 아닌 것으로 알고 있습니다.
데이콘 규정은 모르겠지만 캐글에서 상위 커널을 보면 빈번하게 수기 수정 or 제거 하는 것을 볼 수 있거든요
다만 test 데이터의 예측값을 임의 수기 수정은 안되고, clipping과 같이  코드로 rule-base 수정은 가능한 것으로 알고 있습니다.

DACON.GM
2023.02.13 09:36

안녕하세요 데이콘입니다.
Train 데이터의 Label은 자유롭게 수정하여 진행하실 수 있습니다. 예를 들어, Train 데이터 중 노이즈라고 판단되는 샘플을 제거하거나, Label을 직접 수정하는 방법은 충분히 가능합니다. 단, Test 데이터 샘플의 예측 값은 절대로 수기로 기입될 수 없습니다.
감사합니다.

jsh0551
2023.02.13 12:17

라벨을 직접 수정한다는 것이 글쓴이 질문처럼 임의로 라벨을 부여하는 것도 포함되는게 맞을까요?

DACON.GM
2023.02.13 12:33

Train 데이터셋 내에서는 모두 가능합니다.