2022 AI 대학원 챌린지

LG | 채용 | B-cell | Epitope | Classification | macro-f1

  • moneyIcon 상금 : 총 2,500만원
  • 304명 마감

 

주최측이 이번 문제에 달리 대응할 것을 요청합니다

2022.07.27 11:16 1,399 조회

어제 Number of Tested, Number of Responses 제외라는 제목으로 주최측께서 글을 올려주셨는데요

(https://dacon.io/competitions/official/235932/talkboard/406562?page=1&dtype=recent)


저는 주최측의 대응에 조금 당황스럽습니다.


잘못되었다고 생각하는 것은 크게 두 가지입니다.

1. 써서는 안될 feature를 test셋에 포함시켜 올렸다는 것

2. 1에서 지적한 test셋 문제로 이 challenge의 완성도가 현저히 떨어지고 있음에도 방치하고 있는 것


1에서 지적한 문제가 애초에 일어나서는 안될 일이었으며,

그 문제가 없었다면 이 글을 쓸 필요마저 없었다는 것에는 참가자와 주최측 모두 동의할 것입니다.

하지만 데이터 검수라는 것도 사람이 하는 일이니 그런 일이 일어날 수는 있겠죠.


더 문제인 것은 2입니다.

이 challenge는 처음부터 리더보드의 등수와 연계해서 평가기준을 마련했고, 때문에 모두가 그 리더보드를 보면서 지금까지 대회를 진행해왔습니다

그러나 지금은 리더보드가 잘못된 정보를 포함하고 있고, 따라서 구성원에게 지속적으로 잘못된 신호를 보내왔다는 게 드러난 상황입니다.


그럼에도 주최측은

- 리더보드에서 잘못된 정보를 없애지도 않고 (심지어 문제의 feature를 쓴 팀이 리더보드에서 점수를 지워달라고 해도 응하지 않음)

- test셋을 제대로 만들어 재배포하는 것도 아니며

- 일정 조정 등 대회 진행 정책에 대한 참가자들의 문의를 전혀 반영하고 있지 않고

- 이 모든 결정의 근거를 '주최 측과 내부 논의한 결과'라고 말하지만, 구성원이 납득할 만한 아무런 구체적 근거와 이유를 대지 않고 있습니다

심지어 이 일련의 일들은 불과 마감 3일전에 일어났습니다.


주최측은 private score를 이용한 심사와 코드 검수를 통해서 이 문제를 해결할 수 있다고 생각하시는 것 같습니다.

그러나 public과 private set의 분포가 완전 다르지 않은 바에야, 현재 public에서 성능 90%가 넘는 모델들이 심사를 통과했을 것입니다. 리더보드가 구성원을 오도해왔다는 문제는 여전하구요

위에서 적은 것처럼 여태껏 대응해온 주최측이, 파일 수백개, 코드 수천줄을 일일이 보며 leakage를 검사한다? 잘 상상이 가지 않습니다.


이렇게 진행된 대회인데, 사람들이 대회의 결과에 납득할 수 있을까요?

혹은 앞으로 LG나 Dacon에서 진행하는 challenge에 신뢰를 가지고 참가할 수 있을까요?

이런 식으로 대응해서는 안된다고 생각합니다


저는 주최측과 참가자들 모두에게 시간을 더 주어,

주최측은 리더보드를 리셋하고 test셋을 다시 배포하며,

참가자들은 그에 맞게 코드를 변경하고 결과도 다시 제출해서 해결해야 할 문제라고 생각합니다.


그리고 주최측이 이런 방향으로 대회를 재진행해주시길 진심으로 바랍니다


답변 기다리겠습니다

감사합니다

로그인이 필요합니다
0 / 1000
KimHyukDong
2022.07.27 11:28

지당한 말씀입니다. 사실 대회를 공식적으로 취소하고 train data를 바꿔서 대회를 다시 여는 수준으로 해야죠.

DACONIO
2022.07.27 13:52

안녕하세요 mjgd님,
해당 내용에 대한 답변입니다.
1. 일정을 조정하지 않는 이유는, 대회 기간 동안 정상적인 방법으로 진행한 팀도 다수 존재하기 때문에 형평성을 위하여 일정을 조정하지 않기로 하였습니다.
2. Public Score는 2차 평가 대상자 선정과 대회 수상자 선정에 전혀 고려되지 않습니다.
3. Shortcut의 방법을 사용하여 높은 Public Score를 달성하고, 이를 Private 리더보드 평가 제출물(2개)로 선택하여 높은 Private Score를 얻었더라도,
코드 검증의 과정을 통하여 심사를 통과할 수 없습니다. (2차 평가 대상자로 선정될 수 없음)
4. Private 리더보드가 발표된 후, Private 상위 1위~20위까지 코드와 PPT 설명자료를 요청드릴 계획입니다.
이 과정에서 Shortcut의 사용여부와 기타 규칙 위반 사항 그리고 모델의 Private 성능 재현까지 모두 검증이 된 상위 10팀이 2차 평가(온라인 대면 평가) 대상자로 선정됩니다.
5. Shortcut의 방법을 사용한 팀으로부터 Public 리더보드 기록의 삭제 요청은 들어온 적이 없습니다. 또한 리더보드 기록 삭제는 규칙 위반 적발의 사례에만 적용되며 Private 평가도 받을 수 없습니다.
감사합니다.

mjgd
2022.07.27 14:39

1. 대회 기간 동안 정상적인 방법으로 진행한 다수의 팀이, 제대로 운영되지 않은 리더보드 탓에 그리고 막판 3일전에 중요한 변경사항을 공지한 탓에 영향을 받았기 때문에 형평성에 어긋났다는 말씀을 드리는 것입니다
2. 3. 4. leaked feature 문제에 대응하는 주최측의 방식을 지켜보는 참가자 입장으로서, 그런 과정이 엄밀히 이루어질 것 같지 않고 그렇기에 대회 결과를 신뢰할 수 없다는 뜻입니다.
5. 공지글에 달린 댓글의 맥락을 보시면 leakage를 활용한 방식으로 높은 성능을 얻은 팀이 삭제요청을 했다는 것으로 충분히 추측가능하다고 생각합니다. 또한 리더보드 기록 삭제는 규칙 위반 적발의 사례에만 적용된다고 하셨는데, 그럼 leaked feature를 사용한 게 규칙에 합치해서 기록을 유지한다는 말씀이신가요? 그렇다면 leaked feature사용은 규칙 위반도 아닌데 private 평가는 왜 해주지 않으시며 또한 제재를 가하시나요?