2024 Samsung AI Challenge : Black-box Optimization

주요 예상 쟁점 및 방향

2024.08.05 00:30 2,478 Views

(대회 데이터 및 평가 기준 변경 전 작성된 글입니다.)




안녕하세요, 대회 참가 자격이 없는 지나가는 사람입니다.

조금 빠르게 살펴보고 몇 가지 내용을 공유합니다.


1. 제출 파일 양식과 Recall의 한계

저는 예측값을 기준으로 상위 33%는 1, 나머지는 0의 값을 갖는 y를 만들어서 제출했습니다.

그럼 test 데이터셋의 820개 행 중에서 271개가 1로 처리됩니다.

그런데, 일련의 작업과 처리를 통해 동점을 만들면 합법적(?)으로 272개 이상의 1의 값을 갖는 제출 파일을 만들 수 있습니다.

Recall의 특성상 더 많은 행을 1로 예측할 수록 성능은 좋아질 수 밖에 없습니다.

극단적으로 모든 예측값을 1로 처리하면 Recall은 무조건 1이니까요.


현재 채점 방식이 어떤지는 모르겠지만,  

0/1이 아닌 값이 서로 다른 스코어 형태로 제출하는 것으로 하거나 271개만 1로 지정하도록 하거나, 동점의 경우 1에 포함시키지 않는 등의 추가 조건이 필요해 보입니다.



2. 한 끗 차이

test 데이터 820개 중 상위 25%는 105개입니다.

그 중 50%가 Public score에 사용되고, 실제 평가는 전체 100%를 활용합니다.

현재 리더보드의 recall 스코어를 보면, public score에 활용되는 420개 중 상위 25%에 해당하는 "1"의 개수는 103개로 보입니다.

완전 랜덤은 아니고 105의 절반이 나올 수 있도록 샘플링되어 있는 것 같네요.


Recall의 계산 방법이 단순하기 때문에 정답을 유추하기가 쉽습니다.

예를 들어, 제 스코어 0.88349는 91/103입니다. 12개를 놓친 건데요.

제가 참가 자격이 있다면, 남은 40일 동안 12개를 어떻게 해서든 찾아낼 수 있을 것 같습니다.

아마도 대회가 끝날 때 쯤에는 1이나 0.99029(102/103), 0.98058(101/103)과 같은 스코어가 많아질 것이고,

큰 이변이 없다면 최종 스코어에서도 큰 차이가 없을 가능성이 큽니다.



3. 다양한 시도와 포장

위의 상황과 같은 이유로 대규모 동점 사태가 벌어질 수도 있을 것 같습니다.

그럼 10점이 걸려있는 창의성에서 순위가 가려질 것이구요.

그런데, 이 "창의성"이라는 부분은 주관적일 수 있고, 실제로는 "창의성+합리성"에 대한 평가라는 것을 잘 생각해야 합니다.

이 과정에서 ppt라도 더 이쁘게 만드는 것이 중요할테니, 되도록 다양한 성향의 사람들과 팀을 이루는 것이 좋겠네요.


그럼 저는 가던 길 계속 가볼게요:)

Login Required
0 / 1000
MyDreamIs
2024.08.05 03:19

현실적으로 y값이 같을 수도 있으니, 상위데이터 N개만 1/0처리하는 게 좋아보이네요. 감사합니다

WalterKohn
2024.08.06 13:21

이미 1점인 분이 2명이나..