Private Score와 2차 평가 전략

건설기계 오일 상태 분류 AI 경진대회

Statistics

2022.11.22 21:54 1,768 조회

지금 리더보드의 점수는 test 데이터의 30%로 계산되고 있고, 실제 평가는 나머지 70%로만 이뤄집니다.

6000개 중에 30%면 1800개, 그중에 8.5%인 150개 정도가 '1'일텐데요, 한두개 더 맞히고 덜 맞히는 차이가 큰 것 같습니다.

여러가지 방법으로 시도하고 있는데 0.58x정도의 값이 대부분이고 0.59를 넘기가 쉽지 않습니다. Private 스코어도 어느 정도 변동이 있을 것 같네요.

결국 10등안에 들어야 2차 평가 대상자가 될 수 있기 때문에 어느 정도 높은 점수를 얼마나 안정적으로 만들어 낼 수 있는가가 관건이네요.

그런데 2차 평가로 가면, Private 리더보드 점수는 30점밖에 안됩니다.

이전 대회에서 Private 스코어 8등에서 최종 평가 1등을 해본 경험상 Private 리더보드 점수는 등수보다는 점수자체를 활용하는 것 같고, 2차 평가 대상자 안에서는 사실상 변별력이 없을 수 있습니다. 그럼 결국 "Feature 상관관계 분석", "지식전이 학습 전략", "Validation 구축 전략"에 따라서 순위가 결정됩니다.

여러 공모전에서 발표자료를 보면 평가항목에 대해서 단순히 정보만 나열하는 경우가 많습니다.

예를 들어 "지식전이 학습전략"에 "Teacher: k-fold lightgbm ensemble, Student: lightgbm/xgboost stacking"과 같이 단순히 방법론 자체만 넣는 경우가 있는데요, 왜 그런 전략을 활용한 것인지 설명도 함께 들어가는 것이 좋습니다. 식상한 표현이지만 'How'와 함께 'Why'도 녹여내야하는 것이죠.

왜 k-fold를 썼는지, 왜 lightgbm을 썼는지, 왜 ensemble을 썼는지, 왜 student에서는 xgboost도 썼는지 설명할 수 있어야 합니다.

물론 가장 뻔하고 확실한 답은 '성능'인데요, 성능만이 목적은 아닙니다. 목적에 맞게 적절한 방법론을 활용해야하고 그 과정이 합리적인가가 평가 내용이 될 테니까요.

아직 3주나 남았는데요, 저는 이틀 정도만 더 하면 할만한 것은 다 해볼 것 같네요.

한 번 더 고민해보고 조금 더 나은 결과를 얻기를 기원합니다!