모델 튜닝 챌린지 : 월간 데이콘 파일럿

가끔은 대회를 하다보면 강심장 테스트를 하는 느낌이듭니다

2024.04.09 01:20 471 Views

자체 validation은 높아지는데(0.786->0.793->0.794) public은 저렇게 심각하게 낮아지면 저같은 경우엔 결국엔 public 따라서 모델링을 하게되더라고요

자체 validation이 잘못된 수도 있고, 아무래도 public 테스트셋과 private 테스트셋이 크게 다르지 않겠다는 생각에서요


저는 마감일전까지 20회를 제출했고 public 0.80862, private 0.83301로 마감을 했습니다.

rf_1부터 rf_5가 최초1회부터 5회까지 제출한 기록인데, 이미 rf_5가 저한텐 best private 스코어였습니다

하지만 public상으론, rf_3이 적절히 안정적이라 rf_3을 기준으로 세팅을 했으나, private 0.8548을 넘진 못했네요


모의투자대회에서 투자안하고 가만히 있는 사람이 상위권은 한다는데 지금이 그런 느낌일까요?


자체 validation도 좋아지면서 public도 좋아지면 매우 좋은데 그러지 않은 경우, 특히나 지금처럼 큰 public의 감소(또는 public의 미변동)를 보여주는 경우에

(이번뿐만아니라) 대회는 저한테 이렇게 묻는 것 같네요


"여러분은 과연 자체 validation을 믿을 수 있는 강심장인가요?"


---

거꾸로 생각해서, 그런 강심장 테스트가 정말로 필요한건지도 솔직히 의문이 듭니다

그런 강심장 테스트를 의도한 대회도 있고 아닌 대회도 있겠지만,

저같은 초보 참가자 입장에선 늘 혼란스럽습니다  


어느정도 그래도 자체 validation이랑 public이랑 비례하는 그런 대회가 더 있다면

더 모델링에 집중하고, 더 데이터 인사이트를 찾아내려고 할 수 있을탠데 말입니다


강인한 모델을 구축하고 싶지만, 하지만 이미 제 마음이 강인하지 않는 것 같네요

그럼에도 제가 앞으로 만날 대회는 이런 강심장 테스트보단

적절한 test 셋으로 채점되어서

모델 자체가 강인한지, 고도화가 되어있는지 진정으로 묻는 대회들을 더 만나길 바랍니다

---

Shake up이 안나게끔 모델링하는 게 좋은 모델이라하면...

도전적으로 생각할 때, 불필요한 shake up이 최소화 되는 대회도 마찬가지로 좋은 대회가 아닐까요?

---

이상 초보의 넋두리였습니다

로그인이 필요합니다
0 / 1000
NN_is_all_you_need
2024.04.09 09:36

경진대회가 아닌 실제에서는 사실 개발 과정에서 테스트데이터셋이 없죠 테스트데이터는 우리 모델이 배포되어 실제 사용자가 입력한 데이터가 될테니깐요
이 경우에는 학습 데이터 내에서 분할한 검증데이터와 검증성능으로만 모델 성능을 가늠할 수 밖에 없습니다
경진대회의 경우에는 저는 주로 캐글을 많이 해왔었는데
나의 자체 CV 성능과 LB 성능의 관계를 찾지못하는 경우에는 어려운 상황은 맞습니다만은,, CV 성능을 믿는 쪽으로 많이 가긴합니다. 물론 사전에 나의 CV가 오염되었는지는 충분히 검증을 해야합니다

fvplfvociac
2024.04.09 14:58

좋은 의견 감사합니다. 어쩌면 대회측에서도 private score는 cv랑 비례하도록 설계한 걸 수도 있구요. 다른 경진대회 수상자분들 얘기를 들어보면 나름의 전략들이 있으셨던 것 같습니다.