분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
log-loss와 관련하여 궁금한 점이 있어서 질문 올려봅니다!
최근 데이터 분석쪽에 관심을 갖게 되어 신용분석 대회를 참여하게된 초보자 학생입니다.
제가 지금 겪고 있는 문제는 다음과 같습니다.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
k-fold를 통해 (혹은 알고리즘을 1회 돌렸을 때도 마찬가지로) 직접 계산해본 log-loss는 꽤나 낮게 나오는데, 막상 제출해보면 엄청 나이나게
loss 값이 높아집니다.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
혹시 이러한 이유는 무엇이고 어떤식으로 문제를 해결하려고 접근해봐야할까요??
과적합이 일어나서 그러는게 아닐까라는 생각도 하고 있으나 정확도가 0.7중반~0.8 초반대가 나오는거를 보면
과적합이 맞나 싶기도 하고... 관련 지식이 부족해서인지 문제 상황에 대해 어떻게 대처를 해야할지 모르겠네요...
혹시 비슷한 문제를 겪어본 선배님들이 계시다면 조언 부탁드립니다!
답변 감사해요! 한편으로, 이유에 대해 조금 더 생각해 본 거로는 validation set이 test set과 얼마나 유사한 특성을 가졌는가도 제가 검증했던 결과와 제출했던 결과의 차이를 가져온게 아닌가 싶네요. 여러모로 많이 배우고 고민해볼 수 있었던 대회였던 것 같습니다.
#데이콘 #평가산식 #log #loss에 #대해 #알아보자
[데이콘 평가산식] log loss에 대해 알아보자 | 원자력발전소 상태 판단 경진대회
https://dacon.io/forum/400275
위 링크를 따라가시면 영상으로 설명되어 있습니다.
화이팅 하세요~
감사합니다~!
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
저도 공부하고 있는 입장이라 정확히는 모르지만 log loss는 확률 값으로 계산이 되기 때문에 모델이 정답 label을 얼마 만큼의 확신을 갖고 예측하는지가 중요한 평가 지표라고 생각합니다. 따라서 정확도가 높아도 모델의 예측에 대한 확신이 낮으면 loss 값이 높아질 수 있습니다.
또한 말씀하신 것처럼 과적합 역시 한 가지 원인일 수 있습니다. 저는 0.8정도의 정확도도 충분히 과적합을 고려해 볼 수 있는 수준이라고 생각합니다. 과적합이 되면 모델은 잘못된 label에 높은 확률을 뱉을 수 있습니다. 제가 참가 했던 대회에서는 파생변수를 생성하기도 하고, train data에 변형(증강)을 주면서 과적합을 줄였던 기억이 있습니다.
비슷한 경험을 하면서 느꼈던 점을 말씀드리면 model의 무게를 조금 줄인다거나 train data를 적절히 가공했을 때 log loss가 줄었던 것 같습니다. 조금이나마 도움이 되셨으면 좋겠습니다*~*