분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
코드 공유 감사합니다.
TfidfVectorizer 와 CountVectorizer 하는 과정에서 test 데이터와 train데이터를 함께 사용하여 진행하는 것이 data leakage 문제가 있지 않을까 싶네요...
삭제된 댓글입니다
보니까 같은 코드를 참고하신분이 한 분 더 계시는데 그분도 ㅠㅠㅠㅠㅠ 아쉽네요...
data leakage 문제로 코드를 다시 올렸다고 하셨는데, data 이 코드의 점수는 어느정도인가요?
작성자님 블로그를 보니 data leakage 문제가 있었던 코드의 stacked 모델 validation loss는 약 0.228정도로 보입니다.
(https://tfrecord.tistory.com/17)
다시 올려주신 코드의 validation loss는 약 0.346정도로 보이는데, 해당 코드의 최종 점수도 궁금합니다.
ㅎㅎㅎ 블로그에 올린 코드는 보시면 아시겠지만 위 코드와 매우 다릅니다! 각각의 single 모델에서 최고의 성능을 내는 코드를 블로그에 올렸으며 최종적으로 앙상블 이후에 점수가 좋지 않아 채택되지 않았던 코드이지만 노력했던 것이 아쉬워 블로그에 노력의 증표로 남겨놨습니다. 특이한 점은 더 많은 앙상블을 통해 모델 validation loss를 0.15까지도 하락시켜 보았는데 그것이 리더보드 점수의 상승에 정비례하진 않더군요.
제 질문의 요점은 data leakage가 있는 모델과 그렇지 않은 모델이 성능이 얼마나 차이나는가 입니다.ㅎㅎ
제출 당시에 리더보드 성능에 아무 차이 없었으며, 모델 loss는 전후 모두가 nn 특성상 돌릴때마다 조금씩의 차이가 있으나 0.346대의 점수를 유지하였습니다. 다른 상위권 분들 코드 공유하신 것을 보시면 확인 가능하시겠지만 원래 모델 loss가 0.345 0.346대가 나오면 리더보드 점수가 0.14~0.15가 나오는 것을 확인하실 수 있습니다.
아 그런가요? 저는 빈도 기반의 토크나이저들의 경우 이 데이터셋에서는 test 데이터를 추가하는 것이 큰 영향을 미칠 것이라고 생각했는데, 잘못 생각했나봅니다.
test 데이터에만 존재하는 지명, 등장인물 들의 정보를 미리 학습할 수 있다고 생각했습니다 ㅎㅎ
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
윤기석님
다른 공모전과 병행 대단하시네요~
좋은 결과 있기를 바랍니다.