월간 데이콘 소설 작가 분류 AI 경진대회

알고리즘 | NLP | 분류 | 자연어 | LogLoss

  • moneyIcon 상금 : 100만원+애플워치
  • 1,418명 마감

 

Private 4위, Public 점수 :0.14584 , 여러 모델 앙상블

2020.12.07 00:03 6,038 조회 language

data leakage 문제로 파일을 다시올립니다.

코드
로그인이 필요합니다
0 / 1000
당쇠
2020.12.07 07:55

윤기석님

다른 공모전과 병행 대단하시네요~

좋은 결과 있기를 바랍니다.

최정명
2020.12.07 16:50

코드 공유 감사합니다.
TfidfVectorizer 와 CountVectorizer 하는 과정에서 test 데이터와 train데이터를 함께 사용하여 진행하는 것이 data leakage 문제가 있지 않을까 싶네요...

윤기석
2020.12.08 00:02

삭제된 댓글입니다

최정명
2020.12.07 17:32

보니까 같은 코드를 참고하신분이 한 분 더 계시는데 그분도 ㅠㅠㅠㅠㅠ 아쉽네요...

Toona
2020.12.10 15:10

data leakage 문제로 코드를 다시 올렸다고 하셨는데, data 이 코드의 점수는 어느정도인가요?

작성자님 블로그를 보니 data leakage 문제가 있었던 코드의 stacked 모델 validation loss는 약 0.228정도로 보입니다.
(https://tfrecord.tistory.com/17)

다시 올려주신 코드의 validation loss는 약 0.346정도로 보이는데, 해당 코드의 최종 점수도 궁금합니다.

윤기석
2020.12.10 15:21

ㅎㅎㅎ 블로그에 올린 코드는 보시면 아시겠지만 위 코드와 매우 다릅니다! 각각의 single 모델에서 최고의 성능을 내는 코드를 블로그에 올렸으며 최종적으로 앙상블 이후에 점수가 좋지 않아 채택되지 않았던  코드이지만 노력했던 것이 아쉬워 블로그에 노력의 증표로 남겨놨습니다. 특이한 점은 더 많은 앙상블을 통해 모델 validation loss를 0.15까지도 하락시켜 보았는데 그것이 리더보드 점수의 상승에 정비례하진 않더군요.

Toona
2020.12.10 15:43

제 질문의 요점은 data leakage가 있는 모델과 그렇지 않은 모델이 성능이 얼마나 차이나는가 입니다.ㅎㅎ

윤기석
2020.12.10 15:53

제출 당시에 리더보드 성능에 아무 차이 없었으며, 모델 loss는 전후 모두가 nn 특성상 돌릴때마다 조금씩의 차이가 있으나 0.346대의 점수를 유지하였습니다. 다른 상위권 분들 코드 공유하신 것을 보시면 확인 가능하시겠지만 원래 모델 loss가 0.345 0.346대가 나오면 리더보드 점수가  0.14~0.15가 나오는 것을 확인하실 수 있습니다.

Toona
2020.12.10 23:44

아 그런가요? 저는 빈도 기반의 토크나이저들의 경우 이 데이터셋에서는 test 데이터를 추가하는 것이 큰 영향을 미칠 것이라고 생각했는데, 잘못 생각했나봅니다.
test 데이터에만 존재하는 지명, 등장인물 들의 정보를 미리 학습할 수 있다고 생각했습니다 ㅎㅎ