월간 데이콘 뉴스 토픽 분류 AI 경진대회

알고리즘 | NLP | 분류 | 자연어 | Accuracy

  • moneyIcon 상금 : 500,000 D-point
  • 1,795명 마감

 

양방향 LSTM

2021.07.07 09:47 5,776 조회 language

소설 작가 분류 대회에 코드 공유되어 있는 hyukstory님의 코드 공유를 따라해보았습니다.
좋은 코드를 공유해주신 hyukstory님에게 감사의 인사를 표합니다.


https://dacon.io/codeshare/2357?page=1&dtype=recent

코드
로그인이 필요합니다
0 / 1000
Q Branch
2021.07.30 23:20

교차검증을 자연어 처리 많이 배우고 갑니다.

김웅곤
2021.08.03 03:35

for i, (i_trn, i_val) in enumerate(cv.split(train_x, Y_train), 1):
    print(f'training model for CV #{i}')

    model3.fit(train_x[i_trn], 
            to_categorical(Y_train[i_trn]),
            validation_data=(train_x[i_val], to_categorical(Y_train[i_val])),
            epochs=10,
            batch_size=512)

fold 마다 모델을 초기화하셔야 할 듯 합니다.
이미 model3이  valid 데이터 셋을 외우게 되어서 data-leak이 생길 듯 합니다.
다음 fold로 갈수록 epoch이 낮을 때 accuracy가 높아지네요.