월간 데이콘 소설 작가 분류 AI 경진대회

알고리즘 | NLP | 분류 | 자연어 | LogLoss

  • moneyIcon Prize : 100만원+애플워치
  • 1,418명 마감

 

[Public 점수 :0.17616(private 기준 14위)] 코드 공유 합니다.

2020.12.07 02:43 5,825 Views language

사용한 모델은 AutoKeras의 TextClassifier 입니다.
다만, TextClassifier가 동작하면서 Pre-trained Model이 사용되었을 수 있습니다.
그렇기에 짧은 코드로도 꽤 준수한 성능(?)을 낼 수 있음을 공유하는 것과 AutoML을 소개하는 것에 좀 더 의의를 두고자 합니다.
코드는 모두 Google Colab 환경에서 구동하였습니다. 

Code
로그인이 필요합니다
0 / 1000
Toona
2020.12.10 10:16

안녕하세요 코드 잘 봤습니다. 정말 다양한 automl들이 상당한 성능을 내고 있네요.

공유해주신 코드 실행시켜보니, vanilla로 불리는 모델(무슨 모델인지는 정확히 모르겠습니다 ^^;), transformer 모델, bert 모델 세 모델을 학습한 후,
가장 validation 성능이 뛰어난 모델을 반환합니다.
그런데, bert 모델의 경우 사전 학습된 모델을 사용하고 있습니다.
(https://github.com/keras-team/autokeras/blob/0e24f14038fd49f655ff1249c5f84a9d01d66362/autokeras/keras_layers.py#L72)

사전학습된 모델 weight의 경로는 아래입니다.
(https://github.com/keras-team/autokeras/blob/0e24f14038fd49f655ff1249c5f84a9d01d66362/autokeras/constants.py)

transformer 모델도 vocab을 지정해줘야 하는데, 아마 사전에 구축된 vocab을 사용하지 않을까 생각해봅니다.
비록 사전학습된 모델을 사용하지만, 간단한 코드로도 상당한 성능을 내는 것 같습니다.

dddsaty
2020.12.10 14:06

서두에 언급한 것처럼 사용한 AutoML 라이브러리 특성상 Pre-trained가 사용되었을 수 있다고 생각했는데 현재 다시 한 번 돌리면서 Vanilla RNN -> Transformer -> Bert 순으로 동작하는 걸 확인했습니다. 링크로 달아주신 부분을 보면서 조금 더 명확해지는 것 같네요. 
+ Toona 님이 이번 대회에 공유하신 코드도 잘 보았습니다.
리뷰 감사합니다!

gunwoo1217
2021.01.25 15:30

한국어는 지원 안되나요??