KB금융 문자 분석 경진대회

알고리즘 | 텍스트 | 분류 | 금융 | AUC | KB금융

상금 2,000만 원
1,475명 마감

연습

대회안내 데이터 코드 공유 토크 리더보드

제출

[SOMJANG] 최종 순위 59위 코드

솜씨좋은장씨

2020.02.11 22:06 15,305 조회 language

Google Colab에서 TPU 가속기를 사용한 런타임 환경에서 실행했습니다.

정상문자와 스미싱 문자의 비율을 1 : 1로 맞추고 (자세한 방법은 코드를 참고해주세요!)

Okt 형태소 분석기로 토큰화
Keras Preprocessing 의 Tokenizer로 정수인코딩 후
padding_sequences로 모든 입력 데이터의 길이를 같은 길이로 맞추어 시켜주었습니다.

모델은
Embedding 레이어
LSTM 레이어 를 가지는 모델을 사용하여 이진 분류를 실시했습니다.

Okt 형태소 분석기를 사용하여 데이터 전처리 하는 과정이 조금 오래 걸렸습니다.

후기는 블로그에 작성 중이며 현재 시스템 오류로 삭제된 내용을 하나하나 복구 중입니다.

블로그 주소는 somjang.tistory.com입니다.

읽어주셔서 감사합니다.

코드

댓글 6개

로그인이 필요합니다

comment

0 / 1000

euphoria

2020.02.11 22:16

좋은 공유 감사합니다! :)

솜씨좋은장씨

2020.02.12 00:37

감사합니다! 최종순위 10위 부럽습니다. 수상은 아쉽지만 축하드립니다!

당쇠

2020.02.11 22:44

공유 감사합니다.

솜씨좋은장씨

2020.02.12 00:37

감사합니다!

Selfcontrol7

2020.07.13 19:06

Thank You sharing, really useful to apply for other text classification.
LGBMClassifier seems to perform better than deep learning models, interesting. 신기하다!