로그 분석을 통한 보안 위험도 예측 AI 경진대회

알고리즘 | NLP | 분류 | 제어 | Macro f1 score

Prize : 총 300만원
739명 마감

Practice

Overview Data Code (share) Talk Leaderboard

Submission

[Private 16위 0.85958] | Saturday.K | baseline 변형

Saturday.K

2021.05.20 17:52 4,420 Views language

Dacon에서 제공한 베이스라인에서 조금 변형해서 모델을 만들었습니다.

1. CountVectorizer 대신 TfidfVectorizer 사용

2. RandomForestClassifier 모델 3개 학습
   데이터 개수가 많은 Level 0과 Level 1은 두개 그룹으로 분류하는게 더 정확할거라 예상하여 총 3개의 모델을 생성함
- 첫 번째 모델 : Level 0~6을 7 개 그룹으로 분류하여 학습
- 두 번째 모델 : Level 0과 나머지를 2개 그룹으로 분류하여 학습
- 셋 번쨰 모델 : Level 1과 나머지를 3개 그룹으로 분류하여 학습

3. Level 7 예측 방법
- 첫 번째 모델을 이용해 분류 후 예측확률이 Threshold를 넘지 않으면 Level 7으로 분류
- 첫번쨰 모델에서 Level 7로 분류된 데이터 중 두 번째 모델로 Threshold 이상 Level 0로 예측되는 데이터는 다시 Level 0으로 분류
- 첫번쨰 모델에서 Level 7로 분류된 데이터 중 세 번째 모델로 Threshold 이상 Level 1로 예측되는 데이터는 다시 Level 1로 분류

ps. Threshold 결정은 특별한 방법 없이 public 점수를 확인하면서 조정했습니다.
        LGBM, XGB, ExtraTree Classifier 등을 시험해보았지만 첫 번째 분류는 대부분 준수하게 할 수 있지만 Level 7을 예측해낼
        좋은 방법을 찾지 못해 결국 최종적으로 베이스라인과 같은 방법을 사용했습니다. 상위권 입상자 분들의 코드를 보고 많이 배우겠습니다. 모두 수고하셨습니다~