로그 분석을 통한 보안 위험도 예측 AI 경진대회

알고리즘 | NLP | 분류 | 제어 | Macro f1 score

  • moneyIcon Prize : 총 300만원
  • 739명 마감

 

[Private 16위 0.85958] | Saturday.K | baseline 변형

2021.05.20 17:52 4,420 Views language

Dacon에서 제공한 베이스라인에서 조금 변형해서 모델을 만들었습니다.

1. CountVectorizer 대신 TfidfVectorizer 사용

2. RandomForestClassifier 모델 3개 학습
   데이터 개수가 많은 Level 0과 Level 1은 두개 그룹으로 분류하는게 더 정확할거라 예상하여 총 3개의 모델을 생성함
 - 첫 번째 모델 : Level 0~6을 7 개 그룹으로 분류하여 학습
 - 두 번째 모델 : Level 0과 나머지를 2개 그룹으로 분류하여 학습
 - 셋 번쨰 모델 : Level 1과 나머지를 3개 그룹으로 분류하여 학습

3. Level 7 예측 방법
 - 첫 번째 모델을 이용해 분류 후 예측확률이 Threshold를 넘지 않으면 Level 7으로 분류
 - 첫번쨰 모델에서 Level 7로 분류된 데이터 중 두 번째 모델로 Threshold 이상 Level 0로 예측되는 데이터는 다시 Level 0으로 분류
 - 첫번쨰 모델에서 Level 7로 분류된 데이터 중 세 번째 모델로 Threshold 이상 Level 1로 예측되는 데이터는 다시 Level 1로 분류

ps. Threshold 결정은 특별한 방법 없이 public 점수를 확인하면서 조정했습니다. 
        LGBM, XGB, ExtraTree Classifier 등을 시험해보았지만 첫 번째 분류는 대부분 준수하게 할 수 있지만 Level 7을 예측해낼
        좋은 방법을 찾지 못해 결국 최종적으로 베이스라인과 같은 방법을 사용했습니다. 상위권 입상자 분들의 코드를 보고 많이 배우겠습니다. 모두 수고하셨습니다~

Code
로그인이 필요합니다
0 / 1000
도비콘
2021.05.20 18:06

수고하셨습니다~  Saturday.K님

Saturday.K
2021.05.20 18:40

감사합니다^^