악성 URL 분류 AI 경진대회

알고리즘 | 월간 데이콘 | NLP | 정형 | Feature Engineering | ROC-AUC

  • moneyIcon 상금 : 데이스쿨 프로 구독권
  • 2025.02.03 ~ 2025.03.31 09:59 + Google Calendar
  • 689명 마감

 

[Private 24th] URL 탐지를 위한 BERT 기반 Pretrained 활용

2025.04.03 02:07 840 조회 language

기존 r3ddkahili/final-complete-malicious-url-model 을 활용하여 parameter 조정을 통해 손을 보고있다가,
autogloun을 공유해주신 덕분에 편하게 재현했던 것 같습니다.

feature 생성 -> r3ddkahili -> kmack/malicious-url-detection -> weight ensemble (for AUC)

feature 생성에는 'php' ,나 국가 이름, 안전과 관련된 키워드들이 악성 URL에 많이 분포해 있단 것을 초반에 EDA를 통해 확인했다가

변수를 만드는 것에 한계를 느껴 이미 만들어진 token이 많은 pretrained 를 이용해야겠다는 판단이 들었습니다.

코드 공유해주신 분들 정말 감사합니다. 

PDF
코드