악성 URL 분류 AI 경진대회

알고리즘 | 월간 데이콘 | NLP | 정형 | Feature Engineering | ROC-AUC

데이스쿨 프로 구독권
813명 마감

연습

대회안내 데이터 코드 공유 토크 리더보드

제출

[Private 24th] URL 탐지를 위한 BERT 기반 Pretrained 활용

코난2

2025.04.03 02:07 2,226 조회 language

기존 r3ddkahili/final-complete-malicious-url-model 을 활용하여 parameter 조정을 통해 손을 보고있다가,
autogloun을 공유해주신 덕분에 편하게 재현했던 것 같습니다.

feature 생성 -> r3ddkahili -> kmack/malicious-url-detection -> weight ensemble (for AUC)

feature 생성에는 'php' ,나 국가 이름, 안전과 관련된 키워드들이 악성 URL에 많이 분포해 있단 것을 초반에 EDA를 통해 확인했다가

변수를 만드는 것에 한계를 느껴 이미 만들어진 token이 많은 pretrained 를 이용해야겠다는 판단이 들었습니다.

코드 공유해주신 분들 정말 감사합니다.

PDF

코드