악성 URL 분류 AI 경진대회

알고리즘 | 월간 데이콘 | NLP | 정형 | Feature Engineering | ROC-AUC

  • moneyIcon 상금 : 데이스쿨 프로 구독권
  • 680명 마감

 

[Private 3rd] 사전학습모델 앙상블

2025.04.04 03:08 621 조회 language

깃허브: https://github.com/castberry10/ds/tree/main/dacon/malicious-url-detection-ai
코드 : https://github.com/castberry10/ds/blob/main/dacon/malicious-url-detection-ai/badlink-ml.py

[환경] 
OS: Ubuntu 24.04.2 LTS
CPU:  AMD Ryzen 9 9950X 16-Core Processor
RAM: 64GB
GPU:  NVIDIA GeForce RTX 4080 SUPER 16GB

Python 버전: 3.12.3
CUDA 버전: 12.8

Python 패키지 버전
scikit-learn 1.5.2
pandas 2.2.3
numpy 1.26.4
autogluon 1.2

파생변수 만들고 부스팅 모델들 앙상블하는 쪽으로 접근하고 있었습니다.
그러던 중 파이썬초보만님이 공유해주신 코드의 성능이 매우 좋아, 해당 코드를 참고하여 사전학습 모델들을 활용하는 방향으로 전략을 바꿨습니다.

허깅페이스에 있는 다양한 사전학습 모델들을 조합해가며 실험해보았고, 기록은 남기지 못했지만 아래 세 가지 모델 조합이 가장 좋은 성능을 보였습니다
https://huggingface.co/r3ddkahili/final-complete-malicious-url-model
https://huggingface.co/elftsdmr/malware-url-detect
https://huggingface.co/kmack/malicious-url-detection
 
코드 실행이 매우 오래걸려서 (약 10~15시간) 더 많이 해보지못한게 아쉽습니다.

AutoGluon 처음 써보는데 신기하고 재밌네요. 

+
홍콩에 가게된다면 Baker by LUBUDS에서 꼭 에그타르트를 먹어보세요. 
정말 맛있습니다. 

PDF
코드