분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
[Private 3rd] 사전학습모델 앙상블
깃허브: https://github.com/castberry10/ds/tree/main/dacon/malicious-url-detection-ai
코드 : https://github.com/castberry10/ds/blob/main/dacon/malicious-url-detection-ai/badlink-ml.py
[환경]
OS: Ubuntu 24.04.2 LTS
CPU: AMD Ryzen 9 9950X 16-Core Processor
RAM: 64GB
GPU: NVIDIA GeForce RTX 4080 SUPER 16GB
Python 버전: 3.12.3
CUDA 버전: 12.8
Python 패키지 버전
scikit-learn 1.5.2
pandas 2.2.3
numpy 1.26.4
autogluon 1.2
파생변수 만들고 부스팅 모델들 앙상블하는 쪽으로 접근하고 있었습니다.
그러던 중 파이썬초보만님이 공유해주신 코드의 성능이 매우 좋아, 해당 코드를 참고하여 사전학습 모델들을 활용하는 방향으로 전략을 바꿨습니다.
허깅페이스에 있는 다양한 사전학습 모델들을 조합해가며 실험해보았고, 기록은 남기지 못했지만 아래 세 가지 모델 조합이 가장 좋은 성능을 보였습니다
https://huggingface.co/r3ddkahili/final-complete-malicious-url-model
https://huggingface.co/elftsdmr/malware-url-detect
https://huggingface.co/kmack/malicious-url-detection
코드 실행이 매우 오래걸려서 (약 10~15시간) 더 많이 해보지못한게 아쉽습니다.
AutoGluon 처음 써보는데 신기하고 재밌네요.
+
홍콩에 가게된다면 Baker by LUBUDS에서 꼭 에그타르트를 먹어보세요.
정말 맛있습니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io |
전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved