분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
문제 해결 중심 Anomaly Detection[Public :0.9354 /Private :0.91367]
제목에서 말씀드린것처럼, 이번 대회 데이터셋은 Score를 높게 받는 방향으로 학습되었습니다.
어떤식으로 Anomaly Detection 문제를 접근했는지 말씀드리고, Anomaly Detection 관련 공유하고 싶은 내용을 담아봤습니다.
[문제 접근 방식]
1. 통계 기반 모델 : Gaussian_base / PCA / LOF / ISF
2. AutoEncoder 기반 모델 : AE / VAE / DAGMM (Deep Autoencoder Gaussian Mixture Model)
3. Over-sampling & Classification : SMOTE + sklearn
3번 방식을 사용한게 성능이 가장 높게 나왔습니다.
(이 방식이 Test-set 성능은 좋을 수 있어도 일반화 측면에서 신뢰하기 어렵다고 생각합니다)
[Anomaly Detection 관련 정보]
아래 링크에서 대부분의 내용을 찾아보실 수 있습니다.(DAGMM모델 제외)
- https://www.kaggle.com/search?q=credit+fraud+in:notebooks
3번 Classfication을 제외한 대부분의 이상탐지 모델은 pyod라는 패키지를 참고했습니다.
- https://pyod.readthedocs.io/en/latest
통계 + Autoencoder 모델로 다양한 파라미터 튜닝이 용이한 DAGMM 모델
- https://bzong.github.io/doc/iclr18-dagmm.pdf
데이터셋마다 최적화 방법은 천차만별이라고 생각합니다.
이상탐지 모델에서 주로 사용되는 kdd-cup 등 데이터는 딥러닝 기반 이상탐지 모델에 좋은 성과가 보이지만,
이번 신용카드 사기거래 데이터에는 그렇지 않았습니다.
이번 대회를 통해 이상탐지 분야에 대해 의견을 나눌 수 있다는 점에 감사드리며 글을 마치겠습니다.
공지사항 다시 숙지하겠습니다~
의견 감사드립니다!
다양한 모델이 있어서 많은 도움되었습니다. 감사합니다.
AE,VAE가 모듈로 되어 있어 사용하기 편하네요. 감사합니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
안녕하세요.
pyod 패키지를 사용하면 다양한 AD 모델을 간편하게 실험 해 볼 수 있는 점이 좋은 것 같습니다~
다만, 결과 제출은 3번 (SMOTE + sklearn) 방법으로 validation 데이터셋을 학습한 모델을 이용한 것으로 보이는데,
Data leakage에 해당하지 않는지 문의드립니다.