커뮤니티 대회 교육

월간 데이콘 신용카드 사기 거래 탐지 AI 경진대회

알고리즘 | 정형 | 분류 | 탐지 | Macro f1 score

  • moneyIcon 상금 : 100만원 + ɑ
  • 1,611명 마감

 

문제 해결 중심 Anomaly Detection[Public :0.9354 /Private :0.91367]

2022.08.06 12:56 931 조회 language

제목에서 말씀드린것처럼, 이번 대회 데이터셋은 Score를 높게 받는 방향으로 학습되었습니다.
어떤식으로 Anomaly Detection 문제를 접근했는지 말씀드리고, Anomaly Detection 관련 공유하고 싶은 내용을 담아봤습니다.

[문제 접근 방식]
1. 통계 기반 모델 : Gaussian_base / PCA / LOF / ISF
2. AutoEncoder 기반 모델 : AE / VAE / DAGMM (Deep Autoencoder Gaussian Mixture Model)
3. Over-sampling & Classification : SMOTE +  sklearn

3번 방식을 사용한게 성능이 가장 높게 나왔습니다.
(이 방식이 Test-set 성능은 좋을 수 있어도 일반화 측면에서 신뢰하기 어렵다고 생각합니다)

[Anomaly Detection 관련 정보]
아래 링크에서 대부분의 내용을 찾아보실 수 있습니다.(DAGMM모델 제외)
https://www.kaggle.com/search?q=credit+fraud+in:notebooks

3번 Classfication을 제외한 대부분의 이상탐지 모델은 pyod라는 패키지를 참고했습니다.
-  https://pyod.readthedocs.io/en/latest

통계 + Autoencoder 모델로 다양한 파라미터 튜닝이 용이한 DAGMM 모델
https://bzong.github.io/doc/iclr18-dagmm.pdf
 
데이터셋마다 최적화 방법은 천차만별이라고 생각합니다.
이상탐지 모델에서 주로 사용되는 kdd-cup 등 데이터는 딥러닝 기반 이상탐지 모델에 좋은 성과가 보이지만,
이번 신용카드 사기거래 데이터에는 그렇지 않았습니다.

이번 대회를 통해 이상탐지 분야에 대해 의견을 나눌 수 있다는 점에 감사드리며 글을 마치겠습니다.

코드
datably
2022.08.07 15:09

안녕하세요.
pyod 패키지를 사용하면 다양한 AD 모델을 간편하게 실험 해 볼 수 있는 점이 좋은 것 같습니다~
다만, 결과 제출은  3번 (SMOTE +  sklearn) 방법으로 validation 데이터셋을 학습한 모델을 이용한 것으로 보이는데,
Data leakage에 해당하지 않는지 문의드립니다.

ppangppang
2022.08.08 10:36

공지사항 다시 숙지하겠습니다~
의견 감사드립니다!

자강사123
2022.08.11 00:49

다양한 모델이 있어서 많은 도움되었습니다. 감사합니다.

로그인이 필요합니다
0 / 1000