커뮤니티 대회 교육

월간 데이콘 신용카드 사기 거래 탐지 AI 경진대회

알고리즘 | 정형 | 분류 | 탐지 | Macro f1 score

  • moneyIcon 상금 : 100만원 + ɑ
  • 1,611명 마감

 

private 1위, pacmap, isolation forest, kernel pca 등등

2022.08.10 22:53 1,825 조회 language

1. PaCMAP(https://github.com/YingfanWang/PaCMAP)
PaCMAP은 t-sne, u-map, tri-map과 같이 "거리"를 유지하면서 차원 축소 방법론입니다. 처음에 PCA로 변환하여도 랜덤으로 움직이기 때문에 결과가 다를 수 있습니다.

2. 순서
우선 Baseline이나 기타 문의사항을 확인해보니 Validation Set의 통계정보를 이용해도 된다고 하였습니다.

1) 1차 예측
a) Validation Set의 통계정보를 이용하여 각 변수에 대해 1차 변수 선택
b) 각 변수에 대해 2차 변수 선택
- 두 가지 방법을 시행하여 각각 5개 변수를 뽑음
- 각 방법론에서 얻은 변수들의 합집합 7개를 뽑음
c) 뽑은 7개 변수를 가지고 pacmap + isolation forest로 예측

2) 2차 예측
a) 좀 더 높은 val score을 가지면서 변수를 좀 더 추가해보고자 해서 여러 방법(아래 설명 유)을 통해 변수들 뽑음
b) 조금 조심스럽게 접근하고자 하여 이번엔 각 방법론에서 얻은 변수들의 교집합을 1개를 뽑음
c) 지금까지 뽑은 8개 변수를 가지고 pacmap + isolation forest로 예측

3) 3차 예측 (i.e. 가짜 outlier 판별)
kernel pca + pacmap + 극단값 도출를 통해 가짜 outlier 판별하기 위해 특정 방법(아래 설명 유)을 통해 변수 도출하고 판별

기본적으로 Validation Set의 통계정보를 많이 이용했는데 문의사항이나 데이터 규칙에 이상이 없다고 판단하여 시행하였습니다.
pacmap이나 isolation forest 자체가 랜덤성이 강하다 보니 잘 안 나오실 수 있습니다.
투표 도입등 여러 가지 하였지만 쉽지 않았습니다. 그러한 와중에 최상의 결과를 제출하였습니다.

코드
DATA MONK
2022.08.10 23:33

축하 드립니다. https://dacon.io/forum/406710

자강사123
2022.08.11 00:44

감사합니다.

다냐니라
2022.08.11 00:01

박수...! 

자강사123
2022.08.11 00:44

수고하셨습니다.

Q Branch
2022.09.02 11:23

멋지십니다.
궁금한게 valid는 정상데이터만 있는건같은데
어떠한 기준으로 학습을 멈추셨는지 알수있을까요?

자강사123
2022.09.02 13:31

질문자님께서 말씀하신 valid가 train dataset을 말씀하시는 거죠?
또 질문자님께서 말씀하신 학습 과정이 pacmap + isolation forest 학습 과정이라고 말씀하신 것 같습니다.

pacmap + isolation forest 학습 과정은 일반적인 isolation forest 학습 과정과 같습니다.
(hyperparameter은 tree의 갯수, epoch 개수 등등이 있겠죠.)
변수 선택 + pacmap은 단지 변수 조정을 한 것입니다.

로그인이 필요합니다
0 / 1000