신용카드 사기 거래 탐지 AI 경진대회 월간 데이콘

알고리즘 | 정형 | 분류 | 탐지 | Macro f1 score

  • moneyIcon 상금 : 100만 원 + ɑ
  • 2,126명 마감

 

private 32위, AutoEncoder, 데이터시각화 분석 전처리

2022.08.10 00:56 2,396 조회 language

해당 코드는 코드 공유에 올라온 1D AutoEncoder 모델을 그대로 사용하여 데이터 전처리만 달리한 코드입니다. validation dataset을 각 feature 별로 라벨 분류한 후 시각화하여 이상치와 정상수치가 구분이 되는 feature를 선택하는 방법을 사용했습니다. 이 방법을 사용한 이유는 이상 데이터와 정상 데이터를 구분할 수 없는 feature의 경우 AutoEncoder를 통하여 압축을 하여도 의미가 없다고 판단했습니다. 기존 모델에 간단한 데이터 분석을 곁들인 것에 불과하지만 때로는 간단한 방법이 좋은 경우도 있다고 생각합니다. 감사합니다.

코드
로그인이 필요합니다
0 / 1000
LeeSuHyun
2022.12.08 12:56

안녕하세요. 혹시 Feature 선정 기준이 어떻게 되는지 알 수 있을까요??

JSP_98
2023.01.10 19:47

정상 데이터와 비정상 데이터 간의 확률 분포를 히스토그램으로 나타냈는데, 

해당 코드의 경우에는 육안으로 분포가 많이 차이 나는 것을 선정하였습니다.

정밀하게 선정하려면 각 확률 분포를 수식적으로 비교해야합니다.

감사합니다.