데이크루 4기

데이크루 | 서포터즈 | 4기

  • moneyIcon 상금 : 총 100만원
  • 204명 마감
마감

 

[나무 123그루 🌳] 신용카드 사기 거래 식별 PBL / Stage 6 : 모델링 성능 올리기

공동작성자

stroke
2023.02.21 15:15 1,094 조회 language

🙇‍♂️ 소개글 🙇‍♂️

안녕하세요. 데이크루 4기 나무 123그루 팀입니다. 

저희는 신용카드 💳 사기 거래 AI 경진대회를 주제로 PBL를 수행합니다.

이번 활동을 통해 논리적인 접근 방식으로 모든 문제를 풀어갈 수 있는 데이커가 되는 것을 최종 목표로 하고 있습니다. 

Stage 6은 긴 여정 중에서 마지막 단계로서 대회에서 높은 성적을 낼 수 있는 여러 모델링 방법들을 담고 있습니다.



🔔 안내 사항 🔔

Stage 6를 효과적으로 이해하고 학습하기 위해 Stage 5를 같이 참고하는 것을 추천드립니다.

'Jupyter Lite' 특성상 딥러닝 모델을 학습시키기 어려워 'Colab ' 환경에서 수행한 코드는 다음의 링크에서 확인할 수 있습니다.
https://dacon.io/competitions/official/235930/codeshare/7604?page=1&dtype=recent 
https://github.com/namwootree/Dacrew-4th



⭐️ 다음의 포스팅은 데이크루 4기 활동으로 인하여 작성되었음을 알려드립니다. ⭐️

[기초 - Stage 1] 데이터 사이언티스트의 첫 여정 : https://bit.ly/DACrew-4th-tree123-Stage1
[기초 - Stage 2] 데이터 전처리와 특성 공학 : https://bit.ly/DACrew-4th-tree123-Stage2
[기초 - Stage 3] 머신러닝 모델 학습 : https://bit.ly/DACrew-4th-tree123-Stage3
[기초 - Stage 4] 데이터 시각화 : https://bit.ly/DACrew-4th-tree123-Stage4
[심화 - Stage 5] Insight 도출하기 : https://bit.ly/DACrew-4th-tree123-Stage5
[심화 - Stage 6] : 모델링 성능 올리기 : https://bit.ly/DACrew-4th-tree123-Stage6

코드
로그인이 필요합니다
0 / 1000
권남우
2023.02.23 00:13

⭐️ 추가 설명 ⭐️

Scaling 부분에서 마지막으로 MinMax Scaler를 적용한 이유는 다음과 같습니다.

* 파생 변수 생성 과정에서 다섯 칼럼의 각각의 데이터를 합하는데, 만일 음수와 양사의 데이터가 더해진다면 데이터가 크게 왜곡 될 수 있습니다.
* MinMax Scaler를 적용함으로써 0 ~ 1 사이의 양수 데이터로 변환하여 파생변수가 기존 데이터에서 크게 벗어나지 않도록 하였습니다.



Isolate Forest의 'max_samples'를 0.8로 설정한 이유는 다음과 같습니다.

* 훈련 데이터 셋에 사기 거래 데이터가 극히 일부 포함되어있습니다.
* 훈련 데이터 셋의 80%만 사용할 경우, 학습 데이터 내에 사기 거래 데이터가 아에 없거나 개수가 덜 줄어들 것이라고 생각했습니다.
(즉, 더 깨끗한 데이터를 사용할 확률이 높아질 것이라고 가설을 설정하였습니다.)
* 만일 80% 훈련 데이터셋에 사기 거래 데이터가 모두 포함되더라도 소수의 작은 트리가 학습하기에 성능에 큰 영향을 미치지 않을 것이라고 생각합니다.
(즉, 수많은 estimators 중 상대적으로 다수의 사기 거래 데이터가 포함된 훈련 데이터셋을 학습한 모델은 소수일 것이라고 가설을 설정하였습니다. )