분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
[나무 123그루 🌳] 신용카드 사기 거래 식별 PBL / Stage 6 : 모델링 성능 올리기
공동작성자
🙇♂️ 소개글 🙇♂️
안녕하세요. 데이크루 4기 나무 123그루 팀입니다.
저희는 신용카드 💳 사기 거래 AI 경진대회를 주제로 PBL를 수행합니다.
이번 활동을 통해 논리적인 접근 방식으로 모든 문제를 풀어갈 수 있는 데이커가 되는 것을 최종 목표로 하고 있습니다.
Stage 6은 긴 여정 중에서 마지막 단계로서 대회에서 높은 성적을 낼 수 있는 여러 모델링 방법들을 담고 있습니다.
🔔 안내 사항 🔔
Stage 6를 효과적으로 이해하고 학습하기 위해 Stage 5를 같이 참고하는 것을 추천드립니다.
'Jupyter Lite' 특성상 딥러닝 모델을 학습시키기 어려워 'Colab ' 환경에서 수행한 코드는 다음의 링크에서 확인할 수 있습니다.
https://dacon.io/competitions/official/235930/codeshare/7604?page=1&dtype=recent
https://github.com/namwootree/Dacrew-4th
⭐️ 다음의 포스팅은 데이크루 4기 활동으로 인하여 작성되었음을 알려드립니다. ⭐️
[기초 - Stage 1] 데이터 사이언티스트의 첫 여정 : https://bit.ly/DACrew-4th-tree123-Stage1
[기초 - Stage 2] 데이터 전처리와 특성 공학 : https://bit.ly/DACrew-4th-tree123-Stage2
[기초 - Stage 3] 머신러닝 모델 학습 : https://bit.ly/DACrew-4th-tree123-Stage3
[기초 - Stage 4] 데이터 시각화 : https://bit.ly/DACrew-4th-tree123-Stage4
[심화 - Stage 5] Insight 도출하기 : https://bit.ly/DACrew-4th-tree123-Stage5
[심화 - Stage 6] : 모델링 성능 올리기 : https://bit.ly/DACrew-4th-tree123-Stage6
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
⭐️ 추가 설명 ⭐️
Scaling 부분에서 마지막으로 MinMax Scaler를 적용한 이유는 다음과 같습니다.
* 파생 변수 생성 과정에서 다섯 칼럼의 각각의 데이터를 합하는데, 만일 음수와 양사의 데이터가 더해진다면 데이터가 크게 왜곡 될 수 있습니다.
* MinMax Scaler를 적용함으로써 0 ~ 1 사이의 양수 데이터로 변환하여 파생변수가 기존 데이터에서 크게 벗어나지 않도록 하였습니다.
Isolate Forest의 'max_samples'를 0.8로 설정한 이유는 다음과 같습니다.
* 훈련 데이터 셋에 사기 거래 데이터가 극히 일부 포함되어있습니다.
* 훈련 데이터 셋의 80%만 사용할 경우, 학습 데이터 내에 사기 거래 데이터가 아에 없거나 개수가 덜 줄어들 것이라고 생각했습니다.
(즉, 더 깨끗한 데이터를 사용할 확률이 높아질 것이라고 가설을 설정하였습니다.)
* 만일 80% 훈련 데이터셋에 사기 거래 데이터가 모두 포함되더라도 소수의 작은 트리가 학습하기에 성능에 큰 영향을 미치지 않을 것이라고 생각합니다.
(즉, 수많은 estimators 중 상대적으로 다수의 사기 거래 데이터가 포함된 훈련 데이터셋을 학습한 모델은 소수일 것이라고 가설을 설정하였습니다. )