분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
Private : 0.74544, 14위 간단한 코드공유
[데이터 합성: CTGAN]
1. 'Customer_registration_datetime', 'Account_creation_datetime', 'Last_atm_transaction_datetime', 'Last_bank_branch_transaction_datetime', 'Transaction_resumed_date' 등 날짜 열의 선후관계를 파악하고 합성할 때 고려하면 더 좋은 결과를 얻을 수 있는 것 같습니다.
2. columns_to_drop =
['Customer_personal_identifier', 'Customer_identification_number',
'Account_account_number','Recipient_Account_Number',
'MAC_Address','Location','IP_Address', 'Another_Person_Account'] << 다음의 열들은 사기탐지에 직접적 영향이 없을것이라고 생각하고 제거해 주었습니다.
3. 합성 시 원본 데이터의 이상치, 합성 데이터의 이상치를 따로 처리하지 않았습니다. 3표준편차 외의 값들을 이상치로 취급하고, 상한/하한으로 변경하는 코드로 실행해보았는데 성능이 더 좋지 않았습니다.
[데이터 분류 : lightgbm]
1. Lightgbm + Optuna를 이용하여 최적의 하이퍼 파라미터를 찾았습니다.
2. 불균형 데이터다 보니, 'class_weight': 'balanced'를 설정하고 안하고의 차이가 굉장히 큽니다.
-------------------------------------------------------------------
주어진 시간이 많이 없어 좀 아쉬움이 남는 대회였던 것 같습니다. MLP같은 다른 알고리즘들도 사용해보면 더 좋은 성적을 낼 수 있지 않을까 생각합니다.
감사합니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io |
전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
선생님, 결국 합성 데이터가 모델 학습에 있어 주는 이점이 있을까요?
오히려 합성 데이터를 추가하기만 하면 f1-score가 떨어지게 되는데 어떻게 해결해야할까요?