FSI AIxData Challenge 2024

알고리즘 | 금융보안원 | 생성형 AI | 생성 | 정형 | 분류 | Macro F1 Score | TCAP

  • moneyIcon 상금 : 1,700 만원
  • 567명 마감

 

Private : 0.74544, 14위 간단한 코드공유

2024.10.31 12:06 1,492 조회 language

[데이터 합성: CTGAN]
1. 'Customer_registration_datetime', 'Account_creation_datetime',  'Last_atm_transaction_datetime', 'Last_bank_branch_transaction_datetime', 'Transaction_resumed_date' 등 날짜 열의 선후관계를 파악하고 합성할 때 고려하면 더 좋은 결과를 얻을 수 있는 것 같습니다.

2. columns_to_drop = 
                   ['Customer_personal_identifier', 'Customer_identification_number',
                   'Account_account_number','Recipient_Account_Number',
                   'MAC_Address','Location','IP_Address',  'Another_Person_Account'] << 다음의 열들은 사기탐지에 직접적 영향이 없을것이라고 생각하고 제거해 주었습니다.

3. 합성 시 원본 데이터의 이상치, 합성 데이터의 이상치를 따로 처리하지 않았습니다. 3표준편차 외의 값들을 이상치로 취급하고, 상한/하한으로 변경하는 코드로 실행해보았는데 성능이 더 좋지 않았습니다.

[데이터 분류 : lightgbm]
1. Lightgbm + Optuna를 이용하여 최적의 하이퍼 파라미터를 찾았습니다.

2. 불균형 데이터다 보니,  'class_weight': 'balanced'를 설정하고 안하고의 차이가 굉장히 큽니다. 

-------------------------------------------------------------------
주어진 시간이 많이 없어 좀 아쉬움이 남는 대회였던 것 같습니다. MLP같은 다른 알고리즘들도 사용해보면 더 좋은 성적을 낼 수 있지 않을까 생각합니다.
감사합니다.

코드
로그인이 필요합니다
0 / 1000
임하식
2024.11.04 17:30

선생님, 결국 합성 데이터가 모델 학습에 있어 주는 이점이 있을까요? 
오히려 합성 데이터를 추가하기만 하면 f1-score가 떨어지게 되는데 어떻게 해결해야할까요?

이전 글
이전 글이 존재하지 않습니다.
현재 글
Private : 0.74544, 14위 간단한 코드공유
대회 - FSI AIxData Challenge 2024
좋아요 7
조회 1,492
댓글 1
6달 전
다음 글
[Public : 0.63] baseline 공유
대회 - FSI AIxData Challenge 2024
좋아요 13
조회 2,386
댓글 1
8달 전