Real Estate Fraud Detection Hackathon: Spot the Fakes!

Dacon Hackathon | Algorithm | Tabular | Classification | Fake List | Macro F1 Score

  • moneyIcon Prize : DASCHOOL Pro Subscription
  • 1,065 Users Completed

 

Private 3등 VotingClassifier(XGB+LGB+CAT) + Optuna

2025.03.01 00:19 1,184 Views language

대회가 꽤 길어서 기억이 잘 안 납니다.....

우선 주관적으로 나쁜 부동산을 찾아보자는 마음가짐으로 '방수','욕실수','방향','주차가능여부','해당층','총층','전용면적','총주차대수'를
제거하였고 제공플랫폼은 나쁜 부동산은 다 올렸을 거라고 생각하고, 매물확인방식 또한 허위매물은 실제 보든 안 보든 상관없을 거 같아서 제거했습니다.

부동산 허위매물 걸러내는 방법이 인터넷에 있어서 오래된 매물을 좀 잘 걸러내고자 각 데이터 게재일에서 train데이터의 가장 오래된 게재일을 빼는 형식으로 피처를 생성했습니다. 그리고 추가로 게재일을 가만히 내버려두기 아까워서 sin,cos 변환을 해주었습니다.
관리비는 각각 만원 단위로 맞춰주었고 특별히 train 데이터에서 20만원 이상 관리비 데이터가 비중이 작어서 그냥 삭제하였습니다.

중개사무소 칼럼의 인코딩은 카테고리 개수가 많아서 각각 중개사무소를 숫자로 처리하는 것보다 빈도로 구분하면 분류에 조금 도움이 되지 않을까 싶어서 프리퀀시 인코딩을 했습니다.

optuna로 튜닝 후 소프트 보팅을 진행했습니다. 튜닝은 SMOTE로 하다가 마지막 제출할 때 SMOTE가 되어있는 줄 알고 훈련 후 제출했는데
결과가 좋아서 그대로 내버려두었습니다.

고생하셨습니다.

Code