분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
PUBLIC 20위 코드 공유
안녕하세요!
저희는 머신러닝을 공부하고 있는 직장인들 입니다.
사실 코드를 공유할만한 실력이 아니라 우려스럽지만, 용기를 내서 코드를 공유해 봅니다.
데이터를 처음 받고 2가지를 목표로 했는데, 사실 2개다 이루지 못했습니다.
1) 이상치 제거
- 이상치가 눈에 띄였는데, 제거하면 점수가 오히려 떨어졌습니다.
2) INBALANCING DATA
- 군형이 맞지 않는 데이터 셋이어서, 균형을 맞추기 위해 노력했지만, 실패 했습니다.
혹시 위 2가지 관련 해결된 분이 계시면 정보 공유를 부탁드립니다 ^^
저희는 크게 2가지 방법으로 접근해 보았습니다.
1) 딥러닝 모델
- 일단 5개씩 묶음으로 총 4개 그룹으로 나누어 연관이 있어 보이는 피처끼리 연관되도록 처리해 보았습니다..
2) LGB 모델
- 피처에 대한 배경지식이 없어 막무가내로 피처를 늘려보았습니다.(보시면 아시겠지만, 막 늘렸습니다.)
다른분들 작업한걸 보니 저희 노력이 조금 부족했나 봅니다.
저희 자료 보시고 작지만, 도움이 되면 좋겠네요
잘봤습니다. 공유 감사합니다.
공유해주셔서 감사합니다. 저의 경우에도 샘플링 및 이상치제거는 모델 성능에 도움이 되지 않았습니다.
수고하셨습니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
공유해주셔서 감사합니다!