월간 데이콘 천체 유형 분류 대회

알고리즘 | 정형 | 분류 | 과학 | LogLoss

상금 154만 원
1,272명 마감

연습

대회안내 데이터 코드 공유 토크 리더보드

제출

PUBLIC 20위 코드 공유

홍재권

2020.03.05 23:42 10,675 조회 language

안녕하세요!
저희는 머신러닝을 공부하고 있는 직장인들 입니다.
사실 코드를 공유할만한 실력이 아니라 우려스럽지만, 용기를 내서 코드를 공유해 봅니다.
데이터를 처음 받고 2가지를 목표로 했는데, 사실 2개다 이루지 못했습니다.
1) 이상치 제거
- 이상치가 눈에 띄였는데, 제거하면 점수가 오히려 떨어졌습니다.
2) INBALANCING DATA
- 군형이 맞지 않는 데이터 셋이어서, 균형을 맞추기 위해 노력했지만, 실패 했습니다.
혹시 위 2가지 관련 해결된 분이 계시면 정보 공유를 부탁드립니다 ^^

저희는 크게 2가지 방법으로 접근해 보았습니다.
1) 딥러닝 모델
- 일단 5개씩 묶음으로 총 4개 그룹으로 나누어 연관이 있어 보이는 피처끼리 연관되도록 처리해 보았습니다..
2) LGB 모델
- 피처에 대한 배경지식이 없어 막무가내로 피처를 늘려보았습니다.(보시면 아시겠지만, 막 늘렸습니다.)

다른분들 작업한걸 보니 저희 노력이 조금 부족했나 봅니다.
저희 자료 보시고 작지만, 도움이 되면 좋겠네요