월간 데이콘 천체 유형 분류 대회

알고리즘 | 정형 | 분류 | 과학 | LogLoss

  • moneyIcon 상금 : 154만원
  • 1,221명 마감

 

PUBLIC 20위 코드 공유

2020.03.05 23:42 7,656 조회 language

안녕하세요!
저희는 머신러닝을 공부하고 있는 직장인들 입니다.
사실 코드를 공유할만한 실력이 아니라 우려스럽지만, 용기를 내서 코드를 공유해 봅니다.
데이터를 처음 받고 2가지를 목표로 했는데, 사실 2개다 이루지 못했습니다.
1) 이상치 제거 
 - 이상치가 눈에 띄였는데, 제거하면 점수가 오히려 떨어졌습니다.
2) INBALANCING DATA
- 군형이 맞지 않는 데이터 셋이어서, 균형을 맞추기 위해 노력했지만, 실패 했습니다.
혹시 위 2가지 관련 해결된 분이 계시면 정보 공유를 부탁드립니다 ^^

저희는 크게 2가지 방법으로  접근해 보았습니다.
1) 딥러닝 모델 
 - 일단 5개씩 묶음으로 총 4개 그룹으로 나누어 연관이 있어 보이는 피처끼리 연관되도록 처리해 보았습니다..
2) LGB 모델
 - 피처에 대한 배경지식이 없어 막무가내로 피처를 늘려보았습니다.(보시면 아시겠지만, 막 늘렸습니다.)

다른분들 작업한걸 보니 저희 노력이 조금 부족했나 봅니다.
저희 자료 보시고 작지만, 도움이 되면 좋겠네요


코드
로그인이 필요합니다
0 / 1000
처음해봐요
2020.03.06 01:10

공유해주셔서 감사합니다!

제루스챈스
2020.03.06 10:00

잘봤습니다. 공유 감사합니다.

taegu
2020.03.06 10:33

공유해주셔서 감사합니다. 저의 경우에도 샘플링 및 이상치제거는 모델 성능에 도움이 되지 않았습니다.

DACONIO
2020.03.09 00:05

수고하셨습니다.