월간 데이콘 천체 유형 분류 대회

간단 정리: 전체적인 프로세스

2020.02.25 16:43 9,026 조회

간단한 정리: 전체적인 프로세스 


  • 25일 16시 25분 기준 LB 12등(0.3367)
  • 다들 어떻게 성능을 올리셨는지 매우 궁금합니다. 저희팀은 정말 간단하게 진행했습니다.


  1. EDA: 안했습니다.
  2. 피처 엔지니어링:
  3. 구글에서 SDSS 논문 검색해 적용할 수 있는 건 적용했습니다(단순 사칙연산). Kaggle에도 SDSS 데이터셋과 다른 분들이 작성한 노트북이 있지만, 도움은 안되었습니다.
  4. 22개 변수로 118개 파생변수 생성했습니다. 0.39에서 0.34까지 LightGBM 디폴트 값으로 한번에 상승했습니다.
  5. IQR, std, variance 등 몇 개 적용해봤지만, 그냥 테스트 데이터셋의 각 변수 min, max 값을 기준으로 잘라 냈습니다. 500개 정도 제거했습니다...
  6. 모형 학습 후 특징 중요도 추출해서 변수 제거하는 특징 선택, 차원 축소는 안했습니다... (귀찮아서...)
  7. 모형 학습:
  8. LightGBM, XGBoost를 주로 사용했습니다.
  9. OOF로 LightGBM + Stratified k-fold 사용했습니다(k=5).
  10. 데이터 자체가 너무 불균형해서 num_leaves와 learning_rates에 민감했던 것 같습니다.
  11. 과적합... 해결 못했습니다.
  12. 현재 점수는 hyperopt 사용해서 하이퍼 파라미터 튜닝한 결과입니다. 튜닝 시간은 15시간 정도?



  • 학습과정 중에 찍은 스샷이라... 다 나오진 않았지만, 훈련 데이터셋 대비 검증셋 차이가 100%가 넘습니다... 과적합... 과적합...


  • 시간이 없어서 정말 간단하게 모형만 학습했습니다(이렇게 하면 안되지만... 해봤습니다). EDA와 피처 엔지니어링에 시간을 할애하고 메타 러닝이나 다른 모형을 적극적으로 도입해서 앙상블하면 좋은 점수가 나오지 않을까 생각합니다. 다들 고생하셨습니다~



로그인이 필요합니다
0 / 1000
asdff
2020.02.25 20:25

혹시 스태킹 얼마나 쌓으셨는지 여쭤봐도 될까요??

우주대마왕
2020.02.26 00:02

스태킹 안했습니다. 단일 모형입니다~

호구너
2020.02.26 23:29

xgboost hyperopt 하려는데 시간 엄청 잡아 먹네유 ㅠㅠ

Jglee
2020.02.27 17:48

파생변수는 어떤식으로 만들었는지 여쭈어 봐도 될까요?

무용
2020.02.27 23:53

저도 이부분이 궁금하네요 어떻게 118개의 파생변수를 생성하셨나요?

Kim KyungHwan
2020.02.28 11:34

본 대회에서 가장 중요한 부분이라고 생각합니다. 복잡한 모델 튜닝 없이도 해당 피쳐들을 생성해낼 수 있다면 10위권 이내로 올라올 수 있을 듯 싶습니다.

Jglee
2020.02.28 21:50

대회가 끝나고 질문을 할까 라는 생각을 했는데 그러는 편이 나았을 거 같네요. 대회가 끝난 후에라도 혹시 방법을 알려주실 수 있을까요?