원자력발전소 상태 판단 경진대회

알고리즘 | 정형 | 회귀 | 산업 | Log Loss

  • moneyIcon 상금 : 1,000만원
  • 1,398명 마감

 

어떻게 분석을 진행하였는지 다양한 의견 공유 부탁드립니다.

2020.02.22 22:29 4,288 조회

안녕하세요. 데이터분석가를 꿈꾸며 열심히 배우고 있는 학생입니다.


데이터 전처리 방법, Class Imbalance 문제 해결방법,  적용한 알고리즘과 적용방법 등 다양한 분석방법과 진행과정들을 듣고 싶습니다.


많은 의견과 정보공유 부탁드립니다.  

로그인이 필요합니다
0 / 1000
제루스챈스
2020.02.23 19:36

저는 대회 참여는 하지 않았지만 CV 스코어만 봤을 때는 lightgbm과 xgboost가 성능이 좋았습니다. 베이스라인코드는 random forest를 사용하는데 이 보다는 성능이 좋게 나옵니다.

제루스챈스
2020.02.23 19:41

lightgbm 모델은 feature importance를 확인할 수 있어서 상위 20~100 개를 선택해서 다시 모델을 만드는 기법도 사용해봤는데 성능향상에 도움은 없었네요ㅠㅠ

제루스챈스
2020.02.23 19:44

오히려 여러가지 모델을 스태킹해서 최종 결과를 만드는 게 더 좋은 것 같습니다.

Geonwoo_Kim
2020.02.23 23:59

삭제된 댓글입니다

Geonwoo_Kim
2020.02.23 23:59

의견공유 감사드립니다

Geonwoo_Kim
2020.02.24 00:10

아 혹시 데이터는 어떤 형식으로 넣었는지 궁금합니다.
(827, 60, 5120)를 (827, 60*5120) 이런식으로 넣는게 맞는지 모르겠습니다. 
*(csv파일수, 시간, 컬럼수) 

ChiefDataOfficer
2020.02.24 00:35

모델 훈련할 때 말씀이신거죠? 저는 (827*60, 5120) 이렇게 넣었습니다 (row수, column수)

제루스챈스
2020.02.24 15:20

저도 827*60, 5120 으로 넣었습니다. 
60*5120은 feature의 개수가 너무 커지고 시간에 따라서 달라지는 문제가 있습니다.

제루스챈스
2020.02.24 15:20

삭제된 댓글입니다