분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
원자력발전소 상태 판단 경진대회
어떻게 분석을 진행하였는지 다양한 의견 공유 부탁드립니다.
안녕하세요. 데이터분석가를 꿈꾸며 열심히 배우고 있는 학생입니다.
데이터 전처리 방법, Class Imbalance 문제 해결방법, 적용한 알고리즘과 적용방법 등 다양한 분석방법과 진행과정들을 듣고 싶습니다.
많은 의견과 정보공유 부탁드립니다.
lightgbm 모델은 feature importance를 확인할 수 있어서 상위 20~100 개를 선택해서 다시 모델을 만드는 기법도 사용해봤는데 성능향상에 도움은 없었네요ㅠㅠ
오히려 여러가지 모델을 스태킹해서 최종 결과를 만드는 게 더 좋은 것 같습니다.
삭제된 댓글입니다
의견공유 감사드립니다
아 혹시 데이터는 어떤 형식으로 넣었는지 궁금합니다.
(827, 60, 5120)를 (827, 60*5120) 이런식으로 넣는게 맞는지 모르겠습니다.
*(csv파일수, 시간, 컬럼수)
모델 훈련할 때 말씀이신거죠? 저는 (827*60, 5120) 이렇게 넣었습니다 (row수, column수)
저도 827*60, 5120 으로 넣었습니다.
60*5120은 feature의 개수가 너무 커지고 시간에 따라서 달라지는 문제가 있습니다.
삭제된 댓글입니다
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
저는 대회 참여는 하지 않았지만 CV 스코어만 봤을 때는 lightgbm과 xgboost가 성능이 좋았습니다. 베이스라인코드는 random forest를 사용하는데 이 보다는 성능이 좋게 나옵니다.