어떻게 분석을 진행하였는지 다양한 의견 공유 부탁드립니다.

원자력발전소 상태 판단 경진대회

Geonwoo_Kim

2020.02.22 22:29 7,425 Views

안녕하세요. 데이터분석가를 꿈꾸며 열심히 배우고 있는 학생입니다.

데이터 전처리 방법, Class Imbalance 문제 해결방법, 적용한 알고리즘과 적용방법 등 다양한 분석방법과 진행과정들을 듣고 싶습니다.

많은 의견과 정보공유 부탁드립니다.

9 Comments

comment

0 / 1000

제루스챈스

2020.02.23 19:36

저는 대회 참여는 하지 않았지만 CV 스코어만 봤을 때는 lightgbm과 xgboost가 성능이 좋았습니다. 베이스라인코드는 random forest를 사용하는데 이 보다는 성능이 좋게 나옵니다.

제루스챈스

2020.02.23 19:41

lightgbm 모델은 feature importance를 확인할 수 있어서 상위 20~100 개를 선택해서 다시 모델을 만드는 기법도 사용해봤는데 성능향상에 도움은 없었네요ㅠㅠ

제루스챈스

2020.02.23 19:44

오히려 여러가지 모델을 스태킹해서 최종 결과를 만드는 게 더 좋은 것 같습니다.

Geonwoo_Kim

2020.02.23 23:59

Deleted Comment

Geonwoo_Kim

2020.02.23 23:59

의견공유 감사드립니다

Geonwoo_Kim

2020.02.24 00:10

아 혹시 데이터는 어떤 형식으로 넣었는지 궁금합니다.
(827, 60, 5120)를 (827, 60*5120) 이런식으로 넣는게 맞는지 모르겠습니다.
*(csv파일수, 시간, 컬럼수)

ChiefDataOfficer

2020.02.24 00:35

모델 훈련할 때 말씀이신거죠? 저는 (827*60, 5120) 이렇게 넣었습니다 (row수, column수)

제루스챈스

2020.02.24 15:20

저도 827*60, 5120 으로 넣었습니다.
60*5120은 feature의 개수가 너무 커지고 시간에 따라서 달라지는 문제가 있습니다.

제루스챈스

2020.02.24 15:20

Deleted Comment

📣 The comment input field has been moved to the top of the comment list!

List

윈도우 환경에서 anaconda3 prompt 작동 가능 여부 질문이 있습니다.

Competition - 위성 이미지 객체 검출 미래도전기술 경진대회

Current

어떻게 분석을 진행하였는지 다양한 의견 공유 부탁드립니다.

Competition - 원자력발전소 상태 판단 경진대회

Likes 6

Comments 7

6년 전

datetime 컬럼 여부

Competition - 서울시 따릉이 대여량 예측 경진대회