원자력발전소 상태 판단 경진대회

원자력발전소 상태 판단 데이터의 문제점

2020.07.05 18:17 6,665 조회
  1. 데이터에 대한 정보가 너무 없음    ->    상위권 팀들의 공유 코드를 보면 대부분 데이콘이 제공한 데이터 전처리를 그대로 가져가고, EDA도 건너띔을 알 수있음
  2. 데이터가 너무 큼     ->     train파일은 압축돼있는 상태가 10 GB 정도로 너무 크고 데이터가 나뉘어 있어서 train파일을 읽는 것도 시간이 많이 걸림
  3. Data imbalance문제     ->     train파일 기준 827개의 데이터 파일이 198개의 label에 들어가는데 어떤 label은 20개 이상의 데이터가 해당되는 반면에 1개만 해당되는 레이블도 있음.
  4. 데이터의 컬럼이 5000개가 넘는데 전부 range도 다르고, 한 개의 값으로 반복되는 컬럼도 많음.
  5. Event time의 유효성     ->     각 데이터 파일마다 event time 다르다고 했지만 정보가 아예 없음.



이번에 스터디하면서 위 문제들에 대해 고민한 결과들을 공유해보도록 하겠습니다.



로그인이 필요합니다
0 / 1000
도비콘
2020.07.05 19:12

by 인호베이션97 님 좋은 스터디 주제 인것 같습니다.

인호베이션97
2020.07.06 08:54

감사합니다. 
위의 문제점을 다루는 추가 게시물들도 봐주시면 감사하겠습니다. :D