너무 적은 데이터 정보량, Data Imbalance, Event time에 대한 문제

원자력발전소 상태 판단 경진대회

2020.07.06 11:17 15,712 조회

앞서 해당 대회의 데이터에 대한 문제점에 대한 글을 게재했습니다.

우선 데이터에 대한 정보량이 너무 적습니다. 이 대회의 상위권 팀들의 공개된 코드를 보면 전부 EDA를 하지않고, 모델링에 치중한 모습입니다. 우리 스터디는 EDA를 통해 얻을 수 있는 인사이트나 전처리를 통해 예측력을 올릴 수 없나 많은 고민을 했고, 얻었던 인사이트를 같이 공유하려 합니다.

Data Imbalance의 문제점

Data Imbalance의 문제점은 많은 분들도 아시고 있을 것 같습니다. 압축된 데이터의 용량만 10 GB가 넘지만, 그래프를 보면 198개의 레이블 중 오직 1개의 파일만 해당되는 라벨들이 뒤에 꼬리처럼 줄지어 있습니다. 그런 레이블에는 오히려 데이터가 부족하다는 문제점이 발생한겁니다.

Event time은 파일마다 전부 다르지만, 데이콘 측에서는 모든 파일을 10초로 고정하여 제공하고, 참가자들이 직접 논리적으로 해결해나가기를 바라는 시선이었습니다.

위 두 문제를 묶어서 같이 생각했습니다.

초반에는 event time을 굉장히 중요하게 생각해서 위의 ppt를 만들었습니다. '라벨과 event time의 관계성'

결론부터 말씀드리면, "event time은 그리 중요하지 않을 수 있다." 입니다. 우선 상위권 팀들 중에서 event time을 다룬 팀은 1~15초 사이의 데이터 셋 15개를 추출해 모델링을 한 4등 팀 입니다. 이팀 보다 등수가 높은 팀들은 전혀 event time에 대해서 다루지 않고 1등 팀은 그저 시드 3개를 고정하고 k-fold를 통해 단순히 데이터의 양을 높입니다.

대회의 규칙은 test 데이터의 상태 B를 판단하는 것 입니다. 이는 event time이 중요하기 보다는 그저 상태 B에 대한 데이터의 양을 높이는 것이 중요하다는 의미일 수 있습니다. 그리고 그렇게 데이터의 양을 늘리면, 자연스레 Data Imbalance의 문제도 어느정도 해결할 수 있습니다. 1등팀이 랜덤 시드와 k-fold 4개로 데이터의 양을 늘린게 이를 뒷받침 해주는 근거일 수 있는 것이라고 생각합니다.

제시했던 다른 문제점들도 업로드 하겠습니다.

(주관적인 견해이기에 가능성에 대한 의견을 제시했습니다. 혹시 event time에 대한 유의미한 인사이트가 있으시다면 같이 공유 부탁드립니다.)