생육 환경 최적화 경진대회

데이터 값의 의미에 대한 점과 잘못된 데이터에 대해

2022.05.17 15:32 2,431 Views

대부분 EDA를 진행하신 경우 컬럼이 많다보니 혼동이 오실것같습니다

데이터가 많지만 그 중에 오염된 데이터도 적지 않아 보입니다

결측치를 dropna를 하면 쉽게 처리가 되겠지만 복구가 가능한 경우 이를 살릴 수 있다면 살리는게 좋습니다


기간이 많지 않지만 참고하실만한점을 언급드리자면


  • CASE58과 CASE59는 동일한 데이터고, CASE59는 meta데이터값이 모두 비어있습니다. 따라서 CASE59는 버리고 쓰시는걸 추천드립니다

( https://dacon.io/competitions/official/235897/talkboard/406316?page=1&dtype=recent )


  • 측정값은 실제값과 다를 수 있습니다. 화이트 LED동작강도는 백색광추정광량과 상관관계를 가지고 레드, 블루 또한 각각 적색광, 청색광과 상관가계를 가집니다. 추정하기로는 scalar multiplication 배 정도 차이나는것 같기 떄문에, Missing value를 채우기 위해서 상호보완적으로 사용하시면 도움되실겁니다. 에를들면 CASE01 CASE02같은 경우는 LED 동작강도 값들이 전부 이상한 값으로 되어있는데 해당 값을 믿기보단 이런경우 추정광량을 기준으로 역으로 계산하는 것이 제대로된 값일 겁니다
  • 총추정광량은 다른 광량의 값의 합입니다. 이를 통해 마찬가지 값을 구할 수 있습니다
  • 최근분무량 데이터의 경우 CASE10 ~ CASE 14는 ‘최근분무량’이 아닌 ‘일간누적분무량’입니다. Analytics에서 적상추 데이터에선 일간누적분무량의 데이터가 있는데, 00:00를 기준으로 누적분무량의 데이터를 표기한겁니다. 아마 대회를 위해 값을 처리하는 과정에서 잘못 처리된 것으로 보입니다. 
  • 일간누적분무량의 데이터는 최근분무량의 데이터보다 더 많은 정보를 담은 상위의 데이터입니다. 최근분무량의 값이 변한다면 분무가 일어났다는 뜻은 당연하지만, 최근분무량의 데이터가 변하지 않는다면 분무가 일어났을수도, 일어나지 않았을 수도 있습니다. 이는 유사한 환경에서 생육실험이 진행된 적상추 데이터를 분석하신다면 확인 가능합니다.
  • 냉방부하 난방부하는 내부온도가 기준치보다 높거나 낮은 경우 그 정도에 비례하여 변하는 특징을 가집니다. 이를 통해 온도가 주어지지않은 상황이더라도 내부온도를 추정할 수 있는 여지가 생깁니다


로그인이 필요합니다
0 / 1000
물린다
2022.05.17 19:23

오호... 00:00시의 데이터가 일간 누적 분무량이었군요? 어쩐지 좀 튀는 값들이 있더라니... 좋은 인사이트 감사합니다. ^^