월간 데이콘 생체 광학 데이터 분석 AI 경진대회

데이터 전처리 관련해 참고사항

2020.05.28 09:15 7,081 조회 language

현업에 종사하는 입장에서 데이콘에서 제공한 베이스 코드의 잘못된 점을 지적하고 참가자들에 도움이 되기 위해 작성하였습니다.

1. 스팩트럼 값은 연속성이 있는 데이터로 650~990nm를 한번에 측정 가능합니다. 따라서 중간에 결측치가 존재하는 것은 있을 수 없으며, 제공된 데이터셋은 경진대회를 위해 데이터 일부를 무작위 삭제된 것으로 보입니다.
2. 베이스 코드에서는 결측치를 행의 평균값으로 처리하였는데, 그건 데이터에 대한 이해가 부족한 참가자들에게 오해를 일으킬 수 있습니다.

또한 살펴보니 흡광도는 잘못측정되었지만 결측치가 아닌 데이터들이 있어 전체 데이터셋의 퀄러티가 하락시키고 있습니다.  그러므로 그런 데이터를 제외하는 작업이 필요할 것으로 보입니다.

코드
로그인이 필요합니다
0 / 1000
당쇠
2020.05.28 09:33

감사합니다.^^

GYU CHEOL CHOI
2020.05.28 10:59

좋은 정보 감사합니다.

lainshower
2020.05.28 14:54

많이 배워갑니다:) 감사합니다:)

교수꿈나무
2020.05.28 15:28

감사합니다 !

DataNooob
2020.05.28 15:37

감사합니다

스마트
2020.05.28 17:44

오 굿이네요^^*

병주이
2020.05.30 02:40

감사합니다ㅎㅎ

성민석
2020.05.30 21:13

감사합니다

YoohwaCha
2020.05.31 19:09

감사합니다.

JunHoLim
2020.06.01 21:53

좋은 정보네요. 감사합니다~!

씩씩한오리너구리
2020.06.12 22:19

좋은정보 정말 감사합니다!

nevret
2020.06.13 18:15

1. 스팩트럼 값은 연속성이 있는 데이터로 650~990nm를 한번에 측정 가능하다고 하셨는데 이는 시간 순서대로 650nm에서 시작해서 990nm까지 측정이 되는 것을 의미하는건가요??

2.  베이스 코드에서는 결측치를 행의 평균값으로 처리했다고 하셨고 이는 잘못된 처리방법이라고 하신 것 같은데 지금 보니까 베이스라인이 컬럼의 평균값으로 처리된 걸로 나오네요. 베이스라인이 수정된건지 아니면 잘못 작성하신건지 궁금합니다.

김탱
2020.06.13 20:25

1.  uv spectrophotometer로 측정하면 650 nm ~ 990 nm 까지 파장이 한번에 측정됩니다. 각각의 열은 시간에 따라 측정되는 것이 아니라 같은 시간에 모든 값이 측정됩니다.  https://www.hindawi.com/journals/jnm/2012/174353/fig7/ 에 정상적인 흡광도 그래프를 확인 할 수 있습니다. 
2. 제가 잘못 적은 것 같습니다. 다만 제가 이야기 하고 싶었던것은 데이터셋의 특성상 평균값으로 처리해버리는 것은 잘못된 접근법이라는 것입니다.

iDEN
2020.06.26 18:33

안녕하세요 김탱님! 데이터 분석 초보이고, 생명과학/공학 비전공자이지만 주제가 흥미로워보여 참가한 대회였는데, 올려주신 전처리 가이드 정말 인상깊게 봤습니다. 덕분에 스펙트럼 데이터 결측치 처리 방법도 알았고, pandas 에서 interpolate method 도 지원한다는 것도 알게 되었네요. 대회는 종료되었지만 감사합니다!