분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
월간 데이콘 생체 광학 데이터 분석 AI 경진대회
데이터 전처리 관련해 참고사항
현업에 종사하는 입장에서 데이콘에서 제공한 베이스 코드의 잘못된 점을 지적하고 참가자들에 도움이 되기 위해 작성하였습니다.
1. 스팩트럼 값은 연속성이 있는 데이터로 650~990nm를 한번에 측정 가능합니다. 따라서 중간에 결측치가 존재하는 것은 있을 수 없으며, 제공된 데이터셋은 경진대회를 위해 데이터 일부를 무작위 삭제된 것으로 보입니다.
2. 베이스 코드에서는 결측치를 행의 평균값으로 처리하였는데, 그건 데이터에 대한 이해가 부족한 참가자들에게 오해를 일으킬 수 있습니다.
또한 살펴보니 흡광도는 잘못측정되었지만 결측치가 아닌 데이터들이 있어 전체 데이터셋의 퀄러티가 하락시키고 있습니다. 그러므로 그런 데이터를 제외하는 작업이 필요할 것으로 보입니다.
좋은 정보 감사합니다.
많이 배워갑니다:) 감사합니다:)
감사합니다 !
감사합니다
오 굿이네요^^*
감사합니다ㅎㅎ
감사합니다
감사합니다.
좋은 정보네요. 감사합니다~!
좋은정보 정말 감사합니다!
1. 스팩트럼 값은 연속성이 있는 데이터로 650~990nm를 한번에 측정 가능하다고 하셨는데 이는 시간 순서대로 650nm에서 시작해서 990nm까지 측정이 되는 것을 의미하는건가요??
2. 베이스 코드에서는 결측치를 행의 평균값으로 처리했다고 하셨고 이는 잘못된 처리방법이라고 하신 것 같은데 지금 보니까 베이스라인이 컬럼의 평균값으로 처리된 걸로 나오네요. 베이스라인이 수정된건지 아니면 잘못 작성하신건지 궁금합니다.
1. uv spectrophotometer로 측정하면 650 nm ~ 990 nm 까지 파장이 한번에 측정됩니다. 각각의 열은 시간에 따라 측정되는 것이 아니라 같은 시간에 모든 값이 측정됩니다. https://www.hindawi.com/journals/jnm/2012/174353/fig7/ 에 정상적인 흡광도 그래프를 확인 할 수 있습니다.
2. 제가 잘못 적은 것 같습니다. 다만 제가 이야기 하고 싶었던것은 데이터셋의 특성상 평균값으로 처리해버리는 것은 잘못된 접근법이라는 것입니다.
안녕하세요 김탱님! 데이터 분석 초보이고, 생명과학/공학 비전공자이지만 주제가 흥미로워보여 참가한 대회였는데, 올려주신 전처리 가이드 정말 인상깊게 봤습니다. 덕분에 스펙트럼 데이터 결측치 처리 방법도 알았고, pandas 에서 interpolate method 도 지원한다는 것도 알게 되었네요. 대회는 종료되었지만 감사합니다!
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
감사합니다.^^