분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
데이터 전처리 관련해 참고사항
현업에 종사하는 입장에서 데이콘에서 제공한 베이스 코드의 잘못된 점을 지적하고 참가자들에 도움이 되기 위해 작성하였습니다.
1. 스팩트럼 값은 연속성이 있는 데이터로 650~990nm를 한번에 측정 가능합니다. 따라서 중간에 결측치가 존재하는 것은 있을 수 없으며, 제공된 데이터셋은 경진대회를 위해 데이터 일부를 무작위 삭제된 것으로 보입니다.
2. 베이스 코드에서는 결측치를 행의 평균값으로 처리하였는데, 그건 데이터에 대한 이해가 부족한 참가자들에게 오해를 일으킬 수 있습니다.
또한 살펴보니 흡광도는 잘못측정되었지만 결측치가 아닌 데이터들이 있어 전체 데이터셋의 퀄러티가 하락시키고 있습니다. 그러므로 그런 데이터를 제외하는 작업이 필요할 것으로 보입니다.
좋은 정보 감사합니다.
많이 배워갑니다:) 감사합니다:)
감사합니다 !
감사합니다
오 굿이네요^^*
감사합니다ㅎㅎ
감사합니다
감사합니다.
좋은 정보네요. 감사합니다~!
좋은정보 정말 감사합니다!
1. 스팩트럼 값은 연속성이 있는 데이터로 650~990nm를 한번에 측정 가능하다고 하셨는데 이는 시간 순서대로 650nm에서 시작해서 990nm까지 측정이 되는 것을 의미하는건가요??
2. 베이스 코드에서는 결측치를 행의 평균값으로 처리했다고 하셨고 이는 잘못된 처리방법이라고 하신 것 같은데 지금 보니까 베이스라인이 컬럼의 평균값으로 처리된 걸로 나오네요. 베이스라인이 수정된건지 아니면 잘못 작성하신건지 궁금합니다.
1. uv spectrophotometer로 측정하면 650 nm ~ 990 nm 까지 파장이 한번에 측정됩니다. 각각의 열은 시간에 따라 측정되는 것이 아니라 같은 시간에 모든 값이 측정됩니다. https://www.hindawi.com/journals/jnm/2012/174353/fig7/ 에 정상적인 흡광도 그래프를 확인 할 수 있습니다.
2. 제가 잘못 적은 것 같습니다. 다만 제가 이야기 하고 싶었던것은 데이터셋의 특성상 평균값으로 처리해버리는 것은 잘못된 접근법이라는 것입니다.
안녕하세요 김탱님! 데이터 분석 초보이고, 생명과학/공학 비전공자이지만 주제가 흥미로워보여 참가한 대회였는데, 올려주신 전처리 가이드 정말 인상깊게 봤습니다. 덕분에 스펙트럼 데이터 결측치 처리 방법도 알았고, pandas 에서 interpolate method 도 지원한다는 것도 알게 되었네요. 대회는 종료되었지만 감사합니다!
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
감사합니다.^^