월간 데이콘 생체 광학 데이터 분석 AI 경진대회

알고리즘 | 정형 | 회귀 | 바이오 | MAE

  • moneyIcon 상금 : 총 360만원
  • 961명 마감

 

고등학교 과학으로 풀어본 데이터에 대한 이해

2020.05.29 16:34 11,247 조회

저도 비전공자이고, 바이오 분야에서의 지식이 고등학교 과학.... 이후로 없기 때문에 부족한 부분이 많을 수 있습니다. 참고해주시고 틀린 부분 있으면 고쳐주시고 봐주시면 감사하겠습니다. 고등학교 과학 + 열심히 구글링을 해서 제가 이해한 내용을 몇개 적어 보자면...



1) 스펙트럼

고1 통합과학 1-1-2 [스펙트럼] : 네이버 포스트

아마 중학교 과학에서 처음 나왔던 내용일 것 같습니다. 물질의 흡수 스펙트럼과 방출 스펙트럼.

모든 물질은 고유한 흡수 스펙트럼을 가질 수 있습니다. 자세한 실험은 기억이 안나지만, 연속 스펙트럼을 가진 빛을 물질에 비추고, 이때 물질이 흡수하는 파장 영역이 위 흡수 스펙트럼의 검은 띠로 나타납니다. 빨간색 영역에 검은 띠가 하나 보이지요? 위 사진이 어떤 물질의 스펙트럼인지는 잘 모르겠지만, 이 물질은 저 검은 띠에 해당하는 빛의 파장을 흡수하는 특성이 있다는 뜻입니다.





2) 적외선


이것도 중학교때 배웠던 것 같은데, 가시광선의 파장 영역은 약 400 ~ 700 나노미터 로 배운 기억이 납니다. 650 ~ 990 나노미터는 따라서 적외선 영역에 해당하는 빛입니다. 실험은 src 에 적혀있는 파장 영역의 적외선을 뇌에다가 쏘이고, 그 결과로 측정한 스펙트럼을 dst 에다가 적어놓은것 같습니다. 뭐 흡수스펙트럼인지 방출 스펙트럼인지는 잘 모르겠습니다만.. 아무튼 물질에 따라서 이게 스펙트럼이 달라질 수 있나 봅니다. 따라서 결측치를 처리할때는 baseline 코드 처럼 column 별로 채우면 데이터가 아주 난장판이 됩니다. dst 따로, src 따로, '행 별로' 데이터를 처리해야 정직한 데이터 전처리라고 할 수 있을것 같네요. (제가 제출하고 baseline 코드가 올라왔는데 저거 보고 뭔짓이냐... 했던 기억이...)




3) 분광분석법



위키백과에 있는 적외선 분광법입니다. 적외선 분광법에서는 주로 흡수 분광법에 기반한 기술을 다루게 된다고 하네요. 적외선은 에너지가 아주 적은 빛이기 때문에 물체를 잘 투과할 수 없기 때문인것 같습니다. 또 다른데서 구글링해서 알아본 결과, 적외선 분광분석의 기본은 물질의 작용기(쉽게 말해서 분자 구조같은거라고 생각하시면 될듯 합니다.) 에 따라서, 흡수하는 빛의 파장이 달라질 수 있다. 이때 물질은 적외선을 흡수해서 분자의 에너지가 올라간다... 뭐 이런 글을 본적이 있습니다.




음 요약을 해 보자면, train 데이터에 총 10000행이 있습니다. src 10000개, dst 10000개.

각각 src, dst 는 파장 영역을 35개로 나누어서 측정된거구요.

첫번째 행의 src 파장에 해당하는 빛을 비추었더니, 첫번째 행의 dst 파장에 해당하는 빛을 측정할수 있었다.

이걸 10000번 실험한..뭐 대충 이런 실험인 것 같습니다. 도움 되셨다면 따봉(?) 부탁드립니다...


근데 이런거 모르고도 LightGBM 써가지고 컴퓨터 불나도록 쎄빠지게 하이퍼파라미터 튜닝 하면 점수가 약간 오르기는 하더라구요

로그인이 필요합니다
0 / 1000
알레나
2020.05.31 16:08

많은 도움이 됐습니다!! 감사합니다!~

Jamm
2020.05.31 15:53

댓글 감사합니다! 화이팅입니다~~

알레나
2020.05.31 16:33

네~ Jamm님도 화이팅하세요!~

얌얌냥이
2020.06.06 14:44

감사합니다!!

당쇠
2020.06.13 09:50

쉬운 설명 감사합니다.