월간 데이콘 생체 광학 데이터 분석 AI 경진대회

알고리즘 | 정형 | 회귀 | 바이오 | MAE

  • moneyIcon 상금 : 총 360만원
  • 961명 마감

 

Public 7등, Private 7등 솔루션

2020.06.26 18:55 4,258 조회

모두 고생 많으셨습니다.  아예 없는 도메인으로 어찌저찌 해봤습니다ㅠㅠ



1. null값 처리


       - 보간법으로는 맨 처음 값을 못 채우는 현상이 발생했고, 이를 채우기 위해 맨 처음에 first라는 이름으로 0 을 넣어

보간하였습니다.( first     -   650_dst   - 660_dst 이런식으로 했습니다.)



2. 성능 향상에 도움이 많이 되었던 features


        - src / dst 와 log10(src/dst) / rho

      

    - log10(src/dst) / rho 를 흡광계수  (틀릴 수도 있습니다..)라고 하며 이를 stride하면서 나눠준 것

(예를 들어 650의 흡광도 / 660의 흡광도)


        - 전체  dst 와 src 의 합을 구해(열 합) 한 스펙트럼에서 src의 비율, dst의 비율을 구했습니다. (src / src_sum)과 (dst / dst_sum)

그리고 이렇게 생성된 비율들을 다시 한 번 더 나눠줍니다. (src_rate / dst_rate)


3. 모델은 Light GBM DART를 사용했습니다.


        - 최대한 많은 경우를 앙상블 했으며 output이 0 미만으로 나온다면 0으로 반환하도록 하였습니다.



대회를 하면서 의문이었던 점은 y가 0이었던 데이터인데, 이를 제거하고 학습하면 성능이 떨어져서 일단 놔두긴 했습니다..



데이콘 운영진분들께도 감사드리며 앞으로 더 재밌고 좋은 대회 많았으면 좋겠습니다 : )