유전체 정보 품종 분류 AI 경진대회

알고리즘 | 유전체 | 분류 | Macro F1 Score

  • moneyIcon Prize : 300 만원
  • 1,418명 마감

 

[Private 8위] Random Forest + 독립성 검정을 통한 추가 변수 생성

공동작성자

stroke
2023.01.20 10:13 1,943 Views language

데이터의 수가 많지 않아서, 모델링보단 추가 변수 생성에 집중하였습니다.
이를 위해 데이터 EDA를 통해, 각 종에서 SNP끼리 어떤 관계가 있는지 알아보았습니다. 
독립성 검정을 통해 각 종에서 독립이 아닌 SNP쌍을 찾았고 이를 추가 변수로 사용했습니다. 
그 결과, Baseline 과 유사한 모델로도 충분히 좋은 성능을 보일 수 있었습니다.

PDF
Code