2024 Bio-resource AI Competition : AI Algorithm Track

Algorithm | Genome | Tabular | Classification | Biology | Macro F1 Score

 

2024 생명연구자원 AI활용 경진대회 - SCI팀 코드공유

공동작성자
2024.11.06 10:27 1,465 Views language

<📊 데이터>

1. 주요 데이터셋
- train.csv
- test.csv

2. 외부 데이터
- TCGA (The Cancer Genome Atlas) 데이터
  - 11,000명 이상의 암 환자와 33개 주요 암종에 대한 유전체 변이 정보를 포함.
  - 모델 성능 향상을 위해 주요 데이터셋과 병합하여 사용됨.

<🔄 데이터 전처리 및 주요 과제>

변이 유형 분류
- 동의변이 (예: R213R): 변이가 발생했지만 아미노산이 동일.
- 비동의변이 (예: R213T): 변이가 발생하여 아미노산이 변경됨.
- 프레임 시프트 변이 (예: R213Tfs): 프레임 시프트 변이로 시퀀스를 방해함.
- 종결변이 (예: R123\*): 변이로 인해 종결 코돈이 발생하여 시퀀스가 종료됨.
- 결실변이 (예: R123del): 아미노산이 삭제됨.
- 삽입변이 (예: R123ins): 아미노산이 추가됨.

핵심 전처리 작업
1. 데이터 정규화 (1NF): 각 셀에 여러 변이 코드가 포함되어 1NF에 위배. 가장 앞에 있는 변이 코드만 유지.
2. 불균형 데이터: 대부분의 셀이 변이 없는 "WT" 값으로 채워져 있어, SMOTEENN 기법을 사용해 클래스 불균형 문제 해결.
3. TCGA 특정 데이터: 테스트 셋에만 존재하는 많은 고유 값이 있어 인코딩 및 피처 엔지니어링이 복잡해짐.

<💻 모델 학습 및 방법론>

1. 모델 선택
- CatBoost: 범주형 데이터를 효과적으로 처리하고 클래스 불균형 문제를 잘 다룸.

2. 데이터 증강
- SMOTEENN: SMOTE와 ENN을 결합하여 클래스 불균형을 해결하고 과적합 방지.

3. MultiLabelBinarizer
- TCGA 데이터로 인해 늘어난 컬럼 수를 줄이기 위해 사용. 각 레이블을 적합한 벡터 형식으로 변환하여 학습에 활용.

4. 하이퍼파라미터 튜닝
- Optuna: 모델 성능을 극대화하기 위해 하이퍼파라미터를 최적화.

Code