분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
2024 생명연구자원 AI활용 경진대회 - SCI팀 코드공유
<📊 데이터>
1. 주요 데이터셋
- train.csv
- test.csv
2. 외부 데이터
- TCGA (The Cancer Genome Atlas) 데이터
- 11,000명 이상의 암 환자와 33개 주요 암종에 대한 유전체 변이 정보를 포함.
- 모델 성능 향상을 위해 주요 데이터셋과 병합하여 사용됨.
<🔄 데이터 전처리 및 주요 과제>
변이 유형 분류
- 동의변이 (예: R213R): 변이가 발생했지만 아미노산이 동일.
- 비동의변이 (예: R213T): 변이가 발생하여 아미노산이 변경됨.
- 프레임 시프트 변이 (예: R213Tfs): 프레임 시프트 변이로 시퀀스를 방해함.
- 종결변이 (예: R123\*): 변이로 인해 종결 코돈이 발생하여 시퀀스가 종료됨.
- 결실변이 (예: R123del): 아미노산이 삭제됨.
- 삽입변이 (예: R123ins): 아미노산이 추가됨.
핵심 전처리 작업
1. 데이터 정규화 (1NF): 각 셀에 여러 변이 코드가 포함되어 1NF에 위배. 가장 앞에 있는 변이 코드만 유지.
2. 불균형 데이터: 대부분의 셀이 변이 없는 "WT" 값으로 채워져 있어, SMOTEENN 기법을 사용해 클래스 불균형 문제 해결.
3. TCGA 특정 데이터: 테스트 셋에만 존재하는 많은 고유 값이 있어 인코딩 및 피처 엔지니어링이 복잡해짐.
<💻 모델 학습 및 방법론>
1. 모델 선택
- CatBoost: 범주형 데이터를 효과적으로 처리하고 클래스 불균형 문제를 잘 다룸.
2. 데이터 증강
- SMOTEENN: SMOTE와 ENN을 결합하여 클래스 불균형을 해결하고 과적합 방지.
3. MultiLabelBinarizer
- TCGA 데이터로 인해 늘어난 컬럼 수를 줄이기 위해 사용. 각 레이블을 적합한 벡터 형식으로 변환하여 학습에 활용.
4. 하이퍼파라미터 튜닝
- Optuna: 모델 성능을 극대화하기 위해 하이퍼파라미터를 최적화.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io |
전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved