제2회 Medical AI (MAI) 경진대회

알고리즘 | 의료 | 유전자 | Cosine Distance

  • moneyIcon 상금 1,000만 원
  • 815명 마감

 

1000 Genomes 변이 데이터 기반 DNA-BERT-6 파인튜닝

2025.12.29 16:51 517 조회 language

DNA-BERT-6 모델을 1000 Genomes Phase 3 데이터로 파인튜닝하여 DNA 서열 임베딩을 생성하는 코드입니다.

 데이터 준비
- 1000 Genomes chr1 VCF에서 SNV(단일염기변이) 추출
- 각 변이 위치를 중심으로 1024bp window로 reference/variant 서열쌍 생성
- 총 50,000개 서열쌍 사용

 학습 방법
- 6-mer 토큰화 후 DNA_bert_6 모델 입력
- Contrastive Loss(margin=0.7): ref/alt 임베딩을 멀리 배치
- DDP 멀티 GPU 학습 (8 GPUs)
- 200 epochs, CosineAnnealingWarmRestarts (T0=50)
- Mixed Precision + Gradient Accumulation (effective batch=128)

 제출 파일 생성
- test.csv의 각 서열을 mean pooling 임베딩으로 변환
- submission_finetuned_50000_200epoch.csv 저장

실행 환경
- PyTorch DDP
- transformers, biopython, pandas

코드