제2회 Medical AI (MAI) 경진대회

알고리즘 | 의료 | 유전자 | Cosine Distance

  • moneyIcon 상금 1,000만 원
  • 815명 마감

 

DNABERT2 기반 단일 gLM Contrastive Learning으로 유전체 변이 임베딩 생성

공동작성자

stroke
2025.12.26 14:30 595 조회 language

[개요]
본 노트북은 DNABERT2를 backbone으로 사용하여 SNV 환경에서 reference 서열과 variant 서열 간의 표현 차이를 임베딩 공간에서 학습하는 contrastive learning 파이프라인을 구현합니다.

[데이터 구성]
SNV 위치를 기준으로 주변 window 서열을 잘라 (ref_seq, alt_seq) 쌍을 생성합니다.
여러 window size를 사용해 변이 주변 문맥 정보를 반영하며, DNA 방향성 편향을 줄이기 위해 reverse-complement 서열을 함께 사용합니다.

[모델 구조]
각 서열은 DNABERT2 encoder를 통해 인코딩되며, attention mask를 고려한 mean pooling으로 서열 단위 임베딩을 생성합니다.
Encoder 출력(768차원) 뒤에 간단한 projection head(MLP)를 추가하여 contrastive 학습에 적합한 임베딩 공간으로 변환합니다.

[학습 방식]
같은 SNV에서 생성된 ref/alt 서열 임베딩을 positive pair로 설정하고, batch 내 다른 샘플을 negative로 사용하는 InfoNCE 기반 contrastive loss를 적용합니다.
Reverse-complement 서열은 동일 SNV의 또 다른 view로 취급하여 함께 학습합니다.

[Fine-tuning 전략]
전체 backbone을 모두 업데이트하지 않고, 상위 일부 Transformer 레이어와 projection head만 학습하는 partial fine-tuning을 적용하여 학습 안정성과 효율을 확보합니다.

코드