제2회 Medical AI (MAI) 경진대회

알고리즘 | 의료 | 유전자 | Cosine Distance

상금 1,000만 원
821명 마감

연습

대회안내 데이터 코드 공유 토크 리더보드

제출

유전체 변이의 병원성 예측을 위한 대조학습 기반의 거리 학습 방법론

롱이롱

2025.12.26 12:39 734 조회 language

해당 코드는 유전체 서열(DNA) 기반의 사전학습 모델(Nucleotide Transformer)을 활용하여, 유전자 변이(Variant)가 '병원성(Pathogenic)'인지 '양성(Benign)'인지를 구분하도록 파인튜닝을 진행합니다.

단순 분류(Classification) 모델이 아니라, Contrastive Learning(대조 학습) 방식을 사용하여 Reference 서열과 Variant 서열 간의 임베딩 거리를 조절하는 방식이 핵심입니다.

1. 전체적인 목표
이 코드의 목적은 "정상 유전자 서열(Reference)"과 "변이가 일어난 서열(Variant)" 쌍을 모델에 넣었을 때
변이가 양성(Benign)이라면두 서열의 임베딩 거리를 가깝게 만들고, 변이가 병원성(Pathogenic)이라면 두 서열의 임베딩 거리를 멀게 만드는 것입니다.

2. 핵심 로직 상세 분석
모델: InstaDeepAI/nucleotide-transformer-v2-500m-multi-species라는 고성능 유전체 언어 모델을 사용했습니다.

3. 데이터
소스: ClinVar 데이터셋 (clinvar_train.csv, clinvar_val.csv)을 사용했습니다.

코드