분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
유전체 변이의 병원성 예측을 위한 대조학습 기반의 거리 학습 방법론
해당 코드는 유전체 서열(DNA) 기반의 사전학습 모델(Nucleotide Transformer)을 활용하여, 유전자 변이(Variant)가 '병원성(Pathogenic)'인지 '양성(Benign)'인지를 구분하도록 파인튜닝을 진행합니다.
단순 분류(Classification) 모델이 아니라, Contrastive Learning(대조 학습) 방식을 사용하여 Reference 서열과 Variant 서열 간의 임베딩 거리를 조절하는 방식이 핵심입니다.
1. 전체적인 목표
이 코드의 목적은 "정상 유전자 서열(Reference)"과 "변이가 일어난 서열(Variant)" 쌍을 모델에 넣었을 때
변이가 양성(Benign)이라면두 서열의 임베딩 거리를 가깝게 만들고, 변이가 병원성(Pathogenic)이라면 두 서열의 임베딩 거리를 멀게 만드는 것입니다.
2. 핵심 로직 상세 분석
모델: InstaDeepAI/nucleotide-transformer-v2-500m-multi-species라는 고성능 유전체 언어 모델을 사용했습니다.
3. 데이터
소스: ClinVar 데이터셋 (clinvar_train.csv, clinvar_val.csv)을 사용했습니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io |
전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved