분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
DNABERT2 기반 단일 gLM Contrastive Learning으로 유전체 변이 임베딩 생성
공동작성자
[개요]
본 노트북은 DNABERT2를 backbone으로 사용하여 SNV 환경에서 reference 서열과 variant 서열 간의 표현 차이를 임베딩 공간에서 학습하는 contrastive learning 파이프라인을 구현합니다.
[데이터 구성]
SNV 위치를 기준으로 주변 window 서열을 잘라 (ref_seq, alt_seq) 쌍을 생성합니다.
여러 window size를 사용해 변이 주변 문맥 정보를 반영하며, DNA 방향성 편향을 줄이기 위해 reverse-complement 서열을 함께 사용합니다.
[모델 구조]
각 서열은 DNABERT2 encoder를 통해 인코딩되며, attention mask를 고려한 mean pooling으로 서열 단위 임베딩을 생성합니다.
Encoder 출력(768차원) 뒤에 간단한 projection head(MLP)를 추가하여 contrastive 학습에 적합한 임베딩 공간으로 변환합니다.
[학습 방식]
같은 SNV에서 생성된 ref/alt 서열 임베딩을 positive pair로 설정하고, batch 내 다른 샘플을 negative로 사용하는 InfoNCE 기반 contrastive loss를 적용합니다.
Reverse-complement 서열은 동일 SNV의 또 다른 view로 취급하여 함께 학습합니다.
[Fine-tuning 전략]
전체 backbone을 모두 업데이트하지 않고, 상위 일부 Transformer 레이어와 projection head만 학습하는 partial fine-tuning을 적용하여 학습 안정성과 효율을 확보합니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io |
전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved