분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
1000 Genomes 변이 데이터 기반 DNA-BERT-6 파인튜닝
DNA-BERT-6 모델을 1000 Genomes Phase 3 데이터로 파인튜닝하여 DNA 서열 임베딩을 생성하는 코드입니다.
데이터 준비
- 1000 Genomes chr1 VCF에서 SNV(단일염기변이) 추출
- 각 변이 위치를 중심으로 1024bp window로 reference/variant 서열쌍 생성
- 총 50,000개 서열쌍 사용
학습 방법
- 6-mer 토큰화 후 DNA_bert_6 모델 입력
- Contrastive Loss(margin=0.7): ref/alt 임베딩을 멀리 배치
- DDP 멀티 GPU 학습 (8 GPUs)
- 200 epochs, CosineAnnealingWarmRestarts (T0=50)
- Mixed Precision + Gradient Accumulation (effective batch=128)
제출 파일 생성
- test.csv의 각 서열을 mean pooling 임베딩으로 변환
- submission_finetuned_50000_200epoch.csv 저장
실행 환경
- PyTorch DDP
- transformers, biopython, pandas
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io |
전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved