분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
1000 Genomes 변이 데이터 기반 DNA-BERT-6 파인튜닝
DNA-BERT-6 모델을 1000 Genomes Phase 3 데이터로 파인튜닝하여 DNA 서열 임베딩을 생성하는 코드입니다.
데이터 준비
- 1000 Genomes chr1 VCF에서 SNV(단일염기변이) 추출
- 각 변이 위치를 중심으로 1024bp window로 reference/variant 서열쌍 생성
- 총 50,000개 서열쌍 사용
학습 방법
- 6-mer 토큰화 후 DNA_bert_6 모델 입력
- Contrastive Loss(margin=0.7): ref/alt 임베딩을 멀리 배치
- DDP 멀티 GPU 학습 (8 GPUs)
- 200 epochs, CosineAnnealingWarmRestarts (T0=50)
- Mixed Precision + Gradient Accumulation (effective batch=128)
제출 파일 생성
- test.csv의 각 서열을 mean pooling 임베딩으로 변환
- submission_finetuned_50000_200epoch.csv 저장
실행 환경
- PyTorch DDP
- transformers, biopython, pandas
DACON Co.,Ltd | CEO Kookjin Kim | 699-81-01021
Mail-order-sales Registration Number: 2021-서울영등포-1704
Business Providing Employment Information Number: J1204020250004
#901, Eunhaeng-ro 3, Yeongdeungpo-gu, Seoul 07237
E-mail dacon@dacon.io |
Tel. 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved