The 2nd Medical AI (MAI) Competition

Algorithm | Medical | Gene | Cosine Distance

  • moneyIcon Prize : 10,000,000 KRW
  • 248 Users D-24 to Close

[배경]

인공지능(AI) 기술을 활용하여 사전에 제공된 의료 데이터를 기반으로 한 문제 해결을 목표로 하는 ‘제 2회 MAI(Medical Artificial Intelligence) 경진대회’를 개최합니다.

이번 대회의 핵심 목표는 유전체 언어모델(gLM, Genomic Language Model)의 표현 학습 역량을 고도화하고,

복잡한 유전체 서열 데이터를 효율적으로 임베딩(embedding) 벡터로 변환하여 작은 유전 변이(SNP, indel 등) 를 얼마나 민감하게 포착할 수 있는지를 검증하는 데 있습니다.


gLM은 DNA 염기서열(A, C, G, T)을 단어처럼 토큰화하여 학습하는 언어모델로, 생물학적 서열의 의미적 패턴을 내재적으로 학습합니다.

그러나 실제 응용 단계에서는 한 염기가 바뀌는 single nucleotide variant(SNV) 와 같은 미세한 변이를 잘 구분하지 못하는 경우가 있습니다.

이에 이번 대회에서는 이러한 한계를 정량적으로 평가하고, “모델이 변이를 얼마나 예민하게 감지할 수 있는가”를 실험적으로 확인하는 것을 목표로 합니다.


이를 통해 유전체 데이터의 활용도를 높이고, 이를 통해 정밀의료 및 변이 해석 분야에서의 AI 적용 가능성을 극대화하며,

인공지능 연구자들의 연구개발 의지를 더욱 고취할 수 있도록 기획되었습니다.


[주제]

유전체 언어모델(gLM)의 변이 민감도 개선 및 성능 평가


[설명]

참가자는 제공된 유전체 염기서열을 직접 개발한 gLM 또는 사전학습 gLM(파인튜닝 가능)으로 임베딩하여 제출합니다.

내부적으로 매핑된 reference–variant 쌍 정보를 바탕으로 각 쌍의 코사인 거리(cosine distance)를 기반으로

모델이 동일 유전 영역 내의 작은 변이를 얼마나 민감하게 구분했는지를 정량적으로 평가합니다.


즉, 참가자는 ref/variant 여부를 모른 채, 순수한 염기서열(seq) 정보만으로 임베딩을 생성해야 하며,

모델의 임베딩 표현이 작은 변이에 민감한(gLM variant-sensitive) 특성을 가지도록 설계하는 것이 핵심 과제입니다.

🔹 모든 서열의 임베딩 벡터는 동일한 차원을 가져야 하며, 최대 2,048 차원 수로 제한



[주최 / 주관 / 운영]

  • 주최/주관: 고려대학교 의과대학, 고려대학교 BK21 융합중개의과학교육연구단, 학석사연계ICT핵심인재양성, AI+X 현장 실무형 디지털바이오 글로벌 융합인재양성
  • 후원 : 에스엔에이, 대구경북첨단의료산업진흥재단
  • 운영: 데이콘


[참가 대상]

국내 소재 대학(원) 재학생 또는 수료등록생

※ 휴학생, 졸업유예생, 수료생 참가 가능

Main Event Schedule

  1. 10.02

    Start Date

  2. 10.31

    Team Merger Deadline

  3. 10.31

    Close

  4. Invalid Date

    Submission Deadline

[배경]

인공지능(AI) 기술을 활용하여 사전에 제공된 의료 데이터를 기반으로 한 문제 해결을 목표로 하는 ‘제 2회 MAI(Medical Artificial Intelligence) 경진대회’를 개최합니다.

이번 대회의 핵심 목표는 유전체 언어모델(gLM, Genomic Language Model)의 표현 학습 역량을 고도화하고,

복잡한 유전체 서열 데이터를 효율적으로 임베딩(embedding) 벡터로 변환하여 작은 유전 변이(SNP, indel 등) 를 얼마나 민감하게 포착할 수 있는지를 검증하는 데 있습니다.


gLM은 DNA 염기서열(A, C, G, T)을 단어처럼 토큰화하여 학습하는 언어모델로, 생물학적 서열의 의미적 패턴을 내재적으로 학습합니다.

그러나 실제 응용 단계에서는 한 염기가 바뀌는 single nucleotide variant(SNV) 와 같은 미세한 변이를 잘 구분하지 못하는 경우가 있습니다.

이에 이번 대회에서는 이러한 한계를 정량적으로 평가하고, “모델이 변이를 얼마나 예민하게 감지할 수 있는가”를 실험적으로 확인하는 것을 목표로 합니다.


이를 통해 유전체 데이터의 활용도를 높이고, 이를 통해 정밀의료 및 변이 해석 분야에서의 AI 적용 가능성을 극대화하며,

인공지능 연구자들의 연구개발 의지를 더욱 고취할 수 있도록 기획되었습니다.


[주제]

유전체 언어모델(gLM)의 변이 민감도 개선 및 성능 평가


[설명]

참가자는 제공된 유전체 염기서열을 직접 개발한 gLM 또는 사전학습 gLM(파인튜닝 가능)으로 임베딩하여 제출합니다.

내부적으로 매핑된 reference–variant 쌍 정보를 바탕으로 각 쌍의 코사인 거리(cosine distance)를 기반으로

모델이 동일 유전 영역 내의 작은 변이를 얼마나 민감하게 구분했는지를 정량적으로 평가합니다.


즉, 참가자는 ref/variant 여부를 모른 채, 순수한 염기서열(seq) 정보만으로 임베딩을 생성해야 하며,

모델의 임베딩 표현이 작은 변이에 민감한(gLM variant-sensitive) 특성을 가지도록 설계하는 것이 핵심 과제입니다.

🔹 모든 서열의 임베딩 벡터는 동일한 차원을 가져야 하며, 최대 2,048 차원 수로 제한



[주최 / 주관 / 운영]

  • 주최/주관: 고려대학교 의과대학, 고려대학교 BK21 융합중개의과학교육연구단, 학석사연계ICT핵심인재양성, AI+X 현장 실무형 디지털바이오 글로벌 융합인재양성
  • 후원 : 에스엔에이, 대구경북첨단의료산업진흥재단
  • 운영: 데이콘


[참가 대상]

국내 소재 대학(원) 재학생 또는 수료등록생

※ 휴학생, 졸업유예생, 수료생 참가 가능

Main Event Schedule

  1. 10.02

    Start Date
  2. 10.31

    Team Merger Deadline
  3. 10.31

    Close
  4. Invalid Date

    Submission Deadline