2022 AI 대학원 챌린지

LG | 채용 | B-cell | Epitope | Classification | macro-f1

  • moneyIcon 상금 : 총 2,500만원
  • 304명 마감

 

대회 데이터셋 설명 (22.07.08 11:16 업데이트)

2022.07.04 09:54 1,835 조회

1) 데이터셋 설명

  • qualitative label은 참가자 여러분들이 label에 대한 더 상세한 정보로 활용해볼 수 있습니다.(Positive -> Postivie-Low ~ Positive-High)
  • 모델 평가와 예측은 qualitative label이 아닌 Binary classification (0 : Negative, 1 : Positive)인 label 입니다. (Column명 : label)
  • start_position과 end_position은 해당 Antigen 서열에서 Epitope의 시작과 끝 위치를 뜻합니다.
  • 데이터셋의 epitope_seq은 실험한 peptide 서열을 의미하며 실제 linear epitope의 서열은 일반적으로  4~12의 범위를 갖습니다. (예를 들면, epitope_seq의 길이가  50인 데이터가 positive라면 해당 50개 서열 내부에 epitope 서열이 존재한다는 의미입니다.)
  • Number of tested와 responded는 한 데이터 포인트에서 반복 실험한 횟수와 그 중 positive의 횟수를 뜻합니다.
  • Assay_method_technique는 실험 방법입니다.
  • Assay_group은 실험을 통해 확인한 지표입니다.
  • Disease type과 disease state는 질병 정보 입니다.
  • 해당 데이터셋(DB)은 실험 논문의 결과들을 큐레이터가 옮긴 것으로 실험 오류나 기록 오류가 존재할 수 있습니다. (22.07.08 11:16 추가)


2) 참고자료


3) Protein 사전학습모델 관련

  • Protein pretrained model은 UR50(UniRef 50) 데이터셋으로 훈련된 모델만 사용 가능합니다.
로그인이 필요합니다
0 / 1000
논공문장
2022.07.05 09:42

Protein 사전학습 모델 학습에 대회에서 제공하는 학습 데이터도 사용하면 안되나요?

DACONIO
2022.07.05 09:57

안녕하세요 Max Shin님,
Protein 사전학습 모델은 UR50 데이터셋으로 사전 훈련된 Weight만 사용가능하며, 
이 사전학습 모델에 대회에서 제공하는 데이터셋으로 Fine tuning하는 것은 문제 없습니다 :)
감사합니다.

wlsdk
2022.07.06 16:16

안녕하세요!!
외부데이터는 사용불가라고 공지되어있는데,
참고자료에 있는 AAindex와 같은 자료들은 사용할 수 없는건가요?
그렇다면, 오롯이 데이터탭에 제공되는 데이터만을 사용해야 하는건가요?
감사합니다:)

DACONIO
2022.07.06 16:38

안녕하세요 neutro_zina님,

이번 대회는 규칙에 명시된 바와 같이 '외부데이터 사용 금지' 입니다.
따라서 대회 데이터는 대회 데이터 탭으로부터 배포되는 대회용 데이터셋만 사용 가능합니다.

감사합니다.

DACONIO
2022.07.07 09:32

안녕하세요 neutro_zina님,
추가로 답변사항이 있어 답변드립니다.

언급해주신 참고자료의 AAindex의 경우에는 amino acids feature와 관련 된 자료이기 때문에 
외부데이터가 추가되는 것이 아니므로 사용하셔도 무방합니다.

감사합니다.

화이트하임
2022.07.08 00:09

Positive-low, Positive, Positive-high 사이의 관계가 궁금합니다.
Negative < Positive-low < Positive < Positive-high 라는 의미인가요?

DACONIO
2022.07.08 09:19

안녕하세요 화이트하임님,
대부분 맞게 이해하셨지만, Positive는 order 구분이 안되어있는 class입니다.
Positive 대신에 Negative < Positive-Low < Positive-Intermediate < Positive-High의 의미가 맞습니다.
감사합니다.

GDAI초호기
2022.07.08 10:45

positive는 order 구분이 안되어있는 class라는 말은 실제로는 positive-low, positive-intermediate, positive-high 중에 하나라는 의미인가요?

DACONIO
2022.07.08 11:15

안녕하세요 GDAI초호기님,
질문 주신 내용이 맞습니다.
qualitative label은 DB 큐레이터가 원문을 보고 판단하거나 저자에게 문의하여 파악한 값인 '정성적인 Label'로,
Positive는 Positive-Low, Intermediate, High 중 하나에 해당할 수 있지만 확실하게 알 수 없을 때 부여된 값입니다.
감사합니다.

landu
2022.07.12 15:11

sample_submission.csv 파일 제출시 "CSV 파일의 Row Error가 발생하였습니다." 라는 문구가 뜨면서 제출이 안되는데 확인 부탁드립니다.

DACONIO
2022.07.12 15:17

안녕하세요 landu님,
배포되고 있는 sample_submission.csv 파일을 직접 제출하여 확인해본 결과
이상 없이 제출되어 점수가 채점되는 것을 확인하였습니다.
똑같은 현상이 반복되신다면 페이지 새로고침 혹은 캐시 및 쿠키 삭제를 시도한 후 제출해보시는 것을 권장드립니다.
감사합니다.

안녕해요
2022.07.13 14:44

데이터를 확인하는 도중 train 파일에서 156,550 번째 데이터의 start_position과 end_position이 epitope의 position과 차이가 있는 것 같습니다. 확인 부탁드립니다.

DACONIO
2022.07.13 15:06

안녕하세요 안녕해요님,
해당 게시글의 데이터셋 설명과 같이 해당 데이터셋(DB)은 실험 논문의 결과들을 큐레이터가 옮긴 것으로 실험 오류나 기록 오류가 존재할 수 있습니다.
감사합니다.

이전 글
대회 cv - lb 성능에 관하여..
대회 - 2022 AI 대학원 챌린지
좋아요 2
조회 1,199
댓글 5
2년 전
현재 글
대회 데이터셋 설명 (22.07.08 11:16 업데이트)
대회 - 2022 AI 대학원 챌린지
좋아요 16
조회 1,835
댓글 13
2년 전
다음 글
다음 글이 존재하지 않습니다.