제1회 신약개발 AI 경진대회

알고리즘 | 분자 구조 | 정형 | 회귀 | 바이오 | RMSE

  • moneyIcon Prize : 2,900만원
  • 1,685명 마감

 

데이터 관련 질문

2023.08.08 12:13 2,268 Views

train, test 데이터에 중복 데이터가 있습니다.


  • trainset의 경우 stereochemistry에 따라 두번씩 실험한 결과일까요?

SMILES에 stereochemistry가 표기가 안되어있습니다.

testset도 두개씩 있는 데이터가 있는데, 이 경우 평가할 때 두번씩 반영되는건가요?

  • trainset과 testset에 겹치는 화합물이 있습니다. TRAIN_1064 = TEST_021, TRAIN_2047 = TEST_480
  • MLM, HLM 측정 값은 무엇인가요? half-life인가요?

[trainset]


[testset]

로그인이 필요합니다
0 / 1000
DACON.SeungYoon
2023.08.08 14:06

안녕하세요, 자고생각 님
문의사항에 대한 주최측 답변을 전달드립니다:
1) 해당 데이터는 Stereo Isomer는 아니고, 두 번 실험된 동일 화합물인 경우가 포함되어 있습니다.
실험과정 중에 발생할 수 있는 데이터를 처리하는 방법도 문제의 일부로 출제하였습니다.
2) HLM 및 MLM은  간 및 마우스의 간 대사효소와 화합물을 30분 동안 반응시킨 후,
대사되지 않고 남아있는 화합물의 양을(%) LC-MS/MS로 측정함으로써 화합물의 간 대사효소에 대한 안정성을 평가한 데이터입니다.
감사합니다.

kerobro
2023.08.08 15:20

trainset / testset 겹치는 화합물도 데이터 처리 문제인가요.??

DACON.SeungYoon
2023.08.08 18:47

안녕하세요, 자고생각 님
주최측 의견에 따라 데이터셋을 재배포 하기로 결정했습니다.
상세한 사항은 다음 공지를 참고하시길 바랍니다:
https://dacon.io/competitions/official/236127/talkboard/409039?page=1&dtype=recent
또한 데이터의 이슈사항에 대해 신속히 제보해 주셔서 감사합니다.
감사합니다.

DACON.SeungYoon
2023.08.08 18:47

삭제된 댓글입니다