제1회 신약개발 AI 경진대회

알고리즘 | 분자 구조 | 정형 | 회귀 | 바이오 | RMSE

  • moneyIcon 상금 : 2,900만원
  • 1,685명 마감

 

[DACON 답변 요청] train 데이터 신뢰 질문

2023.08.29 21:14 2,268 조회

train data에는 27쌍의 중복 데이터가 있습니다(첨부 이미지 참고).


첨부 이미지를 살펴보면, 

SMILES, AlogP, LogD, Molecular_Weight, Num_H_Acceptors, Num_H_Donors, Num_RotatableBonds, Molecular_PolarSurfaceArea

등 물성이 완전히 같은 물질에 대해서 MLM과 HLM은 큰 차이를 보입니다.

중복 데이터인데 각각의 값이 많게는 수십배 가량 차이가 큽니다.


MLM과 HLM는 실험 측정값으로써 측정 오차를 감안하더라도

전체 데이터셋이 많은 것도 아닌데 무려 27쌍이나 큰 오류가 있다면, 나머지 중복이 아닌 train data의 MLM과 HLM 또한 신뢰하기 어렵다고 생각합니다.


train data의 MLM과 HLM가 신뢰할 수 있는 값인지 주최 측의 답변 요청합니다.

PDF
로그인이 필요합니다
0 / 1000
DACON.SeungYoon
2023.08.30 13:57

안녕하세요, 여름이오빠 님
주최측 답변을 전달드립니다:
본 데이터는 생물학적 재료를 활용한 실험으로써,
동일 실험 조건이라도 실험 결과는 대사효소의 활성 정도나 반응 시간의 미세한 차이 등 여러가지 요인들에 편차가 발생합니다.
데이터의 신뢰성 확보를 위해, 실험의 대조물질 (대사되는 알려진 화합물)과 함께 테스트 물질은 3반복 실험을 수행하였고
평균±편차로 제공되어야 하지만, 데이터의 간소화를 위해 평균값만 제공하였습니다.
몇몇 데이터는 실험적 오차가 발생한 것으로 예측됩니다.
배포된 데이터에는, 실험과정에서 발생할 수 있는 다양한 오류가 반영되어 있습니다.
실험과정 중에 발생할 수 있는 오류와 편차를 포함하여 데이터를 전처리하는 방법도 데이터 분석에 중요하기 때문에,
문제의 일부로 포함하였습니다.
감사합니다.

sebastian_bae
2023.08.30 19:48

데이터의 신뢰성 확보를 위해, 실험의 대조물질 (대사되는 알려진 화합물)과 함께 테스트 물질은 3반복 실험을 수행하였고
평균±편차로 제공되어야 하지만, 데이터의 간소화를 위해 평균값만 제공하였습니다.
몇몇 데이터는 실험적 오차가 발생한 것으로 예측됩니다.

- 평균값을 제공했다고 말씀하셨는데, 타겟값이 크게다른 중복된 인스턴스들이 존재하는것이 이해가 잘 안됩니다. 각각이 3회 반복 실험을 진행했음에도 차이가 커 두가지 수치를 그냥 제공한것인지, 평균값 구하는 과정에서 발생한 실수인지 여쭈어봅니다.
 추가로 편차 정보를 제공해주실 수 있는지 여쭈어 봅니다.

DACON.SeungYoon
2023.08.31 10:13

안녕하세요, sebastian_bae 님
주최측 답변을 전달드립니다:
제공된 대사안정성 데이터 값은 각각 n수를 3으로 하여 평균을 낸 것이며 
MLM에서는 5% 이내, HLM에서는 10% 이내의 값이 나오는지 확인하였으므로, 편차는 제공하지 않습니다.
중복 값은 배치가 다른 실험에 대한 값입니다.
각 배치마다 reference 물질을 사용하여 확인하였으므로 실험계 전체의 오류는 없으나 batch 중 한 실험은 오류가 있는 것으로 예측되고, 
그와같은 데이터가 포함될 가능성은 항상 있으므로 그러한 데이터의 처리가 중요하여 경진대회에 포함하였습니다.
감사합니다.

용용죽겠지
2023.09.06 18:42

안녕하세요

'각 배치마다 reference 물질을 사용하여 확인하였으므로 실험계 전체의 오류는 없으나 batch 중 한 실험은 오류가 있는 것으로 예측되고, '

라고 말씀해주셨는데, batch 중 한 실험은 오류가 있는 것으로 예측된다는 것이 무슨 데이터를 가리키는 것인지 말씀해주실 수 있으신가요?

DACON.SeungYoon
2023.09.07 17:34

안녕하세요, 용용죽겠지 님
주최측에서 밝힌 바와 같이,
실험과정 중에 발생할 수 있는 오류와 편차를 포함하여 데이터를 전처리하는 방법도 문제의 일부로서,
데이터에 존재하는 Noise에 대해서는 명시적으로 밝히고 있지 않습니다.
감사합니다.