분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
제1회 신약개발 AI 경진대회
[DACON 답변 요청] train 데이터 신뢰 질문
train data에는 27쌍의 중복 데이터가 있습니다(첨부 이미지 참고).
첨부 이미지를 살펴보면,
SMILES, AlogP, LogD, Molecular_Weight, Num_H_Acceptors, Num_H_Donors, Num_RotatableBonds, Molecular_PolarSurfaceArea
등 물성이 완전히 같은 물질에 대해서 MLM과 HLM은 큰 차이를 보입니다.
중복 데이터인데 각각의 값이 많게는 수십배 가량 차이가 큽니다.
MLM과 HLM는 실험 측정값으로써 측정 오차를 감안하더라도
전체 데이터셋이 많은 것도 아닌데 무려 27쌍이나 큰 오류가 있다면, 나머지 중복이 아닌 train data의 MLM과 HLM 또한 신뢰하기 어렵다고 생각합니다.
train data의 MLM과 HLM가 신뢰할 수 있는 값인지 주최 측의 답변 요청합니다.
데이터의 신뢰성 확보를 위해, 실험의 대조물질 (대사되는 알려진 화합물)과 함께 테스트 물질은 3반복 실험을 수행하였고
평균±편차로 제공되어야 하지만, 데이터의 간소화를 위해 평균값만 제공하였습니다.
몇몇 데이터는 실험적 오차가 발생한 것으로 예측됩니다.
- 평균값을 제공했다고 말씀하셨는데, 타겟값이 크게다른 중복된 인스턴스들이 존재하는것이 이해가 잘 안됩니다. 각각이 3회 반복 실험을 진행했음에도 차이가 커 두가지 수치를 그냥 제공한것인지, 평균값 구하는 과정에서 발생한 실수인지 여쭈어봅니다.
추가로 편차 정보를 제공해주실 수 있는지 여쭈어 봅니다.
안녕하세요, sebastian_bae 님
주최측 답변을 전달드립니다:
제공된 대사안정성 데이터 값은 각각 n수를 3으로 하여 평균을 낸 것이며
MLM에서는 5% 이내, HLM에서는 10% 이내의 값이 나오는지 확인하였으므로, 편차는 제공하지 않습니다.
중복 값은 배치가 다른 실험에 대한 값입니다.
각 배치마다 reference 물질을 사용하여 확인하였으므로 실험계 전체의 오류는 없으나 batch 중 한 실험은 오류가 있는 것으로 예측되고,
그와같은 데이터가 포함될 가능성은 항상 있으므로 그러한 데이터의 처리가 중요하여 경진대회에 포함하였습니다.
감사합니다.
안녕하세요
'각 배치마다 reference 물질을 사용하여 확인하였으므로 실험계 전체의 오류는 없으나 batch 중 한 실험은 오류가 있는 것으로 예측되고, '
라고 말씀해주셨는데, batch 중 한 실험은 오류가 있는 것으로 예측된다는 것이 무슨 데이터를 가리키는 것인지 말씀해주실 수 있으신가요?
안녕하세요, 용용죽겠지 님
주최측에서 밝힌 바와 같이,
실험과정 중에 발생할 수 있는 오류와 편차를 포함하여 데이터를 전처리하는 방법도 문제의 일부로서,
데이터에 존재하는 Noise에 대해서는 명시적으로 밝히고 있지 않습니다.
감사합니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
안녕하세요, 여름이오빠 님
주최측 답변을 전달드립니다:
본 데이터는 생물학적 재료를 활용한 실험으로써,
동일 실험 조건이라도 실험 결과는 대사효소의 활성 정도나 반응 시간의 미세한 차이 등 여러가지 요인들에 편차가 발생합니다.
데이터의 신뢰성 확보를 위해, 실험의 대조물질 (대사되는 알려진 화합물)과 함께 테스트 물질은 3반복 실험을 수행하였고
평균±편차로 제공되어야 하지만, 데이터의 간소화를 위해 평균값만 제공하였습니다.
몇몇 데이터는 실험적 오차가 발생한 것으로 예측됩니다.
배포된 데이터에는, 실험과정에서 발생할 수 있는 다양한 오류가 반영되어 있습니다.
실험과정 중에 발생할 수 있는 오류와 편차를 포함하여 데이터를 전처리하는 방법도 데이터 분석에 중요하기 때문에,
문제의 일부로 포함하였습니다.
감사합니다.