Samsung AI Challenge for Scientific Discovery

알고리즘 | NLP | 회귀 | 물성 | MAE

  • moneyIcon Prize : 총 1,400만원
  • 960명 마감

 

SMILES와 sdf 파일이 다른 분자를 나타내는 경우

2021.09.06 17:28 1,458 Views

안녕하세요,

Train set에 train_1814 (sdf에는 cyclobutenedione moiety에 수소 2개가 추가로 붙어있습니다) 를 비롯해 SMILES와 sdf 파일이 나타내는 분자가 다른 경우가 있습니다.

사실 train set은 제외하고 학습시키는 등의 방법이 있겠지만, test set에도 test_159의 경우에 sdf 구조에서 porphyrin ring에 수소 2개가 추가되어 있고, 인접한 benzene ring 중 2개가 cyclohexane ring으로 바뀌어 있습니다.



모델에 SMILES 정보를 사용하는 경우 이 때문에 inference 결과가 다르게 나올 가능성이 있을 것 같습니다. S1/T1 energy를 계산하기 위한 분자 구조를 생성하는 부분을 확인해 주시면 감사하겠습니다. (SMILES에서 나오는 분자 구조의 connectivity나 charge가 잘 고려되는 것인가요?)

또한 test_185의 경우에는 6각형 고리 안에 allene 구조가 들어있어 train set의 대부분의 경우와 다르게 불안정한 분자일 것으로 예상되는데, 불안정한 분자에 대한 예측 또한 평가 요소에 포함되는 것인지도 궁금합니다.

로그인이 필요합니다
0 / 1000
DACONIO
2021.12.21 15:11

안녕하세요. recisic님

답변이 늦어 죄송합니다.
본 대회에서 제공하는 분자들의 S1-T1 gap 은 SMILES로부터 생성된 분자 구조 정보로부터 측정된 것이며 그 과정에서 발생한 log 파일로 부터 3차원 좌표정보 (sdf 파일) 을 생성하였습니다.
질문해주신 case 들은 log 파일에서 sdf 파일의 생성 과정에서 tool 의 오류로 발생한 문제로 보여지며, 따라서 위와 같은 경우에는 SMILES 만 사용하는 것이 맞는 것 같습니다. 그리고 말씀하신 케이스에서 test set 에 포함되는 test_185는 평가 대상에서 제외하도록 하겠습니다.

감사합니다.
데이콘 드림