분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
SMILES와 sdf 파일이 다른 분자를 나타내는 경우
안녕하세요,
Train set에 train_1814 (sdf에는 cyclobutenedione moiety에 수소 2개가 추가로 붙어있습니다) 를 비롯해 SMILES와 sdf 파일이 나타내는 분자가 다른 경우가 있습니다.
사실 train set은 제외하고 학습시키는 등의 방법이 있겠지만, test set에도 test_159의 경우에 sdf 구조에서 porphyrin ring에 수소 2개가 추가되어 있고, 인접한 benzene ring 중 2개가 cyclohexane ring으로 바뀌어 있습니다.
모델에 SMILES 정보를 사용하는 경우 이 때문에 inference 결과가 다르게 나올 가능성이 있을 것 같습니다. S1/T1 energy를 계산하기 위한 분자 구조를 생성하는 부분을 확인해 주시면 감사하겠습니다. (SMILES에서 나오는 분자 구조의 connectivity나 charge가 잘 고려되는 것인가요?)
또한 test_185의 경우에는 6각형 고리 안에 allene 구조가 들어있어 train set의 대부분의 경우와 다르게 불안정한 분자일 것으로 예상되는데, 불안정한 분자에 대한 예측 또한 평가 요소에 포함되는 것인지도 궁금합니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
안녕하세요. recisic님
답변이 늦어 죄송합니다.
본 대회에서 제공하는 분자들의 S1-T1 gap 은 SMILES로부터 생성된 분자 구조 정보로부터 측정된 것이며 그 과정에서 발생한 log 파일로 부터 3차원 좌표정보 (sdf 파일) 을 생성하였습니다.
질문해주신 case 들은 log 파일에서 sdf 파일의 생성 과정에서 tool 의 오류로 발생한 문제로 보여지며, 따라서 위와 같은 경우에는 SMILES 만 사용하는 것이 맞는 것 같습니다. 그리고 말씀하신 케이스에서 test set 에 포함되는 test_185는 평가 대상에서 제외하도록 하겠습니다.
감사합니다.
데이콘 드림