분자구조 이미지 SMILES 변환 AI 경진대회

Deepsmiles로 모델 학습 및 smiles추론 시도해 보신 분 계신가요?

2020.11.05 16:26 5,758 Views

train loss와 validation loss는  smiles보다 잘 떨어지는데 막상 validation similarity나 test similarity는 잘 안나오는 기현상..


잘 되시는 분 계신가 해서 여쭤봅니다.

로그인이 필요합니다
0 / 1000
bbchip13
2020.11.09 23:00

안녕하세요. 저도 예전에 시도해봤었는데 반갑습니다..
괄호를 후위표기법으로 하는 등으로 전체적으로 길이가 줄어들게 만드는 이점이 있었지만, 저도 오히려 similarity가 떨어졌었습니다.
아무래로 예측된 deepsmiles 포맷이 맞지 않으면 변환이 안되는 문제가 있기도 하고, 길이는 줄어들었지만 정보가 더 압축되어 오히려 모델이 예측하기 더 어려워지는 것이 원인인 듯 합니다.

앙창
2020.11.10 06:19

좋은 답변 감사합니다!
DECIMER 논문에서는 DeepSMILES가 분명히 더 우수하다고 밝혔는데 꼭 그렇지만은 않을 수도 있나 보네요. 아니면 뭔가 놓친 부분이 있을 지도 모르겠습니다.  그리고 deepsmiles로 변환하면 오히려 길이가 아래와 같이 늘어나네요..

CC(=CC1=CC(=C(C=C1)NC(=O)C)OC)C(=O)O
CC=CC=CC=CC=C6))NC=O)C))))OC))))))C=O)O

COC1=C(C=C(C=C1)/C=C/2\C(=O)N(C3CCCCC3S2)CC(=O)NCC4=CC=C(C=C4)F)Br
COC=CC=CC=C6))/C=C\C=O)NCCCCCC6S\%10)))))))CC=O)NCC=CC=CC=C6))F)))))))))))))))Br

CC(C)(C(=O)C1=CC=C(C=C1)CCO)O.C(CO)N
CCC)C=O)C=CC=CC=C6))CCO))))))))O.CCO))N

CC1=C(C=C(C=C1)C(C(=O)O)NC(=O)C(C)OCC2=CC=CC=C2)C
CC=CC=CC=C6))CC=O)O))NC=O)CC)OCC=CC=CC=C6))))))))))))))C