분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
분자구조 이미지 SMILES 변환 AI 경진대회
Deepsmiles로 모델 학습 및 smiles추론 시도해 보신 분 계신가요?
train loss와 validation loss는 smiles보다 잘 떨어지는데 막상 validation similarity나 test similarity는 잘 안나오는 기현상..
잘 되시는 분 계신가 해서 여쭤봅니다.
좋은 답변 감사합니다!
DECIMER 논문에서는 DeepSMILES가 분명히 더 우수하다고 밝혔는데 꼭 그렇지만은 않을 수도 있나 보네요. 아니면 뭔가 놓친 부분이 있을 지도 모르겠습니다. 그리고 deepsmiles로 변환하면 오히려 길이가 아래와 같이 늘어나네요..
CC(=CC1=CC(=C(C=C1)NC(=O)C)OC)C(=O)O
CC=CC=CC=CC=C6))NC=O)C))))OC))))))C=O)O
COC1=C(C=C(C=C1)/C=C/2\C(=O)N(C3CCCCC3S2)CC(=O)NCC4=CC=C(C=C4)F)Br
COC=CC=CC=C6))/C=C\C=O)NCCCCCC6S\%10)))))))CC=O)NCC=CC=CC=C6))F)))))))))))))))Br
CC(C)(C(=O)C1=CC=C(C=C1)CCO)O.C(CO)N
CCC)C=O)C=CC=CC=C6))CCO))))))))O.CCO))N
CC1=C(C=C(C=C1)C(C(=O)O)NC(=O)C(C)OCC2=CC=CC=C2)C
CC=CC=CC=C6))CC=O)O))NC=O)CC)OCC=CC=CC=C6))))))))))))))C
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
안녕하세요. 저도 예전에 시도해봤었는데 반갑습니다..
괄호를 후위표기법으로 하는 등으로 전체적으로 길이가 줄어들게 만드는 이점이 있었지만, 저도 오히려 similarity가 떨어졌었습니다.
아무래로 예측된 deepsmiles 포맷이 맞지 않으면 변환이 안되는 문제가 있기도 하고, 길이는 줄어들었지만 정보가 더 압축되어 오히려 모델이 예측하기 더 어려워지는 것이 원인인 듯 합니다.