분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
ChemBERT를 활용한 코드 일부 | public 51위 private 21위
Hugging-face에서 ChemBERT BackBone을 활용할 수 있는 코드 중 일부를 가져왔습니다.
모델, feature 획득, 데이터 셋 구성하는 법을 py file에서 긁어왔습니다.
해당 버전의 단점이라고 하면 tokenizer가 BERT와는 다르게 실제적인 배치를 1로만 사용할 수밖에 없다인데,
그건 accumulate_grad_batches를 활용해서 effective batch size를 키우면 되는 일이라 문제가 되지는 않았습니다.
제목에 있는 기록은 'DeepChem/ChemBERTa-77M-MTR' archieve를 사용하고, molecualr property는 대회에서 주어진 것만을 사용했을 때 획득했습니다. 1e-5의 낮은 learning rate, AdamP, cosineLR scheduler를 사용했습니다.
그 외)
*해당 코드의 일부는 GCN을 만들어서 사용하실 수도 있습니다. 그런데 참가자분들이 공통적으로 말씀해주시는 내용대로, GCN 기반의 코드로 학습시켰을때는 33 이하를 기록하기 어려웠습니다.
*atomic&molecular feature의 사용은 mendeleeve, rdkit, deepchem 그리고 pubchempy까지는 확인을 해보았는데 다른 건 확인을 안해보았습니다.
*ChemBERT에서 획득된 임베딩을 molecular와 합쳐서 다음 레이어에 제공할 때, 해당 입력을 받는 아키텍쳐에 대해서 깊게 실험하지 않았습니다.
이러한 molecular 데이터는 augmentation을 어떻게 하는지, 전처리 방법은 어떻게 수행되어야 하는지 저보다 상위권에 계신 분들의 방법도 공유되면 좋겠네요.
9월26일 수정)
private 보드를 지금 확인했는데 생각보다 순위가 높네요.
제 생각이지만, 모델 사이즈 최대한 키우지 않는 방향으로 접근했던게 도움이 되었던 것 같습니다.
감사합니다.
from utils import chem 말씀하시는 거라면 utils 디렉토리 안에 chem.py를 두었고 해당 파일은 두번째 코드입니다. (Chemical_feature_generator class 있는 코드)
감사합니다!!
데이터 분석에서 도움을 많이 받았습니다. 감사합니다!!
도움이 되었다니 다행입니다. 좋은 결과로 이어지면 좋겠습니다. 얻게된 인사이트도 공유해주실 수 있다면 부탁드립니다.
MLM과 HLM의 피처를 각자 특성에 맞게 바꿔주면 저는 성능이 조금더 오르더라구요.
저도 대회 초반에는 각 타겟마다 모델을 따로 두어서 single label prediction을 수행했는데, 두 값이 연관성이 없는 값이 아니라 생각해서 multi-label prediction하는 모델을 사용했었습니다. 마지막에 제출했던 방법론을 기반으로 따로따로도 해볼 걸 그랬네요. 공유 감사합니다.
많은 도움이 되었습니다.!!
재현을 해보고 싶은데, 모델은 처음에 써주신 ChemBERT 의 out_dim을 2로 설정해 MLM, HLM을 학습하고
concat 되는 feature는 기본 제공된 7개가 맞을까요?
안녕하세요, 답변이 좀 늦었습니다.
맞습니다. 전체 클래스의 out_dim을 2로 설정해서MLM, HLM을 동시에 예측할 수 있도록 했습니다.
리더보드에 기록된 스코어는 기본으로 제공된 molecular feature만 사용한 것도 맞습니다.
코드 공유 감사합니다.
달성하는 public score는 single model로 달성하신 걸까요? 아니면 multi model ensemble을 쓰신 걸까요?
안녕하세요, 답변이 좀 늦었습니다.
multi-model ensemble을 통해 획득한 모델입니다. (9 fold CV)
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io |
전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
감사합니다!! 혹시 utils 가 따로있나요?