제1회 신약개발 AI 경진대회

알고리즘 | 분자 구조 | 정형 | 회귀 | 바이오 | RMSE

  • moneyIcon 상금 : 2,900만원
  • 1,690명 마감

 

pytorch GCN(graph convolutional network) + Tabnet End-to-End

2023.09.10 22:39 5,351 조회 language

여러분들은 혹시 GNN(Graph Neural Network)에 대해서 들어보셨나요?
저는 이번 대회를 통해서 처음 접해보았습니다.

기존의 smiles 데이터에 대하여 언어 모델을 기반으로 진행된 연구에 비해
GNN은 그래프 데이터를 보다 직접적으로 인코딩 할수 있다는 장점이 있습니다.

GNN은 스탠포드 대학교에서 만든 pytorch-geometric이라는 프레임워크를 이용하여 쉽게 사용할 수 있었습니다.
특히나 파이토치 기반이라 tabnet과 함께 end-to-end 학습을 진행해 보았습니다.

딥러닝 모델이라 제공된 데이터 개수가 적어서 그런지
아니면 모델링이 잘못된 것인지 훈련 점수는 그리 좋지 않습니다.

GCN과 Tabnet 모델에서 각각 hidden_state를 가져와서 MultiheadAttention 레이어를 통과시킨 후
예측하는 모델입니다.

남은기간 화이팅 하시길 바랍니다!

코드
로그인이 필요합니다
0 / 1000
Topdown
2023.09.11 11:58

잘봤습니다. 저도 gcn gnn 써봤는데 처음 스크래치부터 만드니까 성능이 영 꽝이네요. 

__lia__
2023.09.11 12:16

잘 봐주셔서 감사합니다.
역시 사전학습의 여부가 큰가 보네요..

joker1251
2023.09.11 22:04

저도 gnn 인코더로 feature 추출 해보는 것을 가닥으로 잡고 하고 있는데,
학습이 잘 안되는지 성능이 기대에 못 미치네요

곰퓨타피죤
2023.10.19 20:39

이미 끝난대회지만 코드공부삼아 보고있습니다.
다름이 아니라 죄송한데 혹시 모델 train이후 inference와 제출까지 코드도 수정하신건가요??
Dataset조작코드가 baseline과 다르신것같아 어떻게 고치셨는지 궁금해서 혹시 inference 및 제출코드? 는 어떻게 변경하셨는지 알려주실 수 있으시면 감사하겠습니당ㅎㅎ

__lia__
2023.10.30 17:01

우선 늦게 답변드려서 죄송합니다. 개인적으로 이번 대회에선 결과물을 따로 제출하진 않았습니다.
혹시나 해서 찾아봤는데 모델 추론 단계와 제출에 관해 작성한 코드가 없네요;;
Dataset 코드를 활용하여 MLM, HLM을 제외시키면 테스트 데이터에 대하여 추론할 수 있을것 같습니다.