2022 AI 대학원 챌린지

LG | 채용 | B-cell | Epitope | Classification | macro-f1

  • moneyIcon 상금 : 총 2,500만원
  • 304명 마감

 

Amino acid feature로 계산된 Protein 단위의 feature를 추출하는 방법

공동작성자

stroke
2022.07.28 19:05 1,445 조회 language

train data에서, epitope과 antigen의 sequence 정보를 제외하면 적당히 사용 가능한 feature가 많지 않습니다. 이는 tableau 데이터 포맷에서 전통적인 ML 모델(SVM, Random Forest 등)을 사용하는데 어려움으로 다가 오고 있습니다.

대회 측에서 아미노산 단위의 domain 정보는 사용 가능하다고 알려주셨습니다. 따라서 python 라이브러리를 이용하여 Epitope, Antigen 단위의 Heuristic feature를 추출하는 코드를 공유하려고 합니다. 

이 feature들은 Epitope, Antigen을 구성하고 있는 Amino acid별 값들로 계산된 값으로, 대회에서 사용 가능한 heuristic feature입니다. 각각의 Amino acid별 값들은 domain 전문가들의 실험에 의해 부여된 값입니다.(https://web.expasy.org/protscale
이 라이브러리의 모듈에서 제공하는 ProteinAnalysis 클래스에 input으로 Epitope sequence를 넣어주면, 클래스에 정의된 method를 통해 원하는 heuristic feature값을 얻을 수 있습니다. 

얻을 수 있는 feature는 amino acid 개수, amino acid 비율, molecular weight, aromaticity, instability index 등이 있습니다. 몇 가지 feature를 얻을 수 있는 방법의 예시를 아래 코드에 넣어보았습니다.
자세한 정보는 아래의 사이트에서 확인해보실 수 있으며, 조금이라도 도움이 되었으면 좋겠습니다!
https://biopython.org/docs/1.75/api/Bio.SeqUtils.ProtParam.html

코드
로그인이 필요합니다
0 / 1000
섭섭한틀니
2022.07.28 20:39

좋은 정보 공유 감사합니다.

커다란송
2022.07.28 21:26

좋은 정보 감사합니다

안녕해요
2022.07.28 21:28

좋은 정보 공유 감사합니다!