2024 생명연구자원 AI활용 경진대회 : 인공지능 활용 부문

알고리즘 | 유전체 | 정형 | 분류 | 바이오 | Macro F1 Score

 

유전자 변이 데이터 값 관련

2024.10.08 16:05 1,290 조회

Ensembl에서 PLPPR4(ENSG00000117600) 의 전사체가 2개 존재하는데 각각 protein sequence length가 715, 657입니다.

API 사용할 때에는 MANE select 와  Ensembl Canonical flag같은 대표 전사체로 가져왔습니다.

그런데 PLPPR4의 경우 변이 값중에 'T747T' 처럼 이미 sequence length를 넘는 데이터가 다른 유전자들에도 상당히 많습니다.

데이터 오류인가요 아니면 전사체 가져오는 기준이 따로 있나요?


로그인이 필요합니다
0 / 1000
Simon_Beck
2024.10.08 16:13

아 이제 보니까 비코딩 영역의 변이이겠군요. 

ti_esti
2024.10.09 04:24

데이터에 표시된 변이들은 모두 아미노산 서열의 변이를 나타내는 것으로 이해하고 있습니다. 전사체 버전이 다른 게 아닐까요?

Simon_Beck
2024.10.09 07:22

ensembl에서 plppr4의 경우 찾아보니 전사체들 최대 길이가 715인데 변이는 747에서 일어났습니다. 그래서 protein sequence(코딩 영역) 이후인 비코딩 영역이라 짐작합니다.

ti_esti
2024.10.09 15:17

답변 감사드립니다. 다만 데이터를 얻은 실험의 주석이 ensembl Isoforms에 기반하여 작성되었다는 보장이 없는 것 같습니다. 예시로 아래 사이트 같은 경우 아래에 763 크기의 아미노산이라고 소개합니다.  https://www.genecards.org/cgi-bin/carddisp.pl?gene=PLPPR4  

실험에 따라서 참고한 Isoforms이 다르기도 하고, 시간에 따라 표준 Isoforms가 바뀌기도 하니, 실험에 대한 추가 정보가 주어지지 않는 이상,, 모든 동형을 역으로 정확히 추정하기가 쉽지 않은 것 같습니다.

저도 비코딩 영역일 가능성을 생각하였습니다. 다만 데이터는 아미노산 서열의 변화를 나타나고 있으므로 비코딩 영역에서 염기 돌연변이가 발생했더라도 아미노산 돌연변이 주석이 달리지 않아야한다고 생각합니다. 데이터에서 HBBP1 같은 단백질을 생성하지 않는 비활성화된 유전자(pseudogene)나, XIST 같은 lncRNA는 모두 WT로 주석이 달려있는 점을 확인할 수 있습니다. 

Simon_Beck
2024.10.09 18:13

가뭄에 단비같은 답글 감사드립니다. 도메인 지식이 전무하였는데 덕분에 시간을 아끼게 되었습니다. 감사합니다.