분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
유전자 변이 데이터 값 관련
Ensembl에서 PLPPR4(ENSG00000117600) 의 전사체가 2개 존재하는데 각각 protein sequence length가 715, 657입니다.
API 사용할 때에는 MANE select 와 Ensembl Canonical flag같은 대표 전사체로 가져왔습니다.
그런데 PLPPR4의 경우 변이 값중에 'T747T' 처럼 이미 sequence length를 넘는 데이터가 다른 유전자들에도 상당히 많습니다.
데이터 오류인가요 아니면 전사체 가져오는 기준이 따로 있나요?
데이터에 표시된 변이들은 모두 아미노산 서열의 변이를 나타내는 것으로 이해하고 있습니다. 전사체 버전이 다른 게 아닐까요?
ensembl에서 plppr4의 경우 찾아보니 전사체들 최대 길이가 715인데 변이는 747에서 일어났습니다. 그래서 protein sequence(코딩 영역) 이후인 비코딩 영역이라 짐작합니다.
답변 감사드립니다. 다만 데이터를 얻은 실험의 주석이 ensembl Isoforms에 기반하여 작성되었다는 보장이 없는 것 같습니다. 예시로 아래 사이트 같은 경우 아래에 763 크기의 아미노산이라고 소개합니다. https://www.genecards.org/cgi-bin/carddisp.pl?gene=PLPPR4
실험에 따라서 참고한 Isoforms이 다르기도 하고, 시간에 따라 표준 Isoforms가 바뀌기도 하니, 실험에 대한 추가 정보가 주어지지 않는 이상,, 모든 동형을 역으로 정확히 추정하기가 쉽지 않은 것 같습니다.
저도 비코딩 영역일 가능성을 생각하였습니다. 다만 데이터는 아미노산 서열의 변화를 나타나고 있으므로 비코딩 영역에서 염기 돌연변이가 발생했더라도 아미노산 돌연변이 주석이 달리지 않아야한다고 생각합니다. 데이터에서 HBBP1 같은 단백질을 생성하지 않는 비활성화된 유전자(pseudogene)나, XIST 같은 lncRNA는 모두 WT로 주석이 달려있는 점을 확인할 수 있습니다.
가뭄에 단비같은 답글 감사드립니다. 도메인 지식이 전무하였는데 덕분에 시간을 아끼게 되었습니다. 감사합니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io |
전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
아 이제 보니까 비코딩 영역의 변이이겠군요.