2024 Bio-resource AI Competition : AI Algorithm Track

Algorithm | Genome | Tabular | Classification | Biology | Macro F1 Score

 

[dic 스압주의] WT가 아닌 value만 모아둔 dictionary

2024.09.24 01:03 3,315 Views language

안녕하세요. EDA중 모든 컬럼의 대부분이 "WT"라는 Value 임을 확인했습니다.
따라서 WT가 아닌 값(즉, 변이)들이 뭐가 있는 지 찾아보던 중 이를 dictionary 로 만들어놓고 ctrl + f 로 찾아보면 좋겠다 싶어서 공유드립니다.
만약 특정 컬럼 중 WT가 아닌 value가 궁금하다면 아래에서 찾아보시면 좋을 것 같습니다.

작성중 새롭게 알게된 사실은 다음과 같습니다.
1. 변이는 각 유전자별로 하나만 일어나는 것은 아니다.(여러 변이가 있을 수 있음)
2. 변이 중 이상치가 존재한다. - 사실 도메인지식이 없어 이상치인지는 모릅니다만, 특정변이가 너무 긴 것을 눈으로 확인했습니다.

다들 파이팅~~!!

Code
Login Required
0 / 1000
동선생
2024.09.27 17:26

좋은 코드 공유 감사합니다. 제가 아는 한에서 말씀드립니다.
0. WT 는 Wild Type, 즉 변이가 없는 자연상태 유전자를 말합니다.
1. 현재 주어진 변이는 단백질 수준에서의 아미노산 변이입니다. 하나의 단백질은 여러 개의 아미노산으로 구성되므로, 하나의 유전자는 다양한 변이를 가질 수 있습니다.
2. 어떤 이상치인지 보진 못했지만, 아미노산 변이 명명법은  {WT 아미노산}{변이위치}{MT 아미노산} 입니다. 따라서, 큰 단백질의 아미노산 사슬 말단부 근처의 변이에서는, 중간 int 변이위치 가 매우 긴 변이도 있을 수 있을 것 같습니다.

진현림
2024.09.27 18:05

좋은 인사이트 공유 주셔서 감사합니다. 저의 부족한 도메인 지식에서 이상치라고 생각했던 부분을 공유드릴게요.

저는 TTK컬럼중에 아래와 같은 value가 있음을 확인했습니다.(하나의 value입니다.)
 'K857delinsNDLQLFVMSDTTYKIYWTVILLNPCGNLHLKTTSL K856delinsNDLQLFVMSDTTYKIYWTVILLNPCGNLHLKTTSL'


저는 이게 다른 value보다 길어서 이상치라고 생각했었는데, 말씀해주신 내용을 바탕으로 추가적인 조사를 해봤습니다.
이는 아래와 같이 해석 가능할 것 같아요.

K857delinsNDLQLFVMSDTTYKIYWTVILLNPCGNLHLKTTS
원래 아미노산 (WT): K (라이신)
변이 위치: 857
변이 유형: delins (결실-삽입)
새로운 아미노산 서열 (MT): NDLQLFVMSDTTYKIYWTVILLNPCGNLHLKTTS

K856delinsNDLQLFVMSDTTYKIYWTVILLNPCGNLHLKTTSL
원래 아미노산 (WT): K (라이신)
변이 위치: 856
변이 유형: delins (결실-삽입)
새로운 아미노산 서열 (MT): NDLQLFVMSDTTYKIYWTVILLNPCGNLHLKTTSL
 
전처리과정에서 변이유형이 포함된 경우도 있는 것 같아, 이점에 유의하여 진행하면 좋을 것 같아요!! 감사합니다.