분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
[dic 스압주의] WT가 아닌 value만 모아둔 dictionary
안녕하세요. EDA중 모든 컬럼의 대부분이 "WT"라는 Value 임을 확인했습니다.
따라서 WT가 아닌 값(즉, 변이)들이 뭐가 있는 지 찾아보던 중 이를 dictionary 로 만들어놓고 ctrl + f 로 찾아보면 좋겠다 싶어서 공유드립니다.
만약 특정 컬럼 중 WT가 아닌 value가 궁금하다면 아래에서 찾아보시면 좋을 것 같습니다.
작성중 새롭게 알게된 사실은 다음과 같습니다.
1. 변이는 각 유전자별로 하나만 일어나는 것은 아니다.(여러 변이가 있을 수 있음)
2. 변이 중 이상치가 존재한다. - 사실 도메인지식이 없어 이상치인지는 모릅니다만, 특정변이가 너무 긴 것을 눈으로 확인했습니다.
다들 파이팅~~!!
좋은 인사이트 공유 주셔서 감사합니다. 저의 부족한 도메인 지식에서 이상치라고 생각했던 부분을 공유드릴게요.
저는 TTK컬럼중에 아래와 같은 value가 있음을 확인했습니다.(하나의 value입니다.)
'K857delinsNDLQLFVMSDTTYKIYWTVILLNPCGNLHLKTTSL K856delinsNDLQLFVMSDTTYKIYWTVILLNPCGNLHLKTTSL'
저는 이게 다른 value보다 길어서 이상치라고 생각했었는데, 말씀해주신 내용을 바탕으로 추가적인 조사를 해봤습니다.
이는 아래와 같이 해석 가능할 것 같아요.
K857delinsNDLQLFVMSDTTYKIYWTVILLNPCGNLHLKTTS
원래 아미노산 (WT): K (라이신)
변이 위치: 857
변이 유형: delins (결실-삽입)
새로운 아미노산 서열 (MT): NDLQLFVMSDTTYKIYWTVILLNPCGNLHLKTTS
K856delinsNDLQLFVMSDTTYKIYWTVILLNPCGNLHLKTTSL
원래 아미노산 (WT): K (라이신)
변이 위치: 856
변이 유형: delins (결실-삽입)
새로운 아미노산 서열 (MT): NDLQLFVMSDTTYKIYWTVILLNPCGNLHLKTTSL
전처리과정에서 변이유형이 포함된 경우도 있는 것 같아, 이점에 유의하여 진행하면 좋을 것 같아요!! 감사합니다.
DACON Co.,Ltd | CEO Kookjin Kim | 699-81-01021
Mail-order-sales Registration Number: 2021-서울영등포-1704
Business Providing Employment Information Number: J1204020250004
#901, Eunhaeng-ro 3, Yeongdeungpo-gu, Seoul 07237
E-mail dacon@dacon.io |
Tel. 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
좋은 코드 공유 감사합니다. 제가 아는 한에서 말씀드립니다.
0. WT 는 Wild Type, 즉 변이가 없는 자연상태 유전자를 말합니다.
1. 현재 주어진 변이는 단백질 수준에서의 아미노산 변이입니다. 하나의 단백질은 여러 개의 아미노산으로 구성되므로, 하나의 유전자는 다양한 변이를 가질 수 있습니다.
2. 어떤 이상치인지 보진 못했지만, 아미노산 변이 명명법은 {WT 아미노산}{변이위치}{MT 아미노산} 입니다. 따라서, 큰 단백질의 아미노산 사슬 말단부 근처의 변이에서는, 중간 int 변이위치 가 매우 긴 변이도 있을 수 있을 것 같습니다.