분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
2024 생명연구자원 AI활용 경진대회 : 인공지능 활용 부문
데이터 이해를 위한 기초 지식
안녕하세요. 재야의 숨은 초보입니다.
데이터가 의미하는 것이 궁금하여 살짝 공부를 해봤습니다. 알고보니 학창 시절에 다 배웠던 내용들이었습니다.
참고로 저는 생명 분야 전공자가 아니기 때문에 틀린 지식을 전달할 수도 있습니다. 틀린 내용을 발견하시면 댓글로 정정해주시면 감사드리겠습니다.
인간은 세포로 구성되어 있습니다. 그리고 세포 안에는 23쌍의 염색체가 존재합니다.
이 염색체들을 1번 염색체, 2번 염색체, ... , 22번 염색체, 그리고 성염색체라고 부릅니다.
각 염색체는 매우 긴 가닥의 DNA로 구성되며, 수백 개에서 수천 개의 유전자가 특별한 순서로 배열됩니다.
주어진 데이터에서 `ID`, `SUBCLASS`를 제외한 나머지 열 (A2M, AAAS, ..., ZYX)는 유전자입니다.
예를 들어, A2M 유전자는 12번 염색체에 있습니다.
각 유전자는 염기서열들이 쭉 나열되어 있는 것입니다.
염기서열의 종류로는 A(아데닌), T(티민), G(구아닌), C(사이토신), U(유라실) 이 있습니다 (DNA의 경우 티민, RNA의 경우 유라실).
염기서열 3개가 하나의 아미노산을 형성?합니다 (즉, 유전자는 아미노산의 배열이라고 이해할 수 있습니다).
염기서열 3개가 어떻게 배열되느냐에 따라서 결정되는 아미노산 종류가 달라지는데, 다음 표에 조합이 잘 나와있습니다.
(https://en.wikipedia.org/wiki/DNA_and_RNA_codon_tables#Inverse_DNA_codon_table)
두 표에서 가장 왼쪽 열이 아미노산 (Amino acid)을 나타내고, 두 번째 열이 해당 아미노산에 대응하는 3개의 염기서열 (DNA codon)을 의미합니다.
각 아미노산들은 한 글자의 대문자로 축약할 수 있습니다. 예를 들어, Ala는 A로 축약하고 Arg는 R로 축약하여 가리킵니다.
바로 이 축약된 대문자들이 우리 데이터에서 중요한 역할을 하고 있습니다.
예를 들어, 주어진 데이터의 각 열에서 `WT`를 제외하고는 대부분 `{알파벳1}숫자{알파벳2}` 규칙을 갖습니다.
Henry_Lee님께서 공유해주신 EDA 코드에 따르면 이는 아미노산 배열 (Amino Acid Sequence)에서 {숫자}번째 알파벳인 {알파벳1}이 {알파벳2}으로 변이된 것을 의미한다고 합니다.
여기서 알파벳의 의미를 몰라서 헤매고 있었는데, 아마 위의 표에 나와있는 아미노산의 축약어인 것으로 생각됩니다.
예를 들어, `TRAIN0047`의 경우 `A2M` 열의 값이 `E1462K` 입니다. 이 환자의 A2M 유전자의 1462번 째 아미노산이 E에서 K로 변이되었다는 것을 의미합니다.
아미노산 E는 DNA codon이 GAA 또는 GAG이고, 아미노산 K는 AAA 또는 AAG입니다. 따라서 DNA codon에서 첫 번째 G가 A로 변이된 경우가 아닐까 싶습니다.
한편, 'TRAIN0002`의 경우 `A2M` 열의 값이 `R898R` 입니다. 이 환자의 A2M 유전자의 898번 째 아미노산이 R에서 R로 변이되었다는 것을 의미합니다.
R에서 R로 변이했다는 것이 이상하게 받아들여집니다. 추정컨데, 염기서열에 변이가 있지만 아미노산은 변하지 않은 경우인 것 같습니다.
아미노산 R을 만들 수 있는 DNA codon CGT, CGC, CGA 등이 있는데, 예컨데 CGT가 CGC로 변이된 경우이지 않을까 싶습니다.
이 외에 데이터 안에 `{알파벳1}숫자{알파벳2}` 규칙을 따르지 않는 것이 많습니다.
{알파벳1}자리에 하나의 알파벳이 아니라 여러 알파벳이 들어가는 경우도 있고,
{알파벳2}자리에 * 또는 fs가 포함되는 경우도 있으며,
`{숫자1}_{숫자2}{알파벳들1}>{알파벳들2} 꼴도 있습니다.
subclass_dict = {
'ACC': 'Adrenocortical carcinoma',
'BLCA': 'Bladder urothelial carcinoma',
'BRCA': 'Breast invasive carcinoma',
'CESC': 'Cervical squamous cell carcinoma and endocervical adenocarcinoma',
'COAD': 'Colon adenocarcinoma',
'DLBC': 'Diffuse large b-cell lymphoma',
'GBMLGG': 'Glioma',
'HNSC': 'Head and neck squamous cell carcinoma',
'KIPAN': 'Pan-kidney cohort (KICH + KIRC + KIRP)',
'KIRC': 'Kidney renal clear cell carcinoma',
'LAML': 'Acute myeloid leukemia',
'LGG': 'Brain lower grade glioma',
'LIHC': 'Liver hepatocellular carcinoma',
'LUAD': 'Lung adenocarcinoma',
'LUSC': 'Lung squamous cell carcinoma',
'OV': 'Ovarian serous cystadenocarcinoma',
'PAAD': 'Pancreatic adenocarcinoma',
'PCPG': 'Pheochromocytoma and Paraganglioma',
'PRAD': 'Prostate adenocarcinoma',
'SARC': 'Sarcoma',
'SKCM': 'Skin cutaneous melanoma',
'STES': 'Stomach and esophageal carcinoma',
'TGCT': 'Testicular germ cell tumors',
'THCA': 'Thyroid carcinoma',
'THYM': 'Thymoma',
'UCEC': 'Uterine corpus endometrial carcinoma'
}
(출처: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC11335499)
이상으로 제가 모델링 전에 데이터 분석을 하며 알아낸 것이 누군가에게 도움이 되길 바라며 글을 마칩니다.
참고문헌
WT 비율만 가지고 해볼랬더니 점수가 0.03이 나오기도 했지만 이런 도메인.. 깔끔하게 포기해야겠네요
Deleted Comment
예외적인 케이스 포함한 변이의 의미를 예시로 설명드려요 ;^)
- S737* : S737*는 737번째 아미노산이 세린(S)에서 종결 코돈으로 변이되어 단백질 합성이 이 위치에서 종료된다는 것을 의미합니다. 이는 단백질이 조기에 종료되는 돌연변이
- L94Nfs : L94Nfs는 94번째 아미노산이 류신(L)에서 아스파라진(N)으로 변이되었고, 그 이후의 아미노산 서열에 프레임 시프트가 발생했다는 것을 의미합니다. 프레임 시프트는 DNA 서열의 삽입 또는 삭제로 인해 발생하며, 전체 단백질 구조가 크게 변경될 수도 있음
- K696del : K696del은 696번째 아미노산인 라이신(K)이 유전자에서 삭제된 변이
- A35_L36insDEAEQCDKYDAQA : 35번 아미노산 알라닌(A)과 36번 아미노산 류신(L) 사이에 "DEAEQCDKYDAQA"라는 새로운 아미노산 서열이 삽입된 변이
- 1499_1500HL>HL : 1499_1500HL>HL은 1499번과 1500번 아미노산 위치에 히스티딘(H)과 류신(L)이 있었으며, 이 서열이 그대로 유지되었다는 것을 의미합니다. 이는 아미노산 변화가 없는 변이로, 염기 서열의 변이가 있지만 단백질 서열에는 변화가 없는 현상
유용한 정보 감사합니다.
알짜배기 정보 감사합니다.
G286와 GG286 이런식은 어떤 경우일까요
DACON Co.,Ltd | CEO Kookjin Kim | 699-81-01021
Mail-order-sales Registration Number: 2021-서울영등포-1704
Business Providing Employment Information Number: J1204020250004
#901, Eunhaeng-ro 3, Yeongdeungpo-gu, Seoul 07237
E-mail dacon@dacon.io |
Tel. 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
감사합니다.