2024 생명연구자원 AI활용 경진대회 : 인공지능 활용 부문

데이터 이해를 위한 기초 지식

2024.09.25 14:23 2,674 Views

안녕하세요. 재야의 숨은 초보입니다.


데이터가 의미하는 것이 궁금하여 살짝 공부를 해봤습니다. 알고보니 학창 시절에 다 배웠던 내용들이었습니다.

참고로 저는 생명 분야 전공자가 아니기 때문에 틀린 지식을 전달할 수도 있습니다. 틀린 내용을 발견하시면 댓글로 정정해주시면 감사드리겠습니다.


인간은 세포로 구성되어 있습니다. 그리고 세포 안에는 23쌍의 염색체가 존재합니다.

이 염색체들을 1번 염색체, 2번 염색체, ... , 22번 염색체, 그리고 성염색체라고 부릅니다.

각 염색체는 매우 긴 가닥의 DNA로 구성되며, 수백 개에서 수천 개의 유전자가 특별한 순서로 배열됩니다.


주어진 데이터에서 `ID`, `SUBCLASS`를 제외한 나머지 열 (A2M, AAAS, ..., ZYX)는 유전자입니다.

예를 들어, A2M 유전자는 12번 염색체에 있습니다.


각 유전자는 염기서열들이 쭉 나열되어 있는 것입니다.

염기서열의 종류로는 A(아데닌), T(티민), G(구아닌), C(사이토신), U(유라실) 이 있습니다 (DNA의 경우 티민, RNA의 경우 유라실).

염기서열 3개가 하나의 아미노산을 형성?합니다 (즉, 유전자는 아미노산의 배열이라고 이해할 수 있습니다).

염기서열 3개가 어떻게 배열되느냐에 따라서 결정되는 아미노산 종류가 달라지는데, 다음 표에 조합이 잘 나와있습니다.


(https://en.wikipedia.org/wiki/DNA_and_RNA_codon_tables#Inverse_DNA_codon_table)


두 표에서 가장 왼쪽 열이 아미노산 (Amino acid)을 나타내고, 두 번째 열이 해당 아미노산에 대응하는 3개의 염기서열 (DNA codon)을 의미합니다.

각 아미노산들은 한 글자의 대문자로 축약할 수 있습니다. 예를 들어, Ala는 A로 축약하고 Arg는 R로 축약하여 가리킵니다.

바로 이 축약된 대문자들이 우리 데이터에서 중요한 역할을 하고 있습니다.


예를 들어, 주어진 데이터의 각 열에서 `WT`를 제외하고는 대부분 `{알파벳1}숫자{알파벳2}` 규칙을 갖습니다.

Henry_Lee님께서 공유해주신 EDA 코드에 따르면 이는 아미노산 배열 (Amino Acid Sequence)에서 {숫자}번째 알파벳인 {알파벳1}이 {알파벳2}으로 변이된 것을 의미한다고 합니다.


여기서 알파벳의 의미를 몰라서 헤매고 있었는데, 아마 위의 표에 나와있는 아미노산의 축약어인 것으로 생각됩니다.

예를 들어, `TRAIN0047`의 경우 `A2M` 열의 값이 `E1462K` 입니다. 이 환자의 A2M 유전자의 1462번 째 아미노산이 E에서 K로 변이되었다는 것을 의미합니다.

아미노산 E는 DNA codon이 GAA 또는 GAG이고, 아미노산 K는 AAA 또는 AAG입니다. 따라서 DNA codon에서 첫 번째 G가 A로 변이된 경우가 아닐까 싶습니다.


한편, 'TRAIN0002`의 경우 `A2M` 열의 값이 `R898R` 입니다. 이 환자의 A2M 유전자의 898번 째 아미노산이 R에서 R로 변이되었다는 것을 의미합니다.

R에서 R로 변이했다는 것이 이상하게 받아들여집니다. 추정컨데, 염기서열에 변이가 있지만 아미노산은 변하지 않은 경우인 것 같습니다.

아미노산 R을 만들 수 있는 DNA codon CGT, CGC, CGA 등이 있는데, 예컨데 CGT가 CGC로 변이된 경우이지 않을까 싶습니다.


이 외에 데이터 안에 `{알파벳1}숫자{알파벳2}` 규칙을 따르지 않는 것이 많습니다.

{알파벳1}자리에 하나의 알파벳이 아니라 여러 알파벳이 들어가는 경우도 있고,

{알파벳2}자리에 * 또는 fs가 포함되는 경우도 있으며,

`{숫자1}_{숫자2}{알파벳들1}>{알파벳들2} 꼴도 있습니다.


SUBCLASS 축약어 정리

subclass_dict = {

    'ACC': 'Adrenocortical carcinoma',

    'BLCA': 'Bladder urothelial carcinoma',

    'BRCA': 'Breast invasive carcinoma',

    'CESC': 'Cervical squamous cell carcinoma and endocervical adenocarcinoma',

    'COAD': 'Colon adenocarcinoma',

    'DLBC': 'Diffuse large b-cell lymphoma',

    'GBMLGG': 'Glioma',

    'HNSC': 'Head and neck squamous cell carcinoma',

    'KIPAN': 'Pan-kidney cohort (KICH + KIRC + KIRP)',

    'KIRC': 'Kidney renal clear cell carcinoma',

    'LAML': 'Acute myeloid leukemia',

    'LGG': 'Brain lower grade glioma',

    'LIHC': 'Liver hepatocellular carcinoma',

    'LUAD': 'Lung adenocarcinoma',

    'LUSC': 'Lung squamous cell carcinoma',

    'OV': 'Ovarian serous cystadenocarcinoma',

    'PAAD': 'Pancreatic adenocarcinoma',

    'PCPG': 'Pheochromocytoma and Paraganglioma',

    'PRAD': 'Prostate adenocarcinoma',

    'SARC': 'Sarcoma',

    'SKCM': 'Skin cutaneous melanoma',

    'STES': 'Stomach and esophageal carcinoma',

    'TGCT': 'Testicular germ cell tumors',

    'THCA': 'Thyroid carcinoma',

    'THYM': 'Thymoma',

    'UCEC': 'Uterine corpus endometrial carcinoma'

}

(출처: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC11335499)


이상으로 제가 모델링 전에 데이터 분석을 하며 알아낸 것이 누군가에게 도움이 되길 바라며 글을 마칩니다.


참고문헌


Login Required
0 / 1000
이대권
2024.09.25 15:28

감사합니다.

임하식
2024.09.25 16:57

WT 비율만 가지고 해볼랬더니 점수가 0.03이 나오기도 했지만 이런 도메인..  깔끔하게 포기해야겠네요

sojeong
2024.09.25 22:54

Deleted Comment

Henry_Lee
2024.09.26 17:31

예외적인 케이스 포함한 변이의 의미를 예시로 설명드려요 ;^)
- S737* :  S737*는 737번째 아미노산이 세린(S)에서 종결 코돈으로 변이되어 단백질 합성이 이 위치에서 종료된다는 것을 의미합니다. 이는 단백질이 조기에 종료되는 돌연변이
- L94Nfs : L94Nfs는 94번째 아미노산이 류신(L)에서 아스파라진(N)으로 변이되었고, 그 이후의 아미노산 서열에 프레임 시프트가 발생했다는 것을 의미합니다. 프레임 시프트는 DNA 서열의 삽입 또는 삭제로 인해 발생하며, 전체 단백질 구조가 크게 변경될 수도 있음
- K696del : K696del은 696번째 아미노산인 라이신(K)이 유전자에서 삭제된 변이
- A35_L36insDEAEQCDKYDAQA : 35번 아미노산 알라닌(A)과 36번 아미노산 류신(L) 사이에 "DEAEQCDKYDAQA"라는 새로운 아미노산 서열이 삽입된 변이
- 1499_1500HL>HL : 1499_1500HL>HL은 1499번과 1500번 아미노산 위치에 히스티딘(H)과 류신(L)이 있었으며, 이 서열이 그대로 유지되었다는 것을 의미합니다. 이는 아미노산 변화가 없는 변이로, 염기 서열의 변이가 있지만 단백질 서열에는 변화가 없는 현상

재야의 숨은 초보
2024.09.26 19:03

유용한 정보 감사합니다.

진현림
2024.09.27 18:13

알짜배기 정보 감사합니다.

Simon_Beck
2024.10.04 11:24

G286와 GG286 이런식은 어떤 경우일까요