데이터 이해를 위한 기초 지식

2024 생명연구자원 AI활용 경진대회 : 인공지능 활용 부문

데이터 이해를 위한 기초 지식

재야의 숨은 초보

2024.09.25 14:23 4,502 Views

안녕하세요. 재야의 숨은 초보입니다.

데이터가 의미하는 것이 궁금하여 살짝 공부를 해봤습니다. 알고보니 학창 시절에 다 배웠던 내용들이었습니다.

참고로 저는 생명 분야 전공자가 아니기 때문에 틀린 지식을 전달할 수도 있습니다. 틀린 내용을 발견하시면 댓글로 정정해주시면 감사드리겠습니다.

인간은 세포로 구성되어 있습니다. 그리고 세포 안에는 23쌍의 염색체가 존재합니다.

이 염색체들을 1번 염색체, 2번 염색체, ... , 22번 염색체, 그리고 성염색체라고 부릅니다.

각 염색체는 매우 긴 가닥의 DNA로 구성되며, 수백 개에서 수천 개의 유전자가 특별한 순서로 배열됩니다.

주어진 데이터에서 `ID`, `SUBCLASS`를 제외한 나머지 열 (A2M, AAAS, ..., ZYX)는 유전자입니다.

예를 들어, A2M 유전자는 12번 염색체에 있습니다.

각 유전자는 염기서열들이 쭉 나열되어 있는 것입니다.

염기서열의 종류로는 A(아데닌), T(티민), G(구아닌), C(사이토신), U(유라실) 이 있습니다 (DNA의 경우 티민, RNA의 경우 유라실).

염기서열 3개가 하나의 아미노산을 형성?합니다 (즉, 유전자는 아미노산의 배열이라고 이해할 수 있습니다).

염기서열 3개가 어떻게 배열되느냐에 따라서 결정되는 아미노산 종류가 달라지는데, 다음 표에 조합이 잘 나와있습니다.

(https://en.wikipedia.org/wiki/DNA_and_RNA_codon_tables#Inverse_DNA_codon_table)

두 표에서 가장 왼쪽 열이 아미노산 (Amino acid)을 나타내고, 두 번째 열이 해당 아미노산에 대응하는 3개의 염기서열 (DNA codon)을 의미합니다.

각 아미노산들은 한 글자의 대문자로 축약할 수 있습니다. 예를 들어, Ala는 A로 축약하고 Arg는 R로 축약하여 가리킵니다.

바로 이 축약된 대문자들이 우리 데이터에서 중요한 역할을 하고 있습니다.

예를 들어, 주어진 데이터의 각 열에서 `WT`를 제외하고는 대부분 `{알파벳1}숫자{알파벳2}` 규칙을 갖습니다.

Henry_Lee님께서 공유해주신 EDA 코드에 따르면 이는 아미노산 배열 (Amino Acid Sequence)에서 {숫자}번째 알파벳인 {알파벳1}이 {알파벳2}으로 변이된 것을 의미한다고 합니다.

여기서 알파벳의 의미를 몰라서 헤매고 있었는데, 아마 위의 표에 나와있는 아미노산의 축약어인 것으로 생각됩니다.

예를 들어, `TRAIN0047`의 경우 `A2M` 열의 값이 `E1462K` 입니다. 이 환자의 A2M 유전자의 1462번 째 아미노산이 E에서 K로 변이되었다는 것을 의미합니다.

아미노산 E는 DNA codon이 GAA 또는 GAG이고, 아미노산 K는 AAA 또는 AAG입니다. 따라서 DNA codon에서 첫 번째 G가 A로 변이된 경우가 아닐까 싶습니다.

한편, 'TRAIN0002`의 경우 `A2M` 열의 값이 `R898R` 입니다. 이 환자의 A2M 유전자의 898번 째 아미노산이 R에서 R로 변이되었다는 것을 의미합니다.

R에서 R로 변이했다는 것이 이상하게 받아들여집니다. 추정컨데, 염기서열에 변이가 있지만 아미노산은 변하지 않은 경우인 것 같습니다.

아미노산 R을 만들 수 있는 DNA codon CGT, CGC, CGA 등이 있는데, 예컨데 CGT가 CGC로 변이된 경우이지 않을까 싶습니다.

이 외에 데이터 안에 `{알파벳1}숫자{알파벳2}` 규칙을 따르지 않는 것이 많습니다.

{알파벳1}자리에 하나의 알파벳이 아니라 여러 알파벳이 들어가는 경우도 있고,

{알파벳2}자리에 * 또는 fs가 포함되는 경우도 있으며,

`{숫자1}_{숫자2}{알파벳들1}>{알파벳들2} 꼴도 있습니다.

SUBCLASS 축약어 정리

subclass_dict = {

'ACC': 'Adrenocortical carcinoma',

'BLCA': 'Bladder urothelial carcinoma',

'BRCA': 'Breast invasive carcinoma',

'CESC': 'Cervical squamous cell carcinoma and endocervical adenocarcinoma',

'COAD': 'Colon adenocarcinoma',

'DLBC': 'Diffuse large b-cell lymphoma',

'GBMLGG': 'Glioma',

'HNSC': 'Head and neck squamous cell carcinoma',

'KIPAN': 'Pan-kidney cohort (KICH + KIRC + KIRP)',

'KIRC': 'Kidney renal clear cell carcinoma',

'LAML': 'Acute myeloid leukemia',

'LGG': 'Brain lower grade glioma',

'LIHC': 'Liver hepatocellular carcinoma',

'LUAD': 'Lung adenocarcinoma',

'LUSC': 'Lung squamous cell carcinoma',

'OV': 'Ovarian serous cystadenocarcinoma',

'PAAD': 'Pancreatic adenocarcinoma',

'PCPG': 'Pheochromocytoma and Paraganglioma',

'PRAD': 'Prostate adenocarcinoma',

'SARC': 'Sarcoma',

'SKCM': 'Skin cutaneous melanoma',

'STES': 'Stomach and esophageal carcinoma',

'TGCT': 'Testicular germ cell tumors',

'THCA': 'Thyroid carcinoma',

'THYM': 'Thymoma',

'UCEC': 'Uterine corpus endometrial carcinoma'

}

(출처: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC11335499)

이상으로 제가 모델링 전에 데이터 분석을 하며 알아낸 것이 누군가에게 도움이 되길 바라며 글을 마칩니다.

참고문헌

7 Comments

comment

0 / 1000

이대권

2024.09.25 15:28

감사합니다.

임하식

2024.09.25 16:57

WT 비율만 가지고 해볼랬더니 점수가 0.03이 나오기도 했지만 이런 도메인.. 깔끔하게 포기해야겠네요

라떼_

2024.09.25 22:54

Deleted Comment

Henry_Lee

2024.09.26 17:31

예외적인 케이스 포함한 변이의 의미를 예시로 설명드려요 ;^)
- S737* : S737*는 737번째 아미노산이 세린(S)에서 종결 코돈으로 변이되어 단백질 합성이 이 위치에서 종료된다는 것을 의미합니다. 이는 단백질이 조기에 종료되는 돌연변이
- L94Nfs : L94Nfs는 94번째 아미노산이 류신(L)에서 아스파라진(N)으로 변이되었고, 그 이후의 아미노산 서열에 프레임 시프트가 발생했다는 것을 의미합니다. 프레임 시프트는 DNA 서열의 삽입 또는 삭제로 인해 발생하며, 전체 단백질 구조가 크게 변경될 수도 있음
- K696del : K696del은 696번째 아미노산인 라이신(K)이 유전자에서 삭제된 변이
- A35_L36insDEAEQCDKYDAQA : 35번 아미노산 알라닌(A)과 36번 아미노산 류신(L) 사이에 "DEAEQCDKYDAQA"라는 새로운 아미노산 서열이 삽입된 변이
- 1499_1500HL>HL : 1499_1500HL>HL은 1499번과 1500번 아미노산 위치에 히스티딘(H)과 류신(L)이 있었으며, 이 서열이 그대로 유지되었다는 것을 의미합니다. 이는 아미노산 변화가 없는 변이로, 염기 서열의 변이가 있지만 단백질 서열에는 변화가 없는 현상

재야의 숨은 초보

2024.09.26 19:03

유용한 정보 감사합니다.