분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
[스압주의] 생명연구자원 AI활용 경진대회 맨땅에 도메인지식 습득 후기
굉장히 긴 글이고 정리가 안되었기때문에 블로그에서 보시면 조금 더 깔끔하실 수 있습니다.
함께 참여해주신 팀원분들 감사합니다.
---
안녕하세요.
처음으로 실황 해커톤에 참여하고 완전히 모르는 도메인 지식을 습득하는 과정을 겪었는데,
결과적으로 성능은 나오지 않았지만 도메인 지식을 습득하는 과정이 유의미했다고 보기에 기록을 남깁니다.
대회 목표는 유전체 데이터 변이 정보를 활용해 암종을 분류하는 알고리즘을 개발하는 것입니다.
저희 팀은
1. 유전체 데이터라는 말을 처음 들었고
2. 암종에 대해서도 모르는 상태였으며
3. 데이터를 봐도 전처리에 대해 감을 잡지 못하는
도메인지식이 전무한 상황이였습니다.
그래서 우선 유전체 데이터에 관해 간략한 검색을 해봤고, WT(Wild Type)데이터는 변이가 없는 유전체이므로 제거해도 된다고 판단해 1차 전처리로 모든 행이 WT인 94개의 컬럼을 제거한 후 전처리 방법과 데이터 분석에 대해 알아보기 시작했습니다.
바이오업계에 종사하시는 R님(이 글을 빌려 다시한번 감사합니다)께 유전체 데이터를 다룰 수 있는 방법이나 관련 정보를 찾을 수 있는 곳을 여쭤봤고, PRS, PLINK를 주로 사용한다는 정보를 토대로 기능을 찾아봤습니다.
PRS → GWAS라는 연구 방법에 의해서 각 유전변이별로 해당 질환과의 관계를 숫자로 표시를 해 놓은 데이터를 전부 더하는 방식으로 도출한다는 기본적인 정보를 습득했습니다.
.map과 .ped 파일이 필요하고, PED 파일은 공백(공백 또는 탭)으로 구분된 파일로, 아래 기재된 첫 6열은 필수로 필요하다는 사실을 습득했습니다.
map파일은 아래 기재된 첫 3열이 필수적이였습니다.
이 정보를 토대로 주어진 현재 데이터를 PLINK에 적합한 형식으로 변형하기엔 무리가 있어 보인다고 판단해, 다른 방법이 있는지 추가적으로 확인하며 암종에 대해 찾아봤습니다.
plink2.0에서는 csv를 ped파일로 변환하면 읽을수있다고 하므로, 암종과 유전체에 대해 분석하는 동안 다른 팀원분께서 관련 정보를 알아봐주셨습니다.
csv 를 ped로 변환하는 작업은 가능하나 기존 plink의 데이터 형식을 요구하는 바는 동일했습니다.
파일 형식만 다르고 구조는 동일해야 작동하므로, 최종적으로 PLINK 사용은 하지 않는다는 결론을 내렸습니다.
PLINK와 유사한 HAIL을 찾았고 HAIL의 경우에는 csv파일을 table로 읽어와 읽을 수 있다는 정보를 습득했습니다.
JAVA에러로 실행이 불가능했고, 오류 해결 코드를 1차적으로 만들었습니다. (by.미삭)
import hail as hl import os os.environ['JAVA_HOME'] = 'C:\Program Files\Java\jdk-11' #Hail 초기화 hl.init() #CSV 파일 읽기 table = hl.import_table('data/train.csv', impute=True) #데이터 구조 확인 table.describe() #처음 몇 행 보기 table.show(5) #특정 열의 요약 통계 보기 table.summary() #특정 열에 대한 집계 함수 사용 예시 result = table.aggregate(hl.agg.stats(table.numeric_column)) print(result)
그러나 GWAS를 진행하려면 vcf파일이 필수적으로 필요했고, 도메인지식도 전무한 당장은 사용할 방법도 필요도 없었기 때문에 기존 제공된 csv파일의 내에서 정리하자는 최종적인 결론에 이르렀습니다.
그렇다면 데이터 분석을 해봐야겠습니다.
유전체의 변이가 암종 분류에 유의미하다는 사실은 이 대회의 목표로도 알 수 있기 때문에, 1차적으로는 유전체의 변이에 집중했습니다.
1차 분석을 토대로, 암종 별 상위 5개 변이유전체만 추출하기로 하였고,
암종 별 WT가 아닌 상위 5개 변이유전체를 추출한 파일(by.미삭)을 토대로 데이터를 정제했습니다.
1. 주요 변이체 확인 및 최종의견 필요 암종 - KIPAN(신장암) → **VHL, MTOR**, KMT2D - 변이가 154번 일어난 **VHL**의 경우 ‘신장투명암세포종’에서 높은 변이를 나타냄. - MTOR은 신장암의 변이와 암세포 성장에 연관이 있으므로, VHL 변이와 복합적으로 작용하는 듯. - KMT2D는 다른 데이터에서도 존재하듯, 암의 발생 및 진행에 주요 역할을 함. = 신장암은 VHL 유전체변이의 영향을 많이 받는다 - KIRC(신장 투명세포암종) → **VHL**, **MTOR**, DST, KMT2D - 신장암과 동일하게 VHL의 영향이 큼. - DST와 MTOR은 보조적이나, MTOR을 표적치료대상으로 하는 경우도 있으므로 MTOR의 사이드이펙트가 큰듯. - KMT2D또한 신장암과 동일하게 암자체에 영향. - PABPC1는 RB1처럼 세포주기 조절에 영향을 미치지만, 아직 연구되지 않았으므로 1차적으론 제외해도 될 듯. 신장 변이체 : VHL, MTOR, DST 암 변이체 : KMT2D = 신장암은 유전체 변이의 영향을 받는다 @미삭 : KIRC와 KIPAN을 굉장히 헷갈려 할 수 있을 듯. - LAML(급성 골수성 백혈병) → **NPM1, IDH1, IDH2, RUNX1,** TP53 - NPM1의 변이가 백혈병 환자의 30%의 환자에게 발견됨. - DIH1&2도 환자의 20%에 발병. - RUNX1는 10% - LGG(저등급 신경교종) → **IDH1**, ATRX, TP53 - IDH1이 환자의 7-80%에 발견. 매우중요함. - ATRX또한 변이가 자주 발생함. - SKCM(피부흑색종) → **BRAF**, PCLO, MXRA5 - BRAF의 V600E변이가 특히 흑색종의 주요 원인. - PCLO나 MXRA5도 진행/전이에 영향. 흑색종 변이체 : BRAF, PCLO, MXRA5 @미삭 →유전체 변이 개수가 10이상인 유전체 변이 개수 1221개, 1개 이상은 3934개 유전체 변이 90이하 부터는 순차적으로 내려가므로 해당암이 발생했을 경우 최소 1221개는 돌연변이가 되었을가능성이 높다고 판단됨 - LUAD(선암형 폐암) → **EGFR, ALK, KRAS,** TP53 - TP53 폐암에서 흔함. - 여성 비흡연자에게 흔하게 발생할 수 있다는 걸 보니, 호르몬유전체의 부가적역할이 클지도모르겠다. - CESC(자궁경부암) → **PIK3CA**, SYNE1, DST, RYR2, - PIK3CA는 자궁경부암의 진행고 관련이 있음. - 다른 유전체도 암의 발달에 영향을 주긴 하나, 미미한 듯…? PIK3CA가 변이되어 암이 생겼을 때 암 진행이나 종양번식에 도움을 주는 유전체정도같음. @미삭 →유전체 변이 개수가 10이상인 유전체 변이 개수 42개, 1개 이상은 2905개 위 설명에 추가로 SYNE1(2위)에 대한 value_counts() 확인 필요 - THYM(흉선암) → **HRAS, TP53,** NF1, PCLO - HRAS는 종양 영향. 흉선암에도 영향이 크다. - PCLO는 신경암인데 흉선암이 신경암인가? 값이 적으니 확인 후 넣어야할듯. @미삭 →유전체 변이 개수가 10이상인 유전체 변이 개수 0개, 1개 이상은 388개 이 정도면 그 어느 암도 판별하기 어려울 경우 이 암으로 봐도 될정도이다. 희귀암임 - DLBC(B세포 림프종) → **KMT2D**, BTG1, BTG2 - 이름이 너무 길어서 B세포 림프종으로 정리. - KMT2D는 B세포 림프종에 중요함. KMT2D의 변이는 B림프종이라고 봐도될듯. - BTG1,2가 림프종의 종양 진행에 영향을 주므로, 세개가 세트..? - 다른것들은 종양이나 암 침습성에 영향을 주긴 하지만 B림프종과 연관됐다고 보긴 어려울 것 같음. --- 2. 핵심 변이 유전체는 확인되었으나, TP53의 변이 종류 확인이 필요한 암종 - PRAD(전립선암) → **SPOP, TP53** - SPOP은 전립선암 초기단계에서 대부분 발현 - TP53도 악성도 증가 - 다른 변이체도 영향을 줄 순 있지만, 우선 킵. @미삭 →유전체 변이 개수가 10이상인 유전체 변이 개수 4개, 1개 이상 1393개 SPOP로 판단하는 것이 좋아보인다. - LIHC(간세포암)→ **TP53**, **CTNNB1** - TP53 특히 예후안좋음 - CTNNB1는 부가적(세포증식,촉진) @미삭 →유전체 변이 개수가 10이상인 유전체 변이 개수 20개, 1개 이상 2394개. 3위인 RYR2 q부터는 2위와 8개 차이이며 이후 19개에서 점차 내려간다. TP53으로만 판단하기에는 당장 밑에 2개의 암이 TP53을 포함하므로 CTNNB1역시 포함해야 될 것 같다. - UCEC(자궁내막암) → **PTEN, TP53**, PIK3CA - PTEN이 자궁내막암의 주요변이 - TP53는 고등급 아형에서 자주 변이함. - PIK3CA, CTNNB1는 부가적으로 자주 변이함 @미삭 →유전체 변이 개수가 10이상인 유전체 변이 개수 854개, 1개 이상 4003개. PIK3CA(2위) : 유방암, 자궁내막암, 난소 CTNNB1(3위) : EGFR과 함께 유전자 변이가 일어난다면 폐선암일 가능성이 높다. - HNSC(두경부암) → **PIK3CA,** TP53 - TP53 종양. - PIK3CA는 특히 두경부암에서 자주 변이됨. - COAD(결장직장암) → **APC, SYNE1, FBXW7**, TP53 - APC가 대부분의 결장암에서 발견. - FBXW7또한 결장암에서 변이가 자주 발견됨. - BRCA(유방암) → **PIK3CA, GATA3, CDH1**, MAP3K1, TP53 - PIK3CA, GATA3이 호르몬수용체 양성 유방암에서 흔하게 발견됨. 메인. - CDH1은 유방암의 ‘특정 유형’과 관련이 있으나, 이번 암종분류는 유방암 전체를 관통하므로 유방암에 관련있다고 분류한다. - MAP3K1는 부가적 요소. - GBMLGG(뇌종양) → **IDH, EGFR**, TP53, ATRX - IDH1의 R132H 돌연변이가 가장 흔함. 그러나 IDH1의 변이로 생긴 뇌종양은 치료 예후가 좋다. - TP53,ATRX은 IDH1과 함께 영향을 주는 경우가 많다. - PTEN은 다른 암에서도 주로 발견됨. 뇌종양에서의 빈도도 높을뿐. - EGFR은 GBM(교모세포종)에서 주로 발생하며 치료 예후가 좋지않은 변이. = 뇌종양은 EGFR, IDH1로 생기는데 두 개 다 변이될 필요는 없고, 둘 중 하나가 변이되면 뇌종양이 생긴다고 봄. 치료 예후의 차이같다 - LUSC(편평상피세포 폐암) → **TP53 /** 흡연 - TP53이 폐암에서도 흔함. 이쯤되면 종양변이에선 다 일어난다고 봐도 되는게 아닌가… - RYR2, SYNE1, SPTA1, PKHD1는 부가적으로 발생하는데, 큰 역할이 없다고 보여짐. 단지 흡연으로 인한 폐의 종양을 TP53변이체가 암으로 만든다~ 정도로 봐야할듯. --- 3. TP53 등 변이 종류 확인 후 2차 분석이 필요한 암종 - SARC(육종) → **TP53**, RB1, RYR1 전체적으로 다른 암종에 비해 두드러지게 변이되지 않음(다른 유전체는 100개이상, 육종은 상위변이체도 50~10번대) - TP53이 **종양 억제 유전자**로 변이 시 종양에 큰 영향 및 암세포 자체에서도 TP53의 변이가 매우 크다고 함. - ATRX는 TP53과 복합작용하여 종양진행에 영향을 준다. - RB1은 세포의 세포증식 조절 역할을 하여, 변이 시 세포증식에 큰 역할. 육종뿐만 아닌 암 자체에도 영향. = 육종은 뼈, 연부조직에서 발생하는 종양으로 뇌종양과 똑같이 종양인데, TP53이 종양암자체의 변이에 중요한 키포인트인듯. - STES(위식도암) → **TP53**, **KMT2D**, SYNE1, SPTA1 - TP53은 공격적인 암변이에 항상 크게 작용하는듯. - SYNE1도 종양 위주. - SPTA1는 부가적인 요소지만 값이 작은편은 아니니 사이드이펙트라고 봐야할듯. - PAAD(췌장암) → **TP53, CDKN2A**, GNAS - CDKN2A이 췌장암에서 자주 변이, 증식 - GNAS는 특정 췌장암 종류에서 영향있는듯. - OV(난소암) → **COL6A3, AHNAK, NF1**, **TP53** - TP53이 대부분! 발생한다고함 - COL6A3은 난소암 미세환경에 영향을 주는 듯. - 다른 변이체도 영향은 있으나, 미미하거나 아직 확실하지않아보임. - THCA(갑상선암) → **BRAF** - BRAF의 V600E변이가 관련 암종에 굉장히 주요한듯! 표적치료의 대상이 될정도로 특정암들에 변이가 눈에 띔. - HRAS와 TG는 부가적 이펙트 - RYR1, CDH8는 단백질유전체관련인데 갑상선과 큰 상관 없어보임. (수치적으로도, 의학적으로도) @미삭 → 유전체 변이 개수가 10이상인 유전체 변이 개수 1221개, 1개 이상은 907개 1위인 BRAF(186)을 제외한다면 의미가 없다고 보임. - ACC(부신피질암) → LRIG1, CMPK2, NFKB2, PLEC - PLEC은 암진행자체에 기여하는듯. - LRIG1, CMPK2, NFKB2은 부가적. - 특별히 암에 영향을 주는 변이가 없는데, 부신피질암자체가 스테로이드호르몬으로 인한 종양이므로 외부적 요인에 유전자변이가 작용하는듯. - PCPG(부신경절종,부신종) → **HRAS**, NF1, ATRX, CHECK2 - HRAS가 종양에 영향이 있으므로, 부신종인 PCPG에도 영향을 미침. - NF1과 ATRX도 종양을 촉진시킬 수 있으므로 부가적인 효과가 클듯. - CHEK2는 암 발생 위험을 높일 뿐, 암종과 큰 관련이 있어보이진 않음. - BLCA(방광암) → **TP53**, PIK3CA, SPTAN1 - TP53 영향 큼 - PIK3CA이 방광암을 촉진시키는 역할 - 굳이 따지자면 SPTAN1이 암의 성장에 부가적인 효과를 더하는듯. - TGCT(고환암) → KIT, PLEC, NCOR2, CELSR1, PKD1 - KIT은 생식세포에서 주로 암발현. 고환암 환자들은 주로 KIT변이가 있음. - PLEC도 특정 암들에서는 영향을 미친다곤 하는데, 고환암에서도 상위5개의 변이횟수가 나타났으니 유의미하다고 봐야할듯. - PKD1은 주로 신장 질환쪽에 영향이 있는데 고환이랑 신장이 관련이 있나..? 추후 다시체크해볼필요있음. - NCOR2와 CELSR1은 KIT과 복합적으로 작용하는듯하다.
1. 주요 변이체 확인 및 최종의견 필요 암종
2. 핵심 변이 유전체는 확인되었으나, TP53의 변이 종류 확인이 필요한 암종
3. TP53 등 변이 종류 확인 후 2차 분석이 필요한 암종
세 가지 카테고리로 유의미한 변이유전체를 분류하고, 세부 내용과 팀원분의 코멘트를 토대로 1차적으로 정리했습니다.
1차 분류 이후 중복되는 유전체변이가 많다는 사실을 알고 데이터에 있는 유전체의 변이 종류 또한 같은 유전체의 변이일지라도 종류마다 어떤 암종이 되는지에 영향을 미친다고 판단, 변이 종류를 확인해보기로 했습니다.
변이는
1, 동의 변이 (암종에 무의미)
2. 프레임시프트 변이 (단백질 구조 변화)
3. 미스센스 변이 (단백질 기능 변화)
세 가지로 나눠봤다.
동의변이가 아니라면 대체로 암에 영향을 미치는데, ‘특정 암에 영향을 미치는 변이’는 크게 발견되지 않으나 ‘암종 별 변이 종류’는 상이하므로 각 암종 별 변이 종류를 그대로 차용해도 될듯하다는 의견과, 프레임시프트 변이가 대체로 영향을 크게 미친다. 1차적으로 프레임시프트 변이만 사용하고, 성능에 따라 모든 변이종을 추가하는 방법도 고려해보면 좋을 것 같다는 의견을 남기고 각 유전체변이들의 변이종류를 위 세가지 카테고리에 맞춰 나누었다. (스압주의)
더보기
내용은 길지만 간단하다.
동의변이는 WT와 동일하고, 프레임시프트변이는 암종에 유의미하다.
이분법적으로 나눈 것이다.
1. 암종 별로 특정 유전체만 구분
2. 특정 유전체 중 필요 없는 동의 변이를 제외
3. 더 많은 데이터가 필요하다면 프레임시프트변이를 포함
위 세 기준을 토대로 1차와 2차에서 정리한 데이터를 취합했다.
더보기
내용은 크게 다르지 않으므로 간단하게 정리했다. 이 기준으로 전처리를 여러 차례 거쳐 train, test파일을 전처리했다.
DACON Co.,Ltd | CEO Kookjin Kim | 699-81-01021
Mail-order-sales Registration Number: 2021-서울영등포-1704
Business Providing Employment Information Number: J1204020250004
#901, Eunhaeng-ro 3, Yeongdeungpo-gu, Seoul 07237
E-mail dacon@dacon.io |
Tel. 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
수고하셨습니다.~ 🍿