Train data 탐색적 데이터 분석(EDA)

2022 AI 대학원 챌린지

2022.07.07 13:24 5,614 조회 language

null 값 여부 점검, 데이터들의 자료형 확인, 종속변수(label) 분포 확인 및 시각화, antigen_code 변수 별 빈도 탐색 및 시각화(총 antigen code 수가 너무 많아서, 평균 빈도 이상 등장하는 antigen code 값들의 빈도만 그래프로 시각화 하였다), epitope_seq 변수 별 빈도 탐색 및 시각화(등장 빈도의 평균값보다 빈도 높은 epitope seq 값들 빈도만 그래프로 시각화 하였다), antigen seq 데이터 별 길이 탐색 및 시각화 & 길이의 기술통계 값들 탐색, epitope seq 데이터 별 길이 탐색 및 시각화 & 길이의 기술통계 값들 탐색, epitope seq 시작위치, 끝 위치 변수 기술통계 값들 탐색, antigen seq 내에서 epitope seq 가 어느 구간에 주로 위치하는지, 그 위치의 빈도를 그래프로 시각화(antigen seq 중 가장 길이 긴 것이 4,967자로 구성되어 있었다. 리스트에 0을 5000개 넣는다. 해당 리스트의 각 인덱스를 antigen sequence 내 위치라고 생각한다. epitope seq 별 시작위치와 끝 위치 값을 이용해 epitope seq가 antigen sequence 몇 번 부터 몇 번 인덱스에 걸쳐 있는지 알 수 있다. 5000개 0으로 구성된 리스트에서, 모든 epitope seq에 대해 epitope seq 위치에 해당하는 리스트 인덱스에 1을 더한다. 결과물에 대해 히스토그램을 그려서, epitope sequence 가 antigen code 내에서 주로 어떤 순서에 위치하는지 파악했다. 히스토그램은 두 번 그렸는데, 첫번째로는 0~5000 번 인덱스 전체에 대해 히스토그램을 그렸다. 히스토그램으로부터 antigen code 0에서 약 1000번째 순서 사이에 epitope sequence 가 주로 위치하는 것을 파악했다. 해당 구간만 잘라내서, 다시 한번 히스토그램을 그리고 epitope sequence 위치 분포를 관찰했다)

코드