[스터디 5기 정규반 1조 첫째주 주말] 숙제인증

2024.02.18 20:00 537 Views

[스터디 5기 정규반 1조 첫째주 주말] 숙제인증


# EDA (범주형 변수들)

## 웹 로그 접속 브라우저, OS, 디바이스 분석

절반이상의 세션이 크롬 브라우저를 통해 웹에 접속하며 그 뒤로는 사파리, 안드로이드 등의 브라우저들이 사용되고 있습니다. OS쪽을 살펴보면 위의 브라우저에서 유추해 볼 수 있듯이 크롬 세션 수와 사파리 세션 수의 차이가 큰 만큼, 윈도우즈의 세션 수가 맥OS (맥킨토시)의 세션 수보다 더 많음을 살펴볼 수 있습니다. 또한, 모바일 쪽에서의 OS에서도 안드로이드가 IOS보다 세션 수가 2배 가까이 더 많음을 볼 수 있습니다.


위 브라우저와 OS 그래프들에서 유추할 수 있듯이 PC를 사용하여 웹에 접속하는 유저가 대다수이며 모바일, 태블릿 유저 수는 PC 유저 수의 절반 가량밖에 되지않는다.


## 웹 로그 접속 위치 / 나라


Web에 접속한 대륙들을 먼저 살펴보면 미대륙에서 절반수의 세션이 있음을 살펴볼 수 있으며, 그 뒤를 아시아, 유럽, 아프리카, 오세아니아가 차지하는 것을 알 수 있습니다. 대부분의 웹로그는 미대륙에 의해서 발생되며 미대륙 유저들에게 접근성이 유리함을 유추 해볼 수 있습니다. 다음으로 나라들을 살펴보면 원래의 데이터에는 대략 200개 정도의 나라들이 포함되어 있어 간략한 전처리를 통하여 TOP 20의 접속 국가들만 추려냈습니다. 미대륙 접속 세션 수의 가장 큰 이유는 미국이며 이는 전체 세션 수의 절반 정도를 차지하는 큰 수입니다, 그리고 다양한 아시아, 유럽 국가들이 뒤를 이으며 몇몇의 북남미 국가들도 확인 할 수 있습니다. 이로써 대부분의 세션은 미국에서 발생함을 알 수 있습니다.


## 웹로그 트래픽 분석

웹 로그의 트래픽 소스를 살펴보면 전체 세션의 절반 이상이 구글 도메인을 통한 접속이며 그 뒤로는 유튜브, 빙, 레딧, 바이두 등 다양한 소스들이 있음을 살펴볼 수 있습니다. 여기서 주의해야 할 점은 TOP20에 있는 소스의 대다수가 google의 도메인에서 나왔음에도 google로 분류되지 않음을 확인할 수 있습니다. 추후에 데이터 전처리시 google이 들어간 소스들을 하나의 값으로 통합하는 옵션도 고려하여 다양한 시도를 하는 것도 좋아보입니다. 그 다음 트래픽 매체를 보면 절반 이상이 광고나 레퍼럴 등을 받지않은 자연스러운 접속들이며 레퍼럴, cpc, cpm, 제휴 등을 통한 접속도 전체의 30퍼센트 정도 차지함을 볼 수 있습니다. 이외 알수없는 (none) 값도 6만정도로 꽤 보이는것을 알 수 있습니다.


# EDA (연속형 변수들)

## 웹 로그 퀄리티 / 시간 / 거래 분석

세션의 질, 시간, 거래 횟수는 모두 거래가 발생해야지만 측정될 수 있는 값이기 때문에 분포는 셋 다 모두 비슷한 양상을 보여줌을 알 수 있습니다. 웹 로그의 세션에서 대부분의 질의 값이 1 이므로, 이는 거래의 수가 많지 않음을 알 수 있습니다.


그럼 거래 횟수에 따른 거래 수익간의 관계는 어떻게 될까요? 산점도를 살펴보면 대부분의 거래 횟수가 1에 그치며 거래 수익은 꽤 고르게 분포 되어있는 편입니다. 거래 횟수가 많다고 해서 거래 수익이 높아지는 비례관계는 성립하지 않음을 알 수 있습니다. 


## 웹 로그의 Target 분석

세션에서 발생한 총 조회수는 대부분 1~10 사이에 분포함을 알 수 있으며, 몇몇 극단치 및 이상치를 제외하면 조회수 예측값이 낮음을 알 수 있습니다. 이러한 분포를 보았을때 앞서 살펴보았던 세션의 질/시간/거래의 분포와 유사한 것으로 보아 연속형 변수들과 밀접한 관계가 클 수 있다고 생각합니다. 추후에 예측 모델을 만들때 고려해보면 좋은 옵션일 것 같습니다.


# EDA (바이너리 변수들)

## 웹 로그의 첫 방문 / 이탈한 세션 분석

웹로그에서 대부분의 세션이 첫 방문이며 이탈자의 비율은 거의 반반이지만 이탈하지 않은 사람의 비율이 조금 더 높음을 확인할 수 있습니다.


여기까지가 주말숙제 EDA 및 인사이트 도출입니다.