커뮤니티 대회 교육

데이콘 Basic 쇼핑몰 지점별 매출액 예측 경진대회

데이터 전처리(결측치 처리) 및 지점별 추세 비교와 상관관계 분석

2022.07.12 16:10 1,622 조회 language

해당 코드는 아직 모델링전 단계까지 완성한 상태이며 이 코드들을 활용하여
NLP모델, 딥러닝 모델을 통해 완성할 계획입니다.
아직 초안이라 눈에 띄지 않겠지만 첫 코드공유인만큼 부족하지만 잘봐주시면 감사하겠습니다.
매일매일 새롭게 수정하여 코드들을 개선하고 모델링까지 완성하여 계속해서 올리겠습니다. 감사합니다.

코드
ljy9995
2022.07.12 21:22

깔끔한 자료네요

Harimau.K
2022.07.12 23:05

데이터 과학 처음 공부하는데 도움 많이 될 것 같습니다! 모델링도 기대 할게요^^

양창혁1
2022.07.15 15:09

모델링까지 완료후 추가로 올리겠습니다. 감사합니다!!

효댕
2022.07.13 18:40

잘 보고 갑니다!!

seoukkang
2022.07.14 09:50

Store별 매출 추이 정리한 차트가 한 눈에 잘 보여서 좋네요. 감사합니다!

양창혁1
2022.07.15 15:09

감사합니다!

study.ai.hhb
2022.07.14 15:43

안녕하세요.
분석 내용 보고 궁금점이 생겨서 질문드립니다.
Promotion을 2011년 11월 11일을 기준으로 다르게 결측값을 처리하셨는데, 이유를 혹시 알 수 있을까요 ?
Promotion의 Nan값은 어쨌든 프로모션을 진행하지 않았다는 뜻인데 다른 값으로 대체하게 되면 프로모션을 진행했다고 되는 것 아닌가요..? 

양창혁1
2022.07.15 15:09

지점인 Store칼럼이 1부터 45가 모두 2011년 11월 11일 기준으로 promotion이 nan값으로 처리되있어서
promotion이라는 것이 결국 이벤트성이라고 생각하여서 이를 기준으로 유무를 하였다고 판단하여서
2011년 11월 11일전을 모두 0으로 처리하여 진행하지 않다고 처리하였고 이후의 나머지 nan값은 선형보간법으로 처리하였습니다.

동글동글
2022.07.16 16:03

지점별로 나누어서 봐야하는 걸 깜빡했네요ㅡ 덕분에 캐치했습니다.
Date를 기준으로 Promotion의 결측값을 다르게 처리해주는 건 생각도 못했네요.. 좋은 분석 공유해주셔서 감사합니다.

혹시 글 서두에 NLP 모델을 만드신다고 하셨는데, 자연어가 전혀 안들어가는 데이터인데 어떻게 NLP 모델을 활용하신다는 건지 여쭈어봐도 될까요?

동글동글
2022.07.16 16:09

추가로, '쇼핑몰 지점은 139명씩 같은 수의 사람들이 옴' 라고 하셨는데 이건 잘못된 해석 같습니다.
Date를 unique하면 139가 나오는데, 모든 쇼핑몰 지점이 각각 139번 측정되었다고 해석하는 게 맞다고 생각합니다

양창혁1
2022.07.17 21:58

혹시 글 서두에 NLP 모델을 만드신다고 하셨는데, 자연어가 전혀 안들어가는 데이터인데 어떻게 NLP 모델을 활용하신다는 건지 여쭈어봐도 될까요?
-> MLP모델을 제가 오타로 인해서 잘못올렸나봐요.. 죄송합니다!
내 추가하신 부분도 제가 오해의 소지가 있게 작성한거같아서 각각 139번 측정된 것으로 해석하는게 맞다고 생각합니다!
감사합니다!!

지나가는코딩신입생
2022.07.19 18:24

데이터 과학에 관해 공부를 하고 있는데 참고가 많이 되었습니다!

jumi10
2022.07.19 19:56

데이터 과학 공부중인데 좋은 정보 보고 갑니다~~!

수혁
2022.07.19 20:00

깔끔하네요

창콤
2022.07.20 13:49

안녕하세요 글 잘 보았습니다! 저도 따라하면서 보던 중 2011년 11월 11일 이전 프로모션이 nan인걸 보고 찾으려다가 2011년 2월12일과 2011년 9월 12일에 프로모션이 nan이 아닌 것을 찾았습니다. 그래서 2월과 9월12일을 제외한다면 11월11일이후에 프로모션이 생겼다는것이 맞는 것 같은데 2011년 2월 12일 , 2011년 9월 12일 같은 데이터는 혹시 연속되어있지 않아 0으로 처리하신걸까요?

양창혁1
2022.07.21 16:53

네네! 저는 그렇게 판단해서 0으로 일단 처리하였습니다.

GinToFim
2022.07.22 02:19

안녕하세요 좋은 글 정말 감사합니다!
분석하신 내용 보고 질문이 있어서 댓글 남깁니다.
지점별 매출액 추이 비교 부분에서 '28, 30, 33, 36, 37, 38, 42, 43, 44' 지점은 추세가 일치하지 않는다고 하셨는데
혹시 시계열 데이터에서 추세가 일정하냐 일정하지 않느냐는 어떻게 판단을 내리는 건가요?
단순히 지점별 매출액 추이 그래프만 보고 판단한 것인가요 아니면 추세가 일정하지 않다는 어떤 수학적인 접근이 있는 건가요?

양창혁1
2022.07.23 18:33

해당 지점들이 모두 시계열의 비선형성을 띠고 있다고 판단했습니다.
시계열 데이터는 추세, 순환, 계절성, 불규칙 변동요인등으로 구성을 하고 있는데 이 '28, 30, 33, 36, 37, 38, 42, 43, 44' 해당 지점이 그래프를 보고 추세, 순환, 
계절성 보다는 불규칙 변동 요인으로서의 영향이 크다고 판단하여서 이 지점은 기존 다른 지점과 다른 방식으로 접근해야된다고 생각했습니다.

아린12
2022.07.24 22:45

잘봤습니다~

로그인이 필요합니다
0 / 1000