데이터 분석 아이디어 경진대회 - 월간 데이콘

아이디어 | 채용 | 정형 | 플랫폼 분석 | 정성평가

  • moneyIcon 상금 : 인증서
  • 280명 마감

 

2023년 Dacon 대회 평균 참여자 수 및 게시판 활성도에 대한 통계분석

공동작성자

stroke
2023.12.10 17:33 731 조회 language

2023년 Dacon 대회 평균 참여자 수 및 게시판 활성도에 대한 통계분석을 진행하였습니다.
통계분석 과정에서는 시각화 과정에 더해,  피어슨 상관분석, t 검정, ANOVA 검정을 통해 통계적으로 유의미한 결과인지 확인하는 과정을 거쳤습니다.
데이터분석 과정에서 추가 분석을 위해 "competition_info.csv" 파일의 "시작시간" 컬럼과 "종료시간" 컬럼을 활용해 "진행기간" 컬럼을 추가적으로 생성하여 feature engineering을 진행했습니다.

분석 순서는 아래와 같습니다.

1. 변수 간 관계 분석(수치-수치 데이터 분석), 피어슨 상관분석

1] "참여자 수"는 "토론 활성도"에 영향을 주는가?
2] 대회의 "진행기간(=시작시간과 종료시간 활용하여 새로운 컬럼 생성)"과 "참여자 수"는 상관관계가 있는가?
3] "참여자 수", "최대팀원 수", "수상자 수", "일일 제출횟수"는 상관 관계가 있는가?
4] "참여자 수", "상금정보"는 상관 관계가 있는가?
5] '코드 공유 수', '댓글 수', '공유 수', '다운로드 수', '좋아요 수', '조회 수'는 상관 관계가 있는가?

2. 키워드 비중

3. 범주-수치 분석, t 검정, ANOVA 검정

1] 문제 유형은 참여자수에 영향을 주는가
2] 평가 방법은 참여자수에 영향을 주는가
3] 참가 조건 여부, 연습 가능 여부는 참여자수에 영향을 주는가

4. 군집분석

1] codeshare_log_df
2] competition_info_df
3] talk_log_df

5. 최종 결론

코드