분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
Dataframe generator
*.npy 파일로 주어진 데이터를 train.ftr과 test.ftr (feather)로 변환하고 불러오는 코드입니다.
`ROOT_DIR_PATH`와 PATH 상수, NAME_COL 사용여부 등을 적절히 바꿔 사용하세요.
1. Column 순서는 다음과 같습니다.
[밝기온도0, 밝기온도1, ..., 밝기온도8, 지표타입, GMI 경도, GMI 위도, DPR 경도, DPR 위도(, 강수량)]
2. 사용된 package version은 다음과 같습니다.
// requirements.txt
pandas==1.0.1
numpy==1.18.1
tqdm==4.42.1
3. %memit를 사용하기 위해선, memory-profiler package 설치가 필요합니다.(!pip install memory-profiler)
- 추가사항
1. 데이터 크기를 줄이기 위해 모든 feature들은 float32 type으로 변환하여 저장하였습니다.
2. Intel(R) Core(TM) i5-7500 CPU @ 3.40GHz (4 Cores), Jupyter notebook, Python 3.7.6 환경에서 구현하였습니다.
3. Data는 SSD에 저장하여 입출력하였습니다.
4. 압축해제된 *.npy 파일들로부터 2개의 DataFrame을 생성하는데 약 14초 / 15GBytes 가 소모되었습니다.
5. DataFrame을 feather file(*.ftr)로 변환하는데 약 22.5초가 소모되었습니다.
6. 변환된 feather file(*.ftr)의 크기는 총 약 7GBytes 입니다.
7. Feather file을 읽어오는데 약 1.3초가 소모되었고 약 7GBytes 메모리가 사용되었습니다.
8. Parquet format을 사용하는 경우, 변환된 파일의 크기는 약 5.2GBytes 로 작지만 저장 및 불러오는 시간이 각각 5분 21초, 30초 정도로 비교적 오래 걸리기 때문에 feather format을 선택하였습니다.
참고하여 전부 float로 수정하였습니다.
변수명이 long_GMI, lat_GMI, long_DPR, lat_DPR로 순서가 바뀌면 좋을 것 같습니다..! 경도(longitude)가 먼저 오고 위도(latitude)가 오는 것으로 데이터 설명에 기입되어 있네요..
수정했습니다!
감사합니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
데이터 설명에서 type feature가 categorical인 듯 설명하지만 원본의 데이터도 의미가 있을것 같아요.