AI프렌즈 위성관측 데이터 활용 강수량 산출 AI 경진대회

알고리즘 | 정형 | 회귀 | 기상 | MAE,F1score

상금 : 총 250만원
940명 마감

연습

대회안내 데이터 코드 공유 토크 리더보드

제출

Dataframe generator

alchemine

2020.04.05 06:55 7,975 조회 language

*.npy 파일로 주어진 데이터를 train.ftr과 test.ftr (feather)로 변환하고 불러오는 코드입니다.
`ROOT_DIR_PATH`와 PATH 상수, NAME_COL 사용여부 등을 적절히 바꿔 사용하세요.

1. Column 순서는 다음과 같습니다.
[밝기온도0, 밝기온도1, ..., 밝기온도8, 지표타입, GMI 경도, GMI 위도, DPR 경도, DPR 위도(, 강수량)]

2. 사용된 package version은 다음과 같습니다.
// requirements.txt
pandas==1.0.1
numpy==1.18.1
tqdm==4.42.1

3. %memit를 사용하기 위해선, memory-profiler package 설치가 필요합니다.(!pip install memory-profiler)

- 추가사항
1. 데이터 크기를 줄이기 위해 모든 feature들은 float32 type으로 변환하여 저장하였습니다.
2. Intel(R) Core(TM) i5-7500 CPU @ 3.40GHz (4 Cores), Jupyter notebook, Python 3.7.6 환경에서 구현하였습니다.
3. Data는 SSD에 저장하여 입출력하였습니다.

4. 압축해제된 *.npy 파일들로부터 2개의 DataFrame을 생성하는데 약 14초 / 15GBytes 가 소모되었습니다.
5. DataFrame을 feather file(*.ftr)로 변환하는데 약 22.5초가 소모되었습니다.
6. 변환된 feather file(*.ftr)의 크기는 총 약 7GBytes 입니다.
7. Feather file을 읽어오는데 약 1.3초가 소모되었고 약 7GBytes 메모리가 사용되었습니다.

8. Parquet format을 사용하는 경우, 변환된 파일의 크기는 약 5.2GBytes 로 작지만 저장 및 불러오는 시간이 각각 5분 21초, 30초 정도로 비교적 오래 걸리기 때문에 feather format을 선택하였습니다.