AI프렌즈 위성관측 데이터 활용 강수량 산출 AI 경진대회

알고리즘 | 정형 | 회귀 | 기상 | MAE,F1score

  • moneyIcon 상금 : 총 250만원
  • 939명 마감

 

Dataframe generator

2020.04.05 06:55 7,863 조회 language

*.npy 파일로 주어진 데이터를 train.ftr과 test.ftr (feather)로 변환하고 불러오는 코드입니다.
`ROOT_DIR_PATH`와 PATH 상수, NAME_COL 사용여부 등을 적절히 바꿔 사용하세요.

1. Column 순서는 다음과 같습니다.
[밝기온도0, 밝기온도1, ..., 밝기온도8, 지표타입, GMI 경도, GMI 위도, DPR 경도, DPR 위도(, 강수량)]

2. 사용된 package version은 다음과 같습니다.
// requirements.txt
pandas==1.0.1
numpy==1.18.1
tqdm==4.42.1

3. %memit를 사용하기 위해선, memory-profiler package 설치가 필요합니다.(!pip install memory-profiler)

- 추가사항
1. 데이터 크기를 줄이기 위해 모든 feature들은 float32 type으로 변환하여 저장하였습니다.
2. Intel(R) Core(TM) i5-7500 CPU @ 3.40GHz (4 Cores), Jupyter notebook, Python 3.7.6 환경에서 구현하였습니다.
3. Data는 SSD에 저장하여 입출력하였습니다.

4. 압축해제된 *.npy 파일들로부터 2개의 DataFrame을 생성하는데 약 14초 / 15GBytes 가 소모되었습니다.
5. DataFrame을 feather file(*.ftr)로 변환하는데 약 22.5초가 소모되었습니다.
6. 변환된 feather file(*.ftr)의 크기는 총 약 7GBytes 입니다.
7. Feather file을 읽어오는데 약 1.3초가 소모되었고 약 7GBytes 메모리가 사용되었습니다.

8. Parquet format을 사용하는 경우, 변환된 파일의 크기는 약 5.2GBytes 로 작지만 저장 및 불러오는 시간이 각각 5분 21초, 30초 정도로 비교적 오래 걸리기 때문에 feather format을 선택하였습니다.

코드
로그인이 필요합니다
0 / 1000
최정명
2020.04.05 07:30

데이터 설명에서 type feature가 categorical인 듯 설명하지만  원본의 데이터도 의미가 있을것 같아요.

alchemine
2020.04.05 18:53

참고하여 전부 float로 수정하였습니다.

ChiefDataOfficer
2020.04.05 11:09

변수명이 long_GMI, lat_GMI, long_DPR, lat_DPR로 순서가 바뀌면 좋을 것 같습니다..! 경도(longitude)가 먼저 오고 위도(latitude)가 오는 것으로 데이터 설명에 기입되어 있네요..

alchemine
2020.04.05 18:51

수정했습니다!

도비콘
2020.08.15 12:52

감사합니다.

이전 글
리더보드 1.51736점 코드 공개 (ResNet 기반 모델)
대회 - AI프렌즈 위성관측 데이터 활용 강수량 산출 AI 경진대회
좋아요 34
조회 9,129
댓글 20
4년 전
현재 글
Dataframe generator
대회 - AI프렌즈 위성관측 데이터 활용 강수량 산출 AI 경진대회
좋아요 27
조회 7,863
댓글 5
4년 전
다음 글
다음 글이 존재하지 않습니다.