📣 데이콘 대회 및 교육용 데이터셋을 제보해 주세요!

2022.01.20 18:25 3,031 Views

안녕하세요, 데이커 여러분!

데이콘 팀에서는 양질의 데이터에 기반하여 데이커분들께 좋은 대회와 교육 콘텐츠를 제공하기 위해 많은 노력을 하고 있습니다.

그러나 더욱더 좋은 서비스를 제공하기 위해선 데이커 여러분들의 도움이 필요합니다.


본 게시글의 댓글로 데이터셋을 제보해 주시면, 데이콘에서 검토 후 소정의 보상을 드립니다!

더하여, 제보해 주신 데이터셋으로 대회 또는 교육 서비스화 진행 시, 감사한 마음을 담아 콘텐츠 내에 해당 데이커분의 ID가 기입됩니다.


세상은 넒고 데이터도 많다! 라고 생각하시는 분, 재밌는 데이터를 알고 계시는 분, 혹은 직접 관련 서비스를 운영하시는 분들의 적극적인 제보를 기다립니다.



"데이터, 그것이 필요하다."


대상

데이커라면 누구나


목적

데이콘 서비스(대회, 교육 등)에 활용 가능한 데이터 풀 수집


필요 사항

1. 저작 및 배포권

모든 데이터는 데이콘 서비스에 참여하는 데이커분들께 제공 가능하도록 저작권 및 배포권이 오픈되어 있어야 합니다. (ex. CC0 저작권 보유 데이터)

공개된 데이터 중 저작권 여부를 직접 판단하기 어려운 경우, 링크만 제출해 주시면 데이콘 팀에서 직접 파악하겠습니다.


2. 데이터의 형태

일반적인 테이블 형식의 정형 데이터(시계열 포함)와 각종 비정형 데이터(ex. Vision, NLP, Audio) 등. 분석 혹은 시각화에 활용 가능한 형태여야 합니다.

데이터 출처 URL을 댓글로 기입해 주시면, 데이콘 팀에서 검토를 진행합니다.

각종 개인 저장소 혹은 DB에 존재하는 고유 데이터의 경우, 댓글로 간단한 설명을 덧붙여 주세요. 데이콘 팀에서 참고하여 검토 후, 별도 협의를 진행할 예정입니다.


3. 데이터의 수집, 가공 및 처리 방식

크롤링 혹은 API 연동을 통해 지속적으로 수집 가능한 데이터(크롤러 개발 및 API 연동은 데이콘에서 직접 수행), TXT(CSV, TSV 등 변형 포함), Excel 등의 Flat File 및 DB Dump, Snapshot File과 각종 비정형 데이터에서 지원하는 고유 확장자 File 모두 제보 가능합니다.


4. 언어 및 지역, 시간

영문 및 한국어, 기타 숫자, 기호, Unicode 가능합니다. (이외 언어로 작성된 경우, 해당 언어가 포함된 Column이 factor level 100 이하의 범주형 변수인 경우 가능)

시계열 데이터 혹은 기타 timestamp가 존재하는 데이터의 경우, 데이터 테이블 내부에 timezone이 표기되어 있지 않더라도 데이콘 팀에서 파악 가능한 별도 정보 혹은 메타 정보가 있는 데이터를 권장합니다.


5. 제보 정책

데이콘에서 기존에 활용한 이력이 있는 데이터 셋은 제보 대상에서 제외합니다.

동일한 데이터의 중복 제보는 인정하지 않으며, 중복이 발생한 경우 댓글을 먼저 등록한 데이커의 제보를 우선으로 합니다.


6. 제보 방식

데이터 제보는 다음과 같은 양식으로 본 게시글에 댓글로 기입해 주세요.


데이터셋 이름, 정형/비정형(Vision, NLP, Audio), URL

예) ㅁㅁㅁ 데이터, 비정형(NLP), www.abcdefg.ai



보상

1. 데이터의 위치(URL 등) 및 기타 유효한 데이터를 제보해 주신 경우, 스타벅스 아메리카노 기프티콘(1잔)을 지급해 드립니다.

만약 제보해 주신 데이터가 실제 서비스에 사용될 경우, 5만 원 상당의 기프티콘을 추가로 드립니다!


2. 법인 및 연구소 등 지속적인 데이터 제공이 가능한 데이커분들께서는 데이콘 팀과 별도의 업무 계약을 통한 보상 지급이 가능합니다.


3. 개인, 법인, 연구소 등 데이터 출처와 무관하게 외부에 공개되지 않은 유효한 고유 데이터 셋을 제공해 주시는 경우(저작권, 배포권 free 필수), 데이콘 팀 검토 후 현금 500만 원(VAT 별도)을 지급해 드립니다.


4. (공통 사항) 제보해 주신 데이터를 실제 서비스에 활용할 경우, 해당 콘텐츠에 데이커분의 ID가 기입됩니다!



데이콘 팀은 데이커 여러분들의 사랑과 관심을 바탕으로 더 좋은 서비스를 제공하기 위해 최선을 다하겠습니다.

많은 참여 부탁드립니다!





로그인이 필요합니다
0 / 1000
이대권
2022.01.21 15:00

안녕하세요. 범위가 넓기는 한데요, 이렇게 제보하면 될까요? https://earthdata.nasa.gov

DACONIO
2022.01.24 11:13

네, 감사합니다. :]
특정 데이터가 아니라 데이터를 수집할 수 있는 사이트 자체를 제보 주실 경우, 간략한 사이트 설명이나 데이콘에서 검토할 때 참고할만한 기타 사항들 같이 기입해 주시면 큰 도움이 됩니다.

이대권
2022.01.26 11:02

네 확인 했습니다. 좀 더 좁혀서 제보를 해야겠네요~. 
카톡방에서 공유된 화재 데이터 https://zenodo.org/record/5643075#.YfCrH_VBxpJ 링크 전달 드립니다. 
저는 공유된 링크를 전달 드렸기 때문에 리워드를 받는 것은 사양하겠습니다. 감사합니다.

annsyj94
2022.01.21 19:44

서브웨이 샌드위치 영양 섭취 데이터, 정형 (RMSE) , https://www.subway.com/en-US/MenuNutrition/Nutrition/NutritionGrid

DACONIO
2022.01.24 11:14

감사합니다. 검토 진행하겠습니다.

DACONIO
2022.02.03 11:46

annsyj94님, 검토 결과 유효한 데이터 셋으로 판정되어 스타벅스 아이스아메리카노 기프티콘 지급 예정입니다.
축하드립니다!

Jida
2022.01.25 17:49

USA 정부 오픈 데이터셋 사이트, https://catalog.data.gov/dataset
미국 은행 데이터셋 사이트, https://www.federalreserve.gov/data.htm
캘리포니아 오픈 데이터셋 사이트, https://data.ca.gov
뉴욕 오픈 데이터셋 포털, https://data.ny.gov
NASA 오픈 데이터셋 사이트, https://data.nasa.gov/browse
UCI 머신러닝 데이터셋 저장소, https://archive.ics.uci.edu/ml/datasets.php
FiveThirtyEight 데이터셋 사이트, https://data.fivethirtyeight.com

DACONIO
2022.02.03 11:21

좋은 소스 감사합니다. 검토 진행중입니다.

DACONIO
2022.02.03 11:46

Jida님, 검토 결과 유효한 데이터 셋으로 판정되어 스타벅스 아이스아메리카노 기프티콘 지급 예정입니다.
축하드립니다!

이대권
2022.02.18 16:19

Fire Calorimetry Database (FCD) https://www.nist.gov/el/fcd 제보합니다.

DACONIO
2022.02.21 12:18

감사합니다. 검토 진행하겠습니다.

창이
2023.04.18 17:04

안녕하세요, 데이터 셋 공유 후, 저희 의사결정에 필요한 주제로 대회를 개최할 수도 있는걸까요? 

도비콘
2023.04.19 11:33

안녕하세요. 창이님
의사결정에 필요한 주제라는 것이 어떤 의미일까요? 
dacon@dacon.io 로 자세한 내용을 부탁 드립니다.
감사합니다. 데이콘팀 드림.

비공전함
2023.04.19 12:17

포켓몬 이미지 만들기,  https://www.kaggle.com/datasets/thomassirvent/all-pokemon, 이건 저가 대회로 한번 해보고 싶은 주제ㅣㅂ니다.
저도 이미 존재하는 캐글 링크를 전달 드렸기 때문에 리워드를 받는 것은 사양하겠습니다. 감사합니다.

Mather
2023.04.19 12:29

비공전함 님 감사합니다. 
검토하겠습니다.!