Visually-rich Document Understanding : 2025 Samsung AI Challenge

알고리즘 | 삼성 | 채용 | 멀티모달 | OCR | Document Parsing | 코드 제출 평가

상금 2,100만 원
271명 마감

연습

대회안내 데이터 코드 공유 토크 리더보드

제출

설명

[배포용 데이터 구조]

open.zip/

├── baseline_submit.zip

└── data/

├── sample_submission.csv

├── test.csv

└── test/

├── TEST_00.pptx

├── TEST_01.png

├── TEST_02.pdf

└── TEST_03.jpg

...

[주요 구성]

baseline_submit.zip: 베이스라인 코드 기반 코드 제출 대회 제출 예시 파일 (제출 시 채점 대기를 제외하고 실 채점에 약 4분30초 소요)
data/sample_submission.csv: 모델 출력 결과 형식 예시 CSV (실제 생성 CSV 파일명은 반드시 submission.csv 이어야 합니다.)
ID : 문서 샘플 식별 ID
category_type : 문서 내 요소 종류 'title', 'subtitle', 'text', 'image', 'table', 'equation'
confidence_score : 예측한 요소(category_type)가 해당 위치(bbox)에 존재한다고 판단한 신뢰도 점수
order : 문서 내 요소 읽기 순서 (Reading Order), 예측은 0부터 시작
text : 문서 내 요소 중 'title', 'subtitle', 'text'에 대한 실제 텍스트 (수식의 경우 LaTeX 형태)
bbox : 문서 내 요소의 Bounding Box 실제 픽셀 좌표 (x1, y1, x2, y2 형태)
data/test.csv: 테스트 파일 목록이 포함된 CSV (배포용 데이터에는 참고용 테스트 더미 파일로 구성되어 있으며 제출 시에는 실제 평가 데이터로 대체됩니다.)
ID : 문서 샘플 식별 ID
path : test.csv의 위치를 기준으로하는 문서 샘플 파일 상대 경로
width : 문서 샘플의 실제 크기 (픽셀단위, x)
height : 문서 샘플의 실제 크기 (픽셀단위, y)
data/test/: 다양한 형식의 테스트 문서들 (.pptx, .png, .pdf, .jpg) (배포용 데이터에는 참고용 테스트 더미 파일로 구성되어 있으며 제출 시에는 실제 평가 데이터로 대체됩니다.)

※ 본 대회에서는 별도의 학습 데이터가 제공되지 않으며, 대회 규칙 범위 내에서 직접 학습 데이터를 구성할 수 있습니다.

※ 실제 평가 데이터셋은 총 72개의 테스트 문서로 구성되어 있으며, PPT와 PDF 문서의 경우에는 모두 단일 슬라이드(pptx), 단일 페이지(pdf)로 이루어져 있습니다.

Visually-rich Document Understanding : 2025 Samsung AI Challenge

알고리즘 | 삼성 | 채용 | 멀티모달 | OCR | Document Parsing | 코드 제출 평가

설명

...

상세

AI 해커톤 플랫폼