[배경]
우리는 보고서, 발표자료, 제안서, 매뉴얼 등 다양한 문서에서 언어뿐만 아니라 시각적 요소(레이아웃, 색상, 폰트, 이미지, 도형)를 활용해 복잡한 의미와 의도를 전달합니다.
하지만 오늘날의 AI 모델은 이러한 문서를 사람처럼 이해하기에 여전히 한계가 큽니다. 대부분의 문서 이해 시스템은 텍스트 추출(OCR)이나 단편적 정보 인식에 머물러 있으며, 시각적 표현 방식에 담긴 강조, 구조적 배치의 의도, 인간의 설계 전략을 온전히 파악하지 못합니다.
이러한 접근은 인간 중심의 표현 방식을 따르는 실제 문서 환경에서 제대로 작동하기 어렵습니다. AI가 사람처럼 문서를 이해하려면 단어 그 자체뿐 아니라, 1) 어떤 내용이 어디에 배치되었고, 2) 어떤 흐름으로 정보가 전개되고, 3) 그 문서를 통해 무엇을 전달하고자 하는지를 추론할 수 있어야 합니다.
이는 단순히 언어 처리나 컴퓨터 비전의 문제가 아닌, 멀티모달 정보 통합과 인간 의도 추론이라는 고차원적 문제입니다.
[주제]
인간이 문서를 통해 표현하고자 한 의미, 강조, 구조, 의도를 해석할 수 있는 AI 모델 개발
[설명]
보고서, 발표자료, 논문, 제안서 등 다양한 문서(.png, .jpg, .pdf, .pptx)에 대해 시각적 요소와 텍스트의 통합적 이해를 통해 인간 중심 문서의 의도를 해석하는 멀티모달 AI 모델을 개발하는 것을 목표로 합니다.
🔹문서 내 page_footnote, page_number, reference, header, footer 등은 모두 무시하며, 평가에 고려되지 않습니다.
🔹수식 추출의 경우, LaTeX 형식으로 추출해야합니다.
🔹문서에서 탐지해야할 요소(category_type)는 총 6개로 'title', 'subtitle', 'text', 'image', 'table', 'equation'으로 구성되어 있으며, 이 6개 이외의 다른 요소(category_type)를 탐지하는 것은 평가에 고려되지 않습니다.
🔹기본적으로 탐지되는 요소(category_type)로부터 각각 text, order, bbox를 예측해야하지만, 6개의 요소 중에서 'image', 'table', 'equation'은 order, bbox만 추출합니다.

※ 평가 데이터와 정답(GT) 예시 : [링크]
[코드 제출 대회]
본 대회의 제출은 submit.zip 업로드 방식의 '코드 제출 대회'로 진행됩니다. 평가가 정상적으로 실행되기 위해서는 다음 조건을 충족해야 합니다:
- 추론 코드 실행 시간 ≤ 60분
- 패키지(라이브러리) 설치 시간 ≤ 10분
- 제출 파일 용량 제한 ≤ 10GB
- 오프라인 환경 실행 (패키지 설치 외 인터넷 연결 불가능)
- T4 GPU (16GB VRAM), 3 vCPU, 12GB RAM 환경에서 실행
자세한 사항은 평가 탭과 코드 제출 가이드를 반드시 참고하여 진행하시길 바랍니다.
[참가 자격]
대학생/대학원생 (개인 또는 팀 단위, 팀 최대 3명)
- 팀 구성원 모두 국내외 재학중인 대한민국 국적의 대학(원)생
- 수상은 아래 조건을 충족해야 함
- 학적 상태가 재학 또는 휴학 상태이어야함
- 산업체, 연구소 등에 재직 중인 사람은 수상 불가 (학술 연수중인 사람, 산업정부출연연구소 소속 학생연구원 포함)
- 최종 수상후보 팀은 재학증명서 또는 대체인증서류 제출 필수
※ 졸업 유예생의 경우, 본인 소속 대학의 학적 상태를 따름
※ 박사 수료생의 경우, 수상 후보팀 선정시에 학생 신분을 증빙하는 서류 제출 필요 (재학증명서, 연구생증명서, 재적증명서 등)
[주최 / 운영]