분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
우리는 보고서, 발표자료, 제안서, 매뉴얼 등 다양한 문서에서 언어뿐만 아니라 시각적 요소(레이아웃, 색상, 폰트, 이미지, 도형)를 활용해 복잡한 의미와 의도를 전달합니다.
하지만 오늘날의 AI 모델은 이러한 문서를 사람처럼 이해하기에 여전히 한계가 큽니다. 대부분의 문서 이해 시스템은 텍스트 추출(OCR)이나 단편적 정보 인식에 머물러 있으며, 시각적 표현 방식에 담긴 강조, 구조적 배치의 의도, 인간의 설계 전략을 온전히 파악하지 못합니다.
이러한 접근은 인간 중심의 표현 방식을 따르는 실제 문서 환경에서 제대로 작동하기 어렵습니다. AI가 사람처럼 문서를 이해하려면 단어 그 자체뿐 아니라, 1) 어떤 내용이 어디에 배치되었고, 2) 어떤 흐름으로 정보가 전개되고, 3) 그 문서를 통해 무엇을 전달하고자 하는지를 추론할 수 있어야 합니다.
이는 단순히 언어 처리나 컴퓨터 비전의 문제가 아닌, 멀티모달 정보 통합과 인간 의도 추론이라는 고차원적 문제입니다.
인간이 문서를 통해 표현하고자 한 의미, 강조, 구조, 의도를 해석할 수 있는 AI 모델 개발
보고서, 발표자료, 논문, 제안서 등 다양한 문서(.png, .jpg, .pdf, .pptx)에 대해 시각적 요소와 텍스트의 통합적 이해를 통해 인간 중심 문서의 의도를 해석하는 멀티모달 AI 모델을 개발하는 것을 목표로 합니다.
🔹문서 내 page_footnote, page_number, reference, header, footer 등은 모두 무시하며, 평가에 고려되지 않습니다.
🔹수식 추출의 경우, LaTeX 형식으로 추출해야합니다.
🔹문서에서 탐지해야할 요소(category_type)는 총 6개로 'title', 'subtitle', 'text', 'image', 'table', 'equation'으로 구성되어 있으며, 이 6개 이외의 다른 요소(category_type)를 탐지하는 것은 평가에 고려되지 않습니다.
🔹기본적으로 탐지되는 요소(category_type)로부터 각각 text, order, bbox를 예측해야하지만, 6개의 요소 중에서 'image', 'table', 'equation'은 order, bbox만 추출합니다.
※ 평가 데이터와 정답(GT) 예시 : [링크]
본 대회의 제출은 submit.zip 업로드 방식의 '코드 제출 대회'로 진행됩니다. 평가가 정상적으로 실행되기 위해서는 다음 조건을 충족해야 합니다:
자세한 사항은 평가 탭과 코드 제출 가이드를 반드시 참고하여 진행하시길 바랍니다.
대학생/대학원생 (개인 또는 팀 단위, 팀 최대 3명)
※ 졸업 유예생의 경우, 본인 소속 대학의 학적 상태를 따름
※ 박사 수료생의 경우, 수상 후보팀 선정시에 학생 신분을 증빙하는 서류 제출 필요 (재학증명서, 연구생증명서, 재적증명서 등)
대회 시작
팀 병합 마감
리더보드 제출 마감
대회 종료
2차 평가 자료 제출 마감
2차 평가 및 검증 마감
최종 결과 발표
우리는 보고서, 발표자료, 제안서, 매뉴얼 등 다양한 문서에서 언어뿐만 아니라 시각적 요소(레이아웃, 색상, 폰트, 이미지, 도형)를 활용해 복잡한 의미와 의도를 전달합니다.
하지만 오늘날의 AI 모델은 이러한 문서를 사람처럼 이해하기에 여전히 한계가 큽니다. 대부분의 문서 이해 시스템은 텍스트 추출(OCR)이나 단편적 정보 인식에 머물러 있으며, 시각적 표현 방식에 담긴 강조, 구조적 배치의 의도, 인간의 설계 전략을 온전히 파악하지 못합니다.
이러한 접근은 인간 중심의 표현 방식을 따르는 실제 문서 환경에서 제대로 작동하기 어렵습니다. AI가 사람처럼 문서를 이해하려면 단어 그 자체뿐 아니라, 1) 어떤 내용이 어디에 배치되었고, 2) 어떤 흐름으로 정보가 전개되고, 3) 그 문서를 통해 무엇을 전달하고자 하는지를 추론할 수 있어야 합니다.
이는 단순히 언어 처리나 컴퓨터 비전의 문제가 아닌, 멀티모달 정보 통합과 인간 의도 추론이라는 고차원적 문제입니다.
인간이 문서를 통해 표현하고자 한 의미, 강조, 구조, 의도를 해석할 수 있는 AI 모델 개발
보고서, 발표자료, 논문, 제안서 등 다양한 문서(.png, .jpg, .pdf, .pptx)에 대해 시각적 요소와 텍스트의 통합적 이해를 통해 인간 중심 문서의 의도를 해석하는 멀티모달 AI 모델을 개발하는 것을 목표로 합니다.
🔹문서 내 page_footnote, page_number, reference, header, footer 등은 모두 무시하며, 평가에 고려되지 않습니다.
🔹수식 추출의 경우, LaTeX 형식으로 추출해야합니다.
🔹문서에서 탐지해야할 요소(category_type)는 총 6개로 'title', 'subtitle', 'text', 'image', 'table', 'equation'으로 구성되어 있으며, 이 6개 이외의 다른 요소(category_type)를 탐지하는 것은 평가에 고려되지 않습니다.
🔹기본적으로 탐지되는 요소(category_type)로부터 각각 text, order, bbox를 예측해야하지만, 6개의 요소 중에서 'image', 'table', 'equation'은 order, bbox만 추출합니다.
※ 평가 데이터와 정답(GT) 예시 : [링크]
본 대회의 제출은 submit.zip 업로드 방식의 '코드 제출 대회'로 진행됩니다. 평가가 정상적으로 실행되기 위해서는 다음 조건을 충족해야 합니다:
자세한 사항은 평가 탭과 코드 제출 가이드를 반드시 참고하여 진행하시길 바랍니다.
대학생/대학원생 (개인 또는 팀 단위, 팀 최대 3명)
※ 졸업 유예생의 경우, 본인 소속 대학의 학적 상태를 따름
※ 박사 수료생의 경우, 수상 후보팀 선정시에 학생 신분을 증빙하는 서류 제출 필요 (재학증명서, 연구생증명서, 재적증명서 등)
08.04
대회 시작09.05
팀 병합 마감09.10
리더보드 제출 마감09.12
대회 종료09.17
2차 평가 자료 제출 마감09.25
2차 평가 및 검증 마감09.26
최종 결과 발표
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io |
전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved