분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
2023 교원그룹 AI OCR 챌린지
label관련하여 질문드립니다!
안녕하세요!
평소에는 computer vision 분야를 공부하다가 이번 대회를 통해 Text recognition을 처음 접해서 공부를 하고있습니다.
단순한 질문인데 베이스라인 코드를 보니 char2idx를 통해 인코딩하고 idx2char을 통해 디코딩을 하는것으로 보이는데 그럼 train set에 없는 라벨에 대해서는 학습이 안되는건가요?
아하 답변 감사합니다!! 이해했습니다
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
페이지의 데이터부분을 보면 아래에
학습 데이터의 1글자 샘플의 경우, 1글자 단위의 모든 글자가 평가 데이터에도 존재합니다.
그러나 2글자 이상의 단어의 경우 학습/평가 데이터의 일부에만 존재할 수 있습니다.
모든 Label에 해당하는 Text에는 '공백'이 존재하지 않습니다. (Train / Test 모두 해당)
라고 언급되어있네요.
베이스라인 코드는 train set에 없는 라벨(글자)에 대해서는 학습이 안되는 건 맞습니다.
그래서 '학습 데이터의 1글자 샘플의 경우, 1글자 단위의 모든 글자가 평가 데이터에도 존재합니다.'로 구성되어 있는 것 같아요