분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
2023 교원그룹 AI OCR 챌린지
심심해서 써보는 대회 관련 Ref
papers with code 의
Optical Character Recognition on Benchmarking Chinese Text Recognition: Datasets, Baselines, and an Empirical Study
벤치마킹에서 베이스라인인 CRNN과 순위권 모델들의 점수
MaskOCR이라는게 성능이 좋아보이네요. 하지만 구현이 된 github은 없습니다.
TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models
베이스라인은 RNN과 위 MaskOCR등 다른모델과의 비교
hugging face에서 사용할 수 있는 모델입니다.
Microsoft에서 발표한 것 같습니다.
https://github.com/microsoft/unilm/tree/master/trocr
https://huggingface.co/docs/transformers/model_doc/trocr
https://paperswithcode.com/sota/optical-character-recognition-on-benchmarking
Augmentation.
어떤 augmentation을 사용해 볼 수 있을까요?
너무 많은 Rotation은 혼란을 줄 수 있을 것 같습니다.
'문'을 90도 회전 시키면 '곰'을 회전시킨 건지 '문' 을 회전시킨 것인지 알기 힘들 수 있겠습니다.
cut mix 처럼 합치는 방법도 생각 해 볼 수 있겠습니다.
'빨간색' 이라는 글자와 '꽃' 이라는 글자가 각각 있다면 '빨간색 꽃' 으로 이미지를 합쳐 볼 수 도 있겠네요.
색을 변환 시키는것도 나쁘지 않을 것 같습니다.
아예 gray scale로 만들어서 threshold 로 black and white로 전처리 할 수 도 있겠네요.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
🤜🏻🤛🏽