분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
한글 위키피디아 활용
먼저 한글 위키피디아 데이터셋 관련 자료 링크드립니다.
https://ko-nlp.github.io/Korpora/ko-docs/corpuslist/kowikitext.html
해당 링크는 한글 위키피디아에 대한 데이터셋 자료이며,
해당 자료를 통해서 뽑은 데이터 자료로 Fine-tuning 을 진행하는 그림을 그려볼 수 있습니다.
주최 측의 트레이닝 데이터셋 카테고리는 다음과 같습니다.
`건축구조, 기타, 마감재, 마감하자, 시공, 인테리어, 타 마감하자`
관련된 키워드로 시작하여, 데이터를 일차적으로 추출한 다음, 각 문서별 Word Frequency를 구해서
다시 2차적으로 새로운 데이터를 추출하거나 또는 기존 데이터를 걸러내는 작업을 진행하실 수 있겠습니다.
DACON Co.,Ltd | CEO Kookjin Kim | 699-81-01021
Mail-order-sales Registration Number: 2021-서울영등포-1704
Business Providing Employment Information Number: J1204020250004
#901, Eunhaeng-ro 3, Yeongdeungpo-gu, Seoul 07237
E-mail dacon@dacon.io |
Tel. 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved