분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
도배 하자 질의 응답 처리 : 한솔데코 시즌2 생성 AI 경진대회
한글 위키피디아 활용
먼저 한글 위키피디아 데이터셋 관련 자료 링크드립니다.
https://ko-nlp.github.io/Korpora/ko-docs/corpuslist/kowikitext.html
해당 링크는 한글 위키피디아에 대한 데이터셋 자료이며,
해당 자료를 통해서 뽑은 데이터 자료로 Fine-tuning 을 진행하는 그림을 그려볼 수 있습니다.
주최 측의 트레이닝 데이터셋 카테고리는 다음과 같습니다.
`건축구조, 기타, 마감재, 마감하자, 시공, 인테리어, 타 마감하자`
관련된 키워드로 시작하여, 데이터를 일차적으로 추출한 다음, 각 문서별 Word Frequency를 구해서
다시 2차적으로 새로운 데이터를 추출하거나 또는 기존 데이터를 걸러내는 작업을 진행하실 수 있겠습니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io |
전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved