도배 하자 질의 응답 처리 : 한솔데코 시즌2 생성 AI 경진대회

한글 위키피디아 활용

2024.01.31 01:56 1,642 조회

먼저 한글 위키피디아 데이터셋 관련 자료 링크드립니다.

https://ko-nlp.github.io/Korpora/ko-docs/corpuslist/kowikitext.html


해당 링크는 한글 위키피디아에 대한 데이터셋 자료이며,

해당 자료를 통해서 뽑은 데이터 자료로 Fine-tuning 을 진행하는 그림을 그려볼 수 있습니다.


주최 측의 트레이닝 데이터셋 카테고리는 다음과 같습니다.

`건축구조, 기타, 마감재, 마감하자, 시공, 인테리어, 타 마감하자`


관련된 키워드로 시작하여, 데이터를 일차적으로 추출한 다음, 각 문서별 Word Frequency를 구해서

다시 2차적으로 새로운 데이터를 추출하거나 또는 기존 데이터를 걸러내는 작업을 진행하실 수 있겠습니다.