도배 하자 질의 응답 처리 : 한솔데코 시즌2 생성 AI 경진대회

새로운 데이터셋 만들기 Based on Mistral-7B

2024.01.31 01:44 1,692 조회

개인적으로 캐글을 참가하면서 인상 깊은 자료가 있었습니다.


해당 자료는 다음과 같습니다.

https://www.kaggle.com/code/defdet/mistral-essay-generation


해당 노트북은 `mistralai/Mistral-7B-v0.1`를 풀로드하여 특정 데이터를 만드는 코드입니다.

  • 캐글에서 TPU를 일주일 동안 20시간으로 무료 제공하기 때문에, 12시간 내외로 작동되는 설정으로 진행하시기 바랍니다.


토픽이나 템퍼러쳐에 대한 부분은 다음 코드에서 이용하실 수 있습니다.

```

TOPICS = ["Car-free cities",
"Does the electoral college work?",
"Exploring Venus",
"The Face on Mars",
"Facial action coding system",
"Seeking multiple opinions",
"Phones and driving"]
top_k = 6

```

위에서 top_k의 인덱스가 좀 과하게 설정되었는데, 2부터 시작해서 점차 늘려가시기 바랍니다.


인스트럭션에 대한 부분은 다음과 같습니다.

```

<s>[INST]
Write an essay based on the topic provided as if you were a student. Your essay needs to be unique and convincing and not very long. Output nothing but the essay.

Topic: {TOPICS[2]}[/INST]

```


해당 노트북 하단에 위치해 있으며, 해당 INST 밑 부분을 수정하시면, 해당 내용으로 프롬프트가 진행됩니다.


해당 구조로 In-Context Learning 같은 기법을 이용하실 수도 있을겁니다.