재정정보 생성 AI 활용 검색 알고리즘 경진대회

알고리즘 | NLP | 생성형 AI | LLM | 질의응답 | F1 Score

 

대회 관련 질문드립니다.

2024.08.05 22:39 1,481 조회
  1. 대회 안내의 유의사항을 보면 평가 데이터셋을 학습시키는 pseudo labeling은 규칙에서 위반된다고 되었습니다. 이때 test pdf를 rag에 사용해도 되는지 궁금합니다.
  2. 또한 가중치 파일이 공개된 오픈소스 모델을 사용한다면 test pdf로 질답을 생성한 뒤 다양한 학습에 사용할 수 있는지 궁금합니다.
로그인이 필요합니다
0 / 1000
fvplfvociac
2024.08.06 09:59

1번은, 추론과정에선 rag릃 해도 되는게 아닐까요? train 셋만 가지고 대답을 하라고 해라했으면 아마 source 파일은 공개하지 않고 질문만 공개했을 것같네요
2번은 근데 문제가 있을 수도 있을 것 같습니다 질답을 생성한다는 건, 결국 질답을 train 한다는건데 그렇게 되면 test set이 더이상 test set이 아니게 됩니다

이상적인 학습과정은 1) train set에서 여러가지 파인튜닝하고 rag기법을 하니까 이런 성능을 보여줬다 => 2) 똑같이 test pdf에도 그대로 predict(아마 rag까지만) 하였고, 이걸 submit해보니까 성적이 좋았다 이거이지 않을까 싶네요 물론 데이콘 또는 주최측 답변을 듣는게 더 정확할것같습니다

decadencia
2024.08.06 18:06

이 내용에 추가해서 목차 페이지를 참고해서 데이터 전처리를 진행하려고 하는데, 테스트 데이터의 PDF파일에서 목차 페이지가 몇 페이지인지 쓰는 정도의 참고도 data leakage에 해당하는지 궁금합니다.

DACON.GM
2024.08.07 11:14

샘플에 해당하는 PDF Source에서 목차 페이지가 몇 페이지인지를 파악한 후 이를 활용하여 질의에 대한 답변을 생성하고, 이러한 방식이 샘플에 독립적으로 작동한다면 Data Leakage에 해당하지 않습니다.

DACON.GM
2024.08.07 09:13

1) 샘플에 독립적으로 추론되는 범위 내에서 사용 가능합니다.
2) Test 데이터는 학습에 활용할 수 없습니다.