재정정보 AI 검색 알고리즘 경진대회

알고리즘 | NLP | 생성형 AI | LLM | 질의응답 | F1 Score

  • moneyIcon Prize : 1,000만원
  • 1,038명 마감

 

[Public : 0.6223767046] baseline 공유

2024.08.06 11:29 2,138 Views language

baseline에서 바뀐 것

1. prompt 
2. intfloat/multilingual-e5-small -> intfloat/multilingual-e5-base
3. chunk size & chunk overlap
4. model  -> tzr/ko-gemma-2-9b-it

fine-tuning 등 성능 개선하시면 좋을 것 같습니다.

추가로 제가 eval metric코드를 올려놨었는데 띄어쓰기(' ', '\n', '\b')는 평가할때 포함되지 않는 것 같아서 수정했습니다.


A100 80gb환경에서 실행했던 코드라 OOM이 발생할 수 있습니다 ..

Code
로그인이 필요합니다
0 / 1000
AnAnomaly
2024.08.07 17:43

공유 감사합니다!!

캡제트필
2024.08.20 14:24

test_datatset의 pdf를 rag에 사용하는것은 data leakeage에 해당하는게 아닌건가요?

고세구
2024.08.20 15:58

1. 전 그냥 baseline에서 조금 수정한 것 뿐입니다.
2. test dataset의 pdf를 사용하지 않으면 모델의 성능은 처참할 겁니다.(특정 분야에 대한 자세한 정보들이기 때문에) rag를 적용하지 않으면 이 대회를 하는 이유가 없겠죠?
3. 제 생각에 이 대회의 data leakage는 사람이 test dataset의 질문에 대해 test dataset의 pdf를 참고해서 train dataset의 answer와 비슷한 말투로 답변을 만들어 내고 이를 fine tuning에 활용하는 것이 첫번째 data leakage라고 생각합니다.(LB에는 엄청 성능이 좋겠지만 실제 현업에 적용하면 성능이 안좋겠죠?) 그리고 test dataset의 답변을 기반으로 프롬프팅을 하는게 두번째 data leakage라고 생각합니다. 

간단하게 정리하자면 pdf를 던져줄테니까 이걸 동일한 프로세스에 따라서 답변을 생성해라고 생각하시면 됩니다. 그러니 매번 답변을 생성할때마다 프롬프팅을 바꾸거나 답변을 인간이 만든다? 이건 말이안되는거고 rag를 포함한 다른 방법들은 data leakage가 아닐 것 같습니다.
ㅣ제가 한 말이 정답이 아닐 수 있습니다. 이해 안되는 부분이나 제 말에 잘못된 부분이 있는 것 같으시면 누구든지 말씀해주세요!