분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
[Public : 0.6223767046] baseline 공유
baseline에서 바뀐 것
1. prompt
2. intfloat/multilingual-e5-small -> intfloat/multilingual-e5-base
3. chunk size & chunk overlap
4. model -> tzr/ko-gemma-2-9b-it
fine-tuning 등 성능 개선하시면 좋을 것 같습니다.
추가로 제가 eval metric코드를 올려놨었는데 띄어쓰기(' ', '\n', '\b')는 평가할때 포함되지 않는 것 같아서 수정했습니다.
A100 80gb환경에서 실행했던 코드라 OOM이 발생할 수 있습니다 ..
test_datatset의 pdf를 rag에 사용하는것은 data leakeage에 해당하는게 아닌건가요?
1. 전 그냥 baseline에서 조금 수정한 것 뿐입니다.
2. test dataset의 pdf를 사용하지 않으면 모델의 성능은 처참할 겁니다.(특정 분야에 대한 자세한 정보들이기 때문에) rag를 적용하지 않으면 이 대회를 하는 이유가 없겠죠?
3. 제 생각에 이 대회의 data leakage는 사람이 test dataset의 질문에 대해 test dataset의 pdf를 참고해서 train dataset의 answer와 비슷한 말투로 답변을 만들어 내고 이를 fine tuning에 활용하는 것이 첫번째 data leakage라고 생각합니다.(LB에는 엄청 성능이 좋겠지만 실제 현업에 적용하면 성능이 안좋겠죠?) 그리고 test dataset의 답변을 기반으로 프롬프팅을 하는게 두번째 data leakage라고 생각합니다.
간단하게 정리하자면 pdf를 던져줄테니까 이걸 동일한 프로세스에 따라서 답변을 생성해라고 생각하시면 됩니다. 그러니 매번 답변을 생성할때마다 프롬프팅을 바꾸거나 답변을 인간이 만든다? 이건 말이안되는거고 rag를 포함한 다른 방법들은 data leakage가 아닐 것 같습니다.
ㅣ제가 한 말이 정답이 아닐 수 있습니다. 이해 안되는 부분이나 제 말에 잘못된 부분이 있는 것 같으시면 누구든지 말씀해주세요!
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
공유 감사합니다!!