분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
대회 관련 질문드립니다.
이 내용에 추가해서 목차 페이지를 참고해서 데이터 전처리를 진행하려고 하는데, 테스트 데이터의 PDF파일에서 목차 페이지가 몇 페이지인지 쓰는 정도의 참고도 data leakage에 해당하는지 궁금합니다.
샘플에 해당하는 PDF Source에서 목차 페이지가 몇 페이지인지를 파악한 후 이를 활용하여 질의에 대한 답변을 생성하고, 이러한 방식이 샘플에 독립적으로 작동한다면 Data Leakage에 해당하지 않습니다.
1) 샘플에 독립적으로 추론되는 범위 내에서 사용 가능합니다.
2) Test 데이터는 학습에 활용할 수 없습니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io |
전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
1번은, 추론과정에선 rag릃 해도 되는게 아닐까요? train 셋만 가지고 대답을 하라고 해라했으면 아마 source 파일은 공개하지 않고 질문만 공개했을 것같네요
2번은 근데 문제가 있을 수도 있을 것 같습니다 질답을 생성한다는 건, 결국 질답을 train 한다는건데 그렇게 되면 test set이 더이상 test set이 아니게 됩니다
이상적인 학습과정은 1) train set에서 여러가지 파인튜닝하고 rag기법을 하니까 이런 성능을 보여줬다 => 2) 똑같이 test pdf에도 그대로 predict(아마 rag까지만) 하였고, 이걸 submit해보니까 성적이 좋았다 이거이지 않을까 싶네요 물론 데이콘 또는 주최측 답변을 듣는게 더 정확할것같습니다