분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
건설공사 사고 예방 및 대응책 생성 : 한솔데코 시즌3 AI 경진대회
규칙에 관련하여 질문드립니다.
생성된 문장을 임베딩하고 제출하는 과정에서 궁금증이 생겨 질문드립니다.
LLM의 출력을 통해 임베딩된 숫자 벡터를 기반으로 일관된 처리를 수행한 후 최종 제출값을 생성하는 것이 허용되는지 궁금합니다.
해당방식이 규칙을 준수하는지 답변해 주시면 감사하겠습니다.
후처리가 가능한 것인가요? 꼭 생성된 텍스트 데이터를 기반으로 제출을 안 해도 되는 것인가요?
ex. '안녕하세요' 라는 텍스트를 LLM으로 생성 후 '안녕' 이라고 특정 알고리즘에 따라 텍스트를 변형하여 제출
이 방식이 자체가 허용된다면 기존 정책과 모순이 되는 것 같습니다.
'안녕하세요' 라는 텍스트를 LLM으로 생성 후 '안녕' 이라고 특정 알고리즘에 따라 텍스트를 변형하여 나온 값을 임베딩한다면
'※ S-Bert Cosine 유사도에 활용되는 Embedding Vector는 반드시 Jaccard 유사도에 활용되는 Text이어야 합니다.' 를 준수하는 방법이며 모순되지 않습니다. 즉, 자카드 유사도 평가를 위한 Text는 '안녕'이고, '안녕'의 임베딩 벡터를 제출하는 것입니다.
하지만, '안녕하세요'를 '안녕'으로 변환하는 후처리는 모든 샘플에 일괄적으로 이루어져야합니다. 만약, 특정 샘플 별로 다른 후처리를 적용하는 것은 Data Leakage에 해당할 수 있습니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io |
전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
아래 규칙을 준수해야합니다.
※ S-Bert Cosine 유사도에 활용되는 Embedding Vector는 반드시 Jaccard 유사도에 활용되는 Text이어야 합니다.
즉, 생성된 Text를 후처리한 뒤 해당 Text를 임베딩하는 것은 가능하나,
임베딩 자체에 변형을 준다는 것은 Jaccard 유사도 측정에 활용되는 Text에 변형을 가하는 것이므로 불가능합니다.