규칙에 관련하여 질문드립니다.

건설공사 사고 예방 및 대응책 생성 : 한솔데코 시즌3 생성 AI 경진대회

규칙에 관련하여 질문드립니다.

LEXXSH

2025.03.07 14:44 1,823 조회

생성된 문장을 임베딩하고 제출하는 과정에서 궁금증이 생겨 질문드립니다.

LLM의 출력을 통해 임베딩된 숫자 벡터를 기반으로 일관된 처리를 수행한 후 최종 제출값을 생성하는 것이 허용되는지 궁금합니다.

해당방식이 규칙을 준수하는지 답변해 주시면 감사하겠습니다.

댓글 3개

로그인이 필요합니다

comment

0 / 1000

DACON.GM

2025.03.07 15:12

아래 규칙을 준수해야합니다.
※ S-Bert Cosine 유사도에 활용되는 Embedding Vector는 반드시 Jaccard 유사도에 활용되는 Text이어야 합니다.

즉, 생성된 Text를 후처리한 뒤 해당 Text를 임베딩하는 것은 가능하나,
임베딩 자체에 변형을 준다는 것은 Jaccard 유사도 측정에 활용되는 Text에 변형을 가하는 것이므로 불가능합니다.

Cafelatte

2025.03.13 21:01

후처리가 가능한 것인가요? 꼭 생성된 텍스트 데이터를 기반으로 제출을 안 해도 되는 것인가요?
ex. '안녕하세요' 라는 텍스트를 LLM으로 생성 후 '안녕' 이라고 특정 알고리즘에 따라 텍스트를 변형하여 제출
이 방식이 자체가 허용된다면 기존 정책과 모순이 되는 것 같습니다.

DACON.GM

2025.03.13 21:51

'안녕하세요' 라는 텍스트를 LLM으로 생성 후 '안녕' 이라고 특정 알고리즘에 따라 텍스트를 변형하여 나온 값을 임베딩한다면
'※ S-Bert Cosine 유사도에 활용되는 Embedding Vector는 반드시 Jaccard 유사도에 활용되는 Text이어야 합니다.' 를 준수하는 방법이며 모순되지 않습니다. 즉, 자카드 유사도 평가를 위한 Text는 '안녕'이고, '안녕'의 임베딩 벡터를 제출하는 것입니다.
하지만, '안녕하세요'를 '안녕'으로 변환하는 후처리는 모든 샘플에 일괄적으로 이루어져야합니다. 만약, 특정 샘플 별로 다른 후처리를 적용하는 것은 Data Leakage에 해당할 수 있습니다.

📣 댓글 작성 창의 위치가 댓글 리스트 상단으로 이동했습니다!

목록으로

데이터 분석 아이디어 경진대회 수상자 인터뷰 sw_park

대회 - 데이터 분석 아이디어 경진대회 - 월간 데이콘

일 년 전

현재 글

규칙에 관련하여 질문드립니다.

대회 - 건설공사 사고 예방 및 대응책 생성 : 한솔데코 시즌3 생성 AI 경진대회

일 년 전

대회 종료 후 데이터 제외 작업한 파일에 대하여

대회 - 건설공사 사고 예방 및 대응책 생성 : 한솔데코 시즌3 생성 AI 경진대회

일 년 전