분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
도배 하자 질의 응답 처리 : 한솔데코 시즌2 생성 AI 경진대회
현 컴피티션에 대한 Pre-Processing의 필요성
현재, 트레이닝 데이터셋은 질문 2개와 레퍼런스 5개로 이루어졌습니다.
`면진장치가 뭐야?`
`면진장치에 사용되는 주요 기술은 무엇인가요?`
그리고 주최측에 데이터 설명은 다음과 같습니다.
질문_1, 질문_2 : 샘플 별 동일한 내용으로 구성된 질문 2개
하지만, 개인적으로 저 둘이 유사하다는 생각이 들지 않았습니다.
다음은 답변에 대한 레퍼런스 부분입니다.
' 면진장치란 지반에서 오는 진동 에너지를 흡수하여 건물에 주는 진동을 줄여주는 진동 격리장치입니다.'
' 면진장치란 건물의 지반에서 발생하는 진동 에너지를 흡수하여 건물을 보호하고, 진동을 줄여주는 장치입니다. 주로 지진이나 기타 지반의 진동으로 인한 피해를 방지하기 위해 사용됩니다.'
' 면진장치란 지반으로부터 발생하는 진동 에너지를 흡수하여 건물에 전달되는 진동을 줄여주는 장치를 말합니다. 이를 통해 건물의 안전성과 안정성을 향상시키고, 지진 등의 외부 충격으로부터 보호하는 역할을 합니다. 지진으로 인한 건물의 피해를 최소화하기 위해 주로 사용됩니다.'
' 면진장치는 건물의 지반으로부터 오는 진동 에너지를 흡수하여 건물에 전달되는 진동을 최소화해 주는 진동 격리장치입니다. 이를 통해 건물 내부의 진동을 줄이고 안정성을 유지하는 데 도움을 줍니다.'
' 면진장치는 건물에 오는 지반 진동의 영향을 최대한으로 흡수하여 건물에 전달되는 진동을 줄여주는 장치입니다. 지반으로부터 오는 진동 에너지의 영향을 완화시키기 위해 사용됩니다.'
해당 부분은 질문 부분과 달리 육안으로도 비슷하다고 느껴지네요.
이는 주최자의 설명에 문제가 없는 부분입니다.
답변_1, 답변_2, 답변_3, 답변_4, 답변_5 : 샘플 별 질문에 대한 동일한 답변 Reference 5개
그렇다면 우리는 이 데이터를 어떻게 처리할 수 있을까요?
첫번째로는 질문간의 코사인 유사도를 구하여 특정 Threshold 를 주어, 해당 데이터를 쓸지 말지 결정하는 부분입니다.
예를 들어 두 질문간의 유사도가 0.7보다 높으면 트레인 데이터 또는 CV 용으로 적합하겠죠. 나머진 버립니다.
또는, 각 질문과 답변 간의 유사도를 구하여 해당 질문을 버릴지 말지, 또는 답변을 버릴지 말지도 고려해볼 수 있겠습니다.
---
원래, 다른 아이디어들도 같이 첨부하려고 했는데, 분량이 길어지므로 나눠서 공유진행 하겠습니다.
P.S. 위 아이디어는 어떤 임베딩을 진행하냐에 따라 달라질 수 있기 때문에, 각 모델별로 다른 유사도가 나올 수 있습니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io |
전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
개인적으로 마크다운이 데이콘에서 지원되지 않는 점이 아쉽네요.
혹시나 글의 구조를 조금 더 짜임새 있게 데이콘에서 작성하는 방법을 아신다면 공유주세요 :)