도배 하자 질의 응답 처리 : 한솔데코 시즌2 AI 경진대회

모델 학습도 중요하지만, 학습 데이터 전처리도 중요해보입니다!

2024.02.25 00:21 1,484 조회

저희 팀은 대회에서 제공된 Train Data의 모든 행/열을 다 일일이 확인해봤는데, 잘못된 데이터가 다수 존재합니다.

가령 질문_1은 장점에 대해서 질문하고 질문_2는 단점에 대해서 질문하는 경우, 영어로 답변을 하는 경우, 많은 오타가 존재하는 경우, 질문과 전혀 상관없는 답변이 있는 경우 등이 꽤나 많습니다.


예시)

TRAIN_010 | 질문_1:철골구조의 단점이 뭐야?,질문_2:철골구조의 장점을 알려줘 -> 질문_1과 질문_2가 정 반대의 내용임

TRAIN_222 | 답변_5:(resourceName: https://www.krihs.re.kr) -> 답변에 URL이 포함되어 있음

TRAIN_313 | 질문_1:장판의 단점이 뭐야?, 질문_2:장판의 장점과 단점에는 무엇이 있나요? -> 질문_1은 단점, 질문_2는 장단점

TRAIN_333 | 답변_5: preventive measures are essential -> 영어 답변


위 예시 말고도, 잘못된 Train Data가 여럿 존재하니, 이에 대한 전처리 과정을 거치시는 것을 추천드립니다.

로그인이 필요합니다
0 / 1000
채승
2024.02.25 22:04

TRAIN_609 답변_1에 공간활요 -> 공간활용 와 같이 자잘한 오타도 여럿 있으니 한번 고쳐보시는 것도 좋을 듯 합니다~

무재킹
2024.02.26 16:34

ㄷㄷ멋지십니다.

신도림조기축구회_김덕배
2024.02.27 10:03

좋은 지적 감사합니다. 전처리하기 위해 데이터를 쭉 봐야할거같은데 노가다로 전처리를 해도되는건지 궁금하네요

x마카로니펭귄x
2024.02.27 18:27

좋은 조언이네요bb

퀀텀닷
2024.03.05 09:01

전처리 중요하다 생각합니다
후 근데 떨어지는 상황도 있어서 테스트 데이터도 좀 의심이 되는군요

이전 글
Public 1st, Private 34th 후기 및 실패 회고
대회 - 반도체 소자 이상 탐지 AI 경진대회
좋아요 11
조회 602
댓글 1
9달 전
현재 글
모델 학습도 중요하지만, 학습 데이터 전처리도 중요해보입니다!
대회 - 도배 하자 질의 응답 처리 : 한솔데코 시즌2 AI 경진대회
좋아요 33
조회 1,484
댓글 5
9달 전
다음 글
anomalib 좋네요
대회 - 반도체 소자 이상 탐지 AI 경진대회
좋아요 15
조회 1,021
댓글 1
9달 전