분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
도배 하자 질의 응답 처리 : 한솔데코 시즌2 AI 경진대회
모델 학습도 중요하지만, 학습 데이터 전처리도 중요해보입니다!
저희 팀은 대회에서 제공된 Train Data의 모든 행/열을 다 일일이 확인해봤는데, 잘못된 데이터가 다수 존재합니다.
가령 질문_1은 장점에 대해서 질문하고 질문_2는 단점에 대해서 질문하는 경우, 영어로 답변을 하는 경우, 많은 오타가 존재하는 경우, 질문과 전혀 상관없는 답변이 있는 경우 등이 꽤나 많습니다.
예시)
TRAIN_010 | 질문_1:철골구조의 단점이 뭐야?,질문_2:철골구조의 장점을 알려줘 -> 질문_1과 질문_2가 정 반대의 내용임
TRAIN_222 | 답변_5:(resourceName: https://www.krihs.re.kr) -> 답변에 URL이 포함되어 있음
TRAIN_313 | 질문_1:장판의 단점이 뭐야?, 질문_2:장판의 장점과 단점에는 무엇이 있나요? -> 질문_1은 단점, 질문_2는 장단점
TRAIN_333 | 답변_5: preventive measures are essential -> 영어 답변
위 예시 말고도, 잘못된 Train Data가 여럿 존재하니, 이에 대한 전처리 과정을 거치시는 것을 추천드립니다.
ㄷㄷ멋지십니다.
좋은 지적 감사합니다. 전처리하기 위해 데이터를 쭉 봐야할거같은데 노가다로 전처리를 해도되는건지 궁금하네요
좋은 조언이네요bb
전처리 중요하다 생각합니다
후 근데 떨어지는 상황도 있어서 테스트 데이터도 좀 의심이 되는군요
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
TRAIN_609 답변_1에 공간활요 -> 공간활용 와 같이 자잘한 오타도 여럿 있으니 한번 고쳐보시는 것도 좋을 듯 합니다~