분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
문장 유사도를 활용한 분류 시도(Pororo SBERT 활용)
이번 대회에서는 한 번 문장 유사도를 활용하여 분류를 해보고자 시도하였습니다.
그리고 이번에 공개된 Pororo 라이브러리 중 Sentence Embedding 을 활용해보고자 했습니다.
결과적으로 분류 성능이 높은 순위에 오르지 못했으나, 테스트 결과를 공유하고자 뒤늦게 올립니다.
단순 유사도 비교 결과(전처리 X,)
컬럼명 f1score
과제명 73
연구내용 59
기대효과 59
한글키워드 70
영문키워드 70
연구 목표 65
과제명+기대효과+한글키워드 Sum 결과 75
각 컬럼별 유사도 비교 결과를 종합하여 최종 추론 해보고자함. --> Random Forest / 수동 계산
+ 한글 키워드 Set List(고유명사 단어사전)를 만들어서 같이 적용
결과적으로 큰 차이는 없었으나 Random Forest의 Validation 결과가 더 좋았음 약 2%
오답 분석 결과
Label 19번에 대한 FP가 굉장히 높음(0으로 분류) --> 유사도가 매우 비슷함
유사도 결과 중 완전 일치하는 경우도 많지만 찾지 못하는 경우도 있음
SBERT를 활용하더라도 키워드에 영향을 많이 받음
++ 중분류 시도(중분류-소분류하는 방식이 맞아 보여서 시도)
코드를 짠 김에 중분류를 시도한 결과 --> 소분류보다 분류를 잘함
하지만 오답의 경우가 굉장히 비슷했고 중분류와 소분류를 함께 적용하기에는 시간이 부족하여 시도를 못했음
유사도를 통해서 비교해보면 우선순위에는 항상 정답 레이블을 찾았으나 선택하는 과정에서 정답 레이블을 못 찾는 경우가 많았습니다.
해당 문제의 경우 중분류를 먼저 한 다음에 소분류를 하는 형식이 정답인 것 같았으나 시간관계상 끝까지 테스트는 해보지 못했습니다.
기회가 된다면 다른 분들의 더 좋은 모델을 활용하여 중분류 까지 테스트 해보고 싶네요.
댓 감사합니다~
고생하셨습니다 ㅠ ㅠ
댓글 감사합니다~
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
수고하셨습니다.