Natural Language-based Climate Technology Classification

Algorithm | NLP | Classification | Environment | Macro f1 score

6,000,000 KRW
1,062 Users Completed

Practice

Overview Data Code (share) Talk Leaderboard

Submission

문장 유사도를 활용한 분류 시도(Pororo SBERT 활용)

Deeper

2021.09.12 21:48 10,722 Views language

이번 대회에서는 한 번 문장 유사도를 활용하여 분류를 해보고자 시도하였습니다.
그리고 이번에 공개된 Pororo 라이브러리 중 Sentence Embedding 을 활용해보고자 했습니다.
결과적으로 분류 성능이 높은 순위에 오르지 못했으나, 테스트 결과를 공유하고자 뒤늦게 올립니다.

단순 유사도 비교 결과(전처리 X,)
컬럼명 f1score
과제명 73
연구내용 59
기대효과 59
한글키워드 70
영문키워드 70
연구 목표 65
과제명+기대효과+한글키워드 Sum 결과 75

각 컬럼별 유사도 비교 결과를 종합하여 최종 추론 해보고자함. --> Random Forest / 수동 계산
+ 한글 키워드 Set List(고유명사 단어사전)를 만들어서 같이 적용
결과적으로 큰 차이는 없었으나 Random Forest의 Validation 결과가 더 좋았음 약 2%

오답 분석 결과
Label 19번에 대한 FP가 굉장히 높음(0으로 분류) --> 유사도가 매우 비슷함
유사도 결과 중 완전 일치하는 경우도 많지만 찾지 못하는 경우도 있음
SBERT를 활용하더라도 키워드에 영향을 많이 받음

++ 중분류 시도(중분류-소분류하는 방식이 맞아 보여서 시도)
코드를 짠 김에 중분류를 시도한 결과 --> 소분류보다 분류를 잘함
하지만 오답의 경우가 굉장히 비슷했고 중분류와 소분류를 함께 적용하기에는 시간이 부족하여 시도를 못했음

유사도를 통해서 비교해보면 우선순위에는 항상 정답 레이블을 찾았으나 선택하는 과정에서 정답 레이블을 못 찾는 경우가 많았습니다.
해당 문제의 경우 중분류를 먼저 한 다음에 소분류를 하는 형식이 정답인 것 같았으나 시간관계상 끝까지 테스트는 해보지 못했습니다.
기회가 된다면 다른 분들의 더 좋은 모델을 활용하여 중분류 까지 테스트 해보고 싶네요.