자연어 기반 기후기술분류 AI 경진대회

녹색기술센터 사전지식 공유

2021.06.30 10:28 4,211 조회

안녕하세요. 본 대회를 주최하고 있는 녹색기술센터 소속 연구원입니다.

이쪽 분야의 전공자도 아니고 자연어 기반의 분석경험이 많지 않다보니 저도 데이콘 고수분들의 코드를 보며 공부하고 있습니다.

그래도 대회에 참여해주시는 분들보다 짧게나마 더 데이터탐색을 해보았기에, 조금이나마 도움이 될까 하여 제가 고민했던, 고민하고 있는 부분들에 대해 글을 써봅니다.


1.분류체계

참고자료를 보면 아시겠지만 국가 기후기술분류체계는 대분류(3), 중분류(14), 소분류(45)의 계층적(hierarchy)구조를 가지고 있습니다.

최초에는 25만여건의 자료 중 이미 기후기술로 분류된 약 4만여건의 자료를 가지고 소분류(1~45)를 맞추는 모델을 구상했었습니다. (현재 대회는 기후기술이 아닌 것을 포함하여 0~45)

CNN-1D, LSTM (either or both)을 사용해보았으나 하지만 accuracy 기준으로 한계가 있었고 대분류, 중분류에 대한 정확도를 확인해보고자 하였습니다.

당연히 중분류, 대분류로 갈수록 높은 정확도가 나왔으며, 이 때 든 생각으로 sequential 구조 말고 계층적 분류모델을 만들어보려는 시도를 하고 있으나 각 노드마다 모델을 만들고 훈련해야 하는 과정이 복잡해 아직 어려움을 겪고 있습니다. (솔직히 성능이 더 좋아질런지도 잘 모르겠습니다..)

전체기술 > Model_A > 기후기술 > Model_0 > 대분류 > [Model_1, Model_2] (대분류 3은 중분류 구분 없음) > 중분류 > [Model_1-1, Model_1-2,..., Model_2-5, Model_2-6, Model_3-1] > 소분류

이런식입니다

(참고자료 : https://www.sciencedirect.com/science/article/pii/S0022000013000718

https://www.kdnuggets.com/2018/03/hierarchical-classification.html

https://towardsdatascience.com/https-medium-com-noa-weiss-the-hitchhikers-guide-to-hierarchical-classification-f8428ea1e076)


2.data

2.1 불용어

기술문헌의 특성 상 전문용어가 많아 word frequency를 뽑아보고 경험적으로 추가 불용어처리를 하였습니다.

['연구','개발','적용','분석',...] 과 같은 전 분야에서 나타나는, tf-idf 가 떨어질 것으로 예상되는 단어들이 불용어처리 대상이었습니다.


2.2 동의어 (예시. 쓰리디/스리디/3D, 커패시터/캐퍼시터/캐패시터/capacitor)

한영이 혼용되거나 연구자마다 표현단어가 조금씩 단어들이 많은데 이부분은 아직 해결을 하지 못했습니다.

word similarity를 이용해 해결할 수 있는 방안이 있을까? 하는 고민은 해보았습니다.


2.3 imbalance

기술별로 다루고 있는 scope의 크기가 다르다보니 자연스레 imbalance가 발생합니다.

따라서 Macro F1-score로 채점하는 방식으로 데이콘과 협의하였습니다.


2.4 신규/계속

'계속'과제는 전년도에도 수행되어 이어져오는 과제입니다. 따라서 이를 중복처리하는 방법을 적용해오고 있었습니다.

(본 방식이 모델 성능에 도움이 되는지는 잘 모르겠습니다.)

물론 2016년도부터 자료가 있으므로 2016년의 계속과제는 제거하지 않았습니다.

문제는, 계속과제임에도 전년도와 달리 과제명이나 연구내용등 column의 내용이 바뀌는 경우들이 있습니다.

이런 경우에는 제거하지 않기 위해 column들을 통해 중복검토를 수행하였고, 간혹 과제명에 (1/3), (2/3), (2차년도) 등등으로 연차를 표시하는 경우가 있기에, 정규식을 이용해 cleaning하고 중복검토 하였습니다.


대회진행중에 공유드릴 수 있는 고민점은 이정도인 것 같습니다.

참여해주시는 모든분들께 감사드리며, 다들 화이팅하시기 바랍니다~!

로그인이 필요합니다
0 / 1000
국경원 요원
2021.06.30 10:32

공유 감사합니다. 

도비콘
2021.06.30 20:04

사전지식 공유 
감사합니다.🙌🏼

배가_고파졌다
2021.07.01 22:52

공유 감사합니다. 
label=0 (소분류=00.NaN) 의 의미가 궁금했는데 기후기술이 아닌 것이 이에 해당하나요?

누마
2021.07.02 10:14

네 맞습니다. 
현재 Train set의 81.7%를 차지하고 있는 '0' 라벨은 국가의 전체 R&D 중 기후기술에 해당하지 않는 연구과제들입니다.

레오레오
2021.09.29 10:34

공유 감사드립니다 :)