분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
자연어 기반 기후기술분류 AI 경진대회
녹색기술센터 사전지식 공유
안녕하세요. 본 대회를 주최하고 있는 녹색기술센터 소속 연구원입니다.
이쪽 분야의 전공자도 아니고 자연어 기반의 분석경험이 많지 않다보니 저도 데이콘 고수분들의 코드를 보며 공부하고 있습니다.
그래도 대회에 참여해주시는 분들보다 짧게나마 더 데이터탐색을 해보았기에, 조금이나마 도움이 될까 하여 제가 고민했던, 고민하고 있는 부분들에 대해 글을 써봅니다.
참고자료를 보면 아시겠지만 국가 기후기술분류체계는 대분류(3), 중분류(14), 소분류(45)의 계층적(hierarchy)구조를 가지고 있습니다.
최초에는 25만여건의 자료 중 이미 기후기술로 분류된 약 4만여건의 자료를 가지고 소분류(1~45)를 맞추는 모델을 구상했었습니다. (현재 대회는 기후기술이 아닌 것을 포함하여 0~45)
CNN-1D, LSTM (either or both)을 사용해보았으나 하지만 accuracy 기준으로 한계가 있었고 대분류, 중분류에 대한 정확도를 확인해보고자 하였습니다.
당연히 중분류, 대분류로 갈수록 높은 정확도가 나왔으며, 이 때 든 생각으로 sequential 구조 말고 계층적 분류모델을 만들어보려는 시도를 하고 있으나 각 노드마다 모델을 만들고 훈련해야 하는 과정이 복잡해 아직 어려움을 겪고 있습니다. (솔직히 성능이 더 좋아질런지도 잘 모르겠습니다..)
전체기술 > Model_A > 기후기술 > Model_0 > 대분류 > [Model_1, Model_2] (대분류 3은 중분류 구분 없음) > 중분류 > [Model_1-1, Model_1-2,..., Model_2-5, Model_2-6, Model_3-1] > 소분류
이런식입니다
(참고자료 : https://www.sciencedirect.com/science/article/pii/S0022000013000718
https://www.kdnuggets.com/2018/03/hierarchical-classification.html
기술문헌의 특성 상 전문용어가 많아 word frequency를 뽑아보고 경험적으로 추가 불용어처리를 하였습니다.
['연구','개발','적용','분석',...] 과 같은 전 분야에서 나타나는, tf-idf 가 떨어질 것으로 예상되는 단어들이 불용어처리 대상이었습니다.
한영이 혼용되거나 연구자마다 표현단어가 조금씩 단어들이 많은데 이부분은 아직 해결을 하지 못했습니다.
word similarity를 이용해 해결할 수 있는 방안이 있을까? 하는 고민은 해보았습니다.
기술별로 다루고 있는 scope의 크기가 다르다보니 자연스레 imbalance가 발생합니다.
따라서 Macro F1-score로 채점하는 방식으로 데이콘과 협의하였습니다.
'계속'과제는 전년도에도 수행되어 이어져오는 과제입니다. 따라서 이를 중복처리하는 방법을 적용해오고 있었습니다.
(본 방식이 모델 성능에 도움이 되는지는 잘 모르겠습니다.)
물론 2016년도부터 자료가 있으므로 2016년의 계속과제는 제거하지 않았습니다.
문제는, 계속과제임에도 전년도와 달리 과제명이나 연구내용등 column의 내용이 바뀌는 경우들이 있습니다.
이런 경우에는 제거하지 않기 위해 column들을 통해 중복검토를 수행하였고, 간혹 과제명에 (1/3), (2/3), (2차년도) 등등으로 연차를 표시하는 경우가 있기에, 정규식을 이용해 cleaning하고 중복검토 하였습니다.
대회진행중에 공유드릴 수 있는 고민점은 이정도인 것 같습니다.
참여해주시는 모든분들께 감사드리며, 다들 화이팅하시기 바랍니다~!
사전지식 공유
감사합니다.🙌🏼
공유 감사합니다.
label=0 (소분류=00.NaN) 의 의미가 궁금했는데 기후기술이 아닌 것이 이에 해당하나요?
네 맞습니다.
현재 Train set의 81.7%를 차지하고 있는 '0' 라벨은 국가의 전체 R&D 중 기후기술에 해당하지 않는 연구과제들입니다.
공유 감사드립니다 :)
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
공유 감사합니다.