월간 데이콘 한국어 문장 관계 분류 경진대회

알고리즘 | NLP | 분류 | 자연어 | Accuracy

  • moneyIcon 상금 : 100만원 + α
  • 1,326명 마감

 

데이터 가볍게 살펴보기 (각 label, feature 별 Word Cloud)

2022.01.29 18:10 3,739 조회 language

안녕하세요! 
월간데이콘 비전을 기다리고 있는데 컴퓨터 비전 대회가 아닌 자연어처리 부분이 열렸네여.. 그래도 아직 대회 시작한 지 얼마 되지 않아서 기본적인 내용 공유드려도 괜찮을 것 같아 올립니다. 자연어처리를 많이 공부하지 않아서 시각화 아이디어가 많이 부족하네요.. 많은 분들의 코드 공유가 있었으면 좋겠습니다. 
실제 text 부분과 가설 text 부분을 나눠서 train에 있는 각 label 별로 Word Cloud를 진행해봤습니다. 생각보다 공통적인 단어도 있고 라벨 별 분포도 엄청 비슷하네요. 
-----------------------------------------------------------------------------------------------------
21-01-29 update 
실제 워드 클라우드 상에서 보여지는 공통된 단어들을 제거한 결과 성능이 떨어졌습니다.. 단지 공통되었다는 것 만으로 지우면 안 되는 문제 같네요. 어찌보면 실제 문장과 가설 문장에 중요 키워드로 작용했을 수도 있으니까요. 또한, 특수문자도 적절히 지워야할 것 같습니다. 좀 더 데이터 시각화해서 추가해보도록 할게요.. 해당 시각화 자료로는 얻을 수 있는 것이 없는 것 같습니다. 

본 포스팅은 데이콘 서포터즈 "데이크루" 1기 활동의 일환입니다.  

코드