쇼핑몰 리뷰 평점 분류 AI 해커톤

KcElectra & focal loss (private 14th)

2022.08.05 23:14 1,436 Views language

안녕하세요 lastdefiance20입니다.

모델은 쇼핑몰 평점 댓글로 데이터가 이루어져 있기 때문에, 잘 정제된 데이터를 기반으로 학습한 KoElectra가 아닌, 댓글 및 구어체로 학습된 KcElectra를 사용했습니다.
class imbalance문제는 focal loss를 이용해서 어느정도 해결했으나, 충분하게 해결하지 못한 것 같습니다.

점수 상승은 댓글에 포함된 이상한 단어들과, 숫자들을 제거하면서 가장 높게 일어났습니다. 데이터셋의 전처리가 이 대회의 핵심이 아니었을까 하는 생각이 듭니다.
또한 댓글에 오탈자도 많이 보였는데, 안본내 주셨어요 -> 안보내 주셨어요 등 교정작업을 충분하게 못해서 아쉬웠던것 같습니다.

코드는 데이터 preproces -> 데이터 토큰화 -> 모델 학습 -> 제출 순으로 이루어져있습니다.

Code
로그인이 필요합니다
0 / 1000
성지코딩
2022.08.06 00:36

안녕하세요! 오랜만에 인사드리네요 ㅎㅎ 추후 자연어처리를 하게 될 때 꼭 참고해보겠습니다! 좋은 코드 공유 감사합니다 :) 핑계지만 학교활동 때문에 데이콘 참가를 잘 못했는데 가끔 데이콘 들어가보면 lastdefiance20님은 꾸준히 코드공유 하면서 성장하고 계시더군요..! 결국 코드공유 17위 달성하셨네요,, 정말 멋있습니다.. 팬이 되겠습니다 ㅎㅎ 앞으로도 잘 부탁드립니다!
Ps. 이번에 같이하는 대회가 있는데 꼭 열심히해서 본선까지 가서 대면으로 인사드리고 싶네요 :)

lastdefiance20
2022.08.06 10:01

성지코딩님 정말 오랜만이네요! SW중심대회 리더보드 상위권에 익숙한 아이디가 있어서 저도 알고 있었습니다! 먼저 아는척해주셔서 감사합니다... 저도 학교활동이나, 참여하고 있는 경진대회때문에 바쁘지만, 시간을 조금이라도 내서 최대한 많은 데이터들을 다뤄보려고 노력하고 있습니다! 성지코딩님의 코드공유도 항상 기다리고 있습니다 XD