로그 분석을 통한 보안 위험도 예측 AI 경진대회

알고리즘 | NLP | 분류 | 제어 | Macro f1 score

  • moneyIcon 상금 : 총 300만원
  • 727명 마감

 

[Private 1위 0.9319] | Team SsulleBal | baseline 변형

2021.05.15 17:19 5,452 조회 language

석사 과정을 막 시작한 신입생입니다. 코드를 작성하는 부분, 인공지능 모델을 다루는 부분에 있어서 부족한 부분이 많습니다.  
데이콘에서 열심히 공부해서 향후에는 발전된 코드와 모델들을 공유 할 수 있도록 노력하겠습니다!

코드
로그인이 필요합니다
0 / 1000
최정명
2021.05.15 18:57

안녕하세요. 코드 공유 감사합니다!

" Train 문장과 완전히 동일한 문장이 존재하는지 여부를 체크해주는 컬럼을 통해 문장 전체가 완전히 동일한 경우에는 Threshold 에 걸리지 않도록 했습니다. "

이 부분은 Train 문장에 있는 패턴을 매칭하는 것으로 문제가 되지 않을까요?

titanumm
2021.05.15 19:15

최정명님 안녕하세요.
저도 이 부분에 대해서 패턴매칭에 대한 고민을 했었습니다. ㅎㅎ
Train 데이터를 통해 두개의 모델을 만들고(A,B) 문장 전체가 동일한지 아닌지 여부에 따라 학습되는 모델이 달라진다고 볼 수 있습니다. Threshold에 걸리지 않도록 한다는 말은 기존의 모델(전처리가 덜된)을 사용하겠다는 의미였습니다. 특징을 통해서 등급을 직접적으로 설정하는것이 아닌 데이터를 나누고 서로 다른 모델을 통해서 등급을 predict 했기 때문에 패턴 매칭이 아니라고 생각했습니다. 의견 감사합니다.

최정명
2021.05.16 16:13

이전 댓글에 질문부터 들이 밀었는데 ... 죄송합니다.
1등 축하드립니다 !! 

코드를 첨부터 다시 보니 무슨 의미인지 이해했습니다.
threshold를 정하는데 많은 고민을 하셨을 것같습니다.
성능이 매우 좋네요 !!

다시 한 번 축하드립니다.

titanumm
2021.05.16 18:29

감사합니다 ㅎㅎ 하지만 코드 검증이 끝나야 결과를 알 수 있을 것 같습니다ㅠㅠ 
정명님 코드 보면서 항상 많이 배우고 있습니다. 
이번에 올려주신 방법도 보면서 열심히 공부해야겠다는 생각이 많이 들었습니다 ㅎㅎ

최정명
2021.05.16 20:04

제 모델은 운이 좋았던것 같습니다 ㅠㅠ
저도 코드를 보고 많이 배웠습니다!! 
다른 대회도 상위권 이시던데 좋은 성적 받으셨으면 좋겠습니다 !
같이 열심히 공부해요 ㅎㅎ

titanumm
2021.05.17 11:10

감사합니다!! 이렇게 대회 참여하면서 코드를 공부하는게 도움이 많이 되는 것 같습니다 ㅎㅎ   
앞으로도 같이 열심히 해봐요~~!

건조한안구는싫어
2021.05.16 10:52

굳이 자연어처리모델 쓸 필요없었나봐요.

titanumm
2021.05.16 18:24

데이콘에서 우수한 베이스 라인을 만들어 주셔서 그런거 같습니다.ㅎㅎ

YONGMANHONG
2021.05.17 14:24

솔루션 잘 봤습니다.
궁금한게 결과적으로 각 level별 threshold를 오토인코더 사용하여 뽑으셨다는 말인가요?
오토인코더 링크 걸어주신 코드가서 보면 내용에는 결국 최종 제출파일에는 적용하지 않았다는 말을 적어놓으셔서요.

감사합니다.

titanumm
2021.05.17 15:05

YONGMANHONG 님 안녕하세요. 
처음 코드 공유를 작성하다 보니 명확하게 내용을 전달하지 못한 것 같습니다.
오토인코더는 Baseline 이외에 접근했던 방법 중 하나로 성능이 괜찮아서 따로 코드를 공유했습니다.
본 코드와 오토인코더의 내용은 무관 합니다. 

Validation 을 통해서 Threshold 를 잡았다는 의미는 아래의 글과 유사한 방식으로 진행했다는 의미였습니다. 
혼동 드려서 죄송합니다:)
https://dacon.io/competitions/official/235717/support/403102?page=1&dtype=recent (taegu 님의 threshold 조정 문의 글) 

YONGMANHONG
2021.05.17 17:49

아하! 알겠습니다. ㅎㅎㅎ
답변 감사합니다 
다시 한번 축하드립니다