분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
[Private 2위 0.34405] SentenceTransformer + MF + Ensemble
공동작성자
[Summary]
1) 유저-기사 클릭수 기반 자체 검증 데이터 수립
- Overfitting 방지하기 위한 기준점이 되줌
2) Robust 한 모델링을 위한 전처리
- ‘NAN’ 처리
- Log 적용, Min-Max 적용
3) 컨텐츠 기반 협업필터링 적용
- Sentence Transformer 적용 (distiluse-base-multilingual-cased-v2)
- Language + “ “+ userCountry + “ “ + userRegion + ” “ + Title -> Input Data Encoding
- Content -> Input Data Encoding
4) MF 잠재 요인 계수 설정 적용
- SVD(15), NMF(300), TruncatedSVD(700)
5) 모델 결과 (유저, 컨텐츠 기반 협업필터링, 잠재 요인 분해) 비교를 위한 동일한 Matrix 구현
- 모델 결과 Average Ensemble 적용을 위한 동일 데이터 구조 적용
6) Top 6 Average Ensemble 제출
- Baseline (유저 기반 협업필터링) + Sentence Transformer (컨텐츠 기반 협업필터링) + SVD + NMF + TruncatedSVD (잠재 요인 분해)
: Baseline + Sentence Transformer(distiluse-base-multilingual-cased-v2) Title + Content + SVD(15) + NMF(300) + TruncatedSVD(700)
(최종 : Public LB: 0.3501182033, Private LB : 0.34405)
[소견]
추천시스템에 대한 이해도를 높일 수 있는 좋은 대회였습니다. MF 에 대한 정말 많은 실험을 했네요. 오버피팅만 안되게끔 하자라는 모토로 접근했던 대회였습니다. (15일간 무제출) 한달 동안 고생 많으셨습니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved