웹 기사 추천 AI 경진대회

알고리즘 | 정형 | 언어 | 추천시스템 | 웹 로그 | Recall

상금 : 인증서 + 데이스쿨
469명 마감

연습

대회안내 데이터 코드 공유 토크 리더보드

제출

[Private 2위 0.34405] SentenceTransformer + MF + Ensemble

byc3230

공동작성자

2024.07.03 00:12 599 조회 language

[Summary]
1) 유저-기사 클릭수 기반 자체 검증 데이터 수립
     - Overfitting 방지하기 위한 기준점이 되줌
2) Robust 한 모델링을 위한 전처리
     - ‘NAN’ 처리
     - Log 적용, Min-Max 적용
3) 컨텐츠 기반 협업필터링 적용
     - Sentence Transformer 적용 (distiluse-base-multilingual-cased-v2)
     - Language + “ “+ userCountry + “ “ + userRegion + ” “ + Title  -> Input Data Encoding
     - Content -> Input Data Encoding
4) MF 잠재 요인 계수 설정 적용
     - SVD(15), NMF(300), TruncatedSVD(700)
5) 모델 결과 (유저, 컨텐츠 기반 협업필터링, 잠재 요인 분해) 비교를 위한 동일한 Matrix 구현
     - 모델 결과 Average Ensemble 적용을 위한 동일 데이터 구조 적용
6)  Top 6 Average Ensemble 제출
    - Baseline (유저 기반 협업필터링) + Sentence Transformer (컨텐츠 기반 협업필터링) + SVD + NMF + TruncatedSVD (잠재 요인 분해)
      : Baseline + Sentence Transformer(distiluse-base-multilingual-cased-v2) Title + Content + SVD(15) + NMF(300) + TruncatedSVD(700)
      (최종 : Public LB: 0.3501182033, Private LB : 0.34405)
[소견]
추천시스템에 대한 이해도를 높일 수 있는 좋은 대회였습니다. MF 에 대한 정말 많은 실험을 했네요. 오버피팅만 안되게끔 하자라는 모토로 접근했던 대회였습니다. (15일간 무제출) 한달 동안 고생 많으셨습니다.