제2회 코스포 x 데이콘 도서 추천 알고리즘 AI경진대회 채용

rating 중 대다수가 0인 것과 관련한 문의

2023.04.22 23:27 1,619 Views

전체 데이터 중 548,804개, 비율로는 약 63%의 rating이 0입니다.

원본 데이터부터가 비슷한 비율로 rating값이 0입니다만, 보통 implicit information으로 처리합니다.

http://www2.informatik.uni-freiburg.de/~cziegler/BX

위 링크가 원본 데이터셋 링크인것 같은데 아래와 같은 설명이 달려있습니다. (혹시 원본이 아니라면 원본 링크를 알려주시면 감사하겠습니다)

  • BX-Book-Ratings  

Contains the book rating information. Ratings (`Book-Rating`) are either explicit, expressed on a scale from 1-10 (higher values denoting higher appreciation), or implicit, expressed by 0.

캐글에 업로드 되어 있는 동일한 book crossing 데이터셋들의 경우도 거의 동일한 설명을 적고 있고요.


이런 경우에 0인 rating을 explicit한 평점으로 받아들이고 이것까지 예측하는 것이 대회의 목적에 부합하는가요?

로그인이 필요합니다
0 / 1000
DACON.GM
2023.04.24 09:22

안녕하세요 학벌은마치님,
해당 데이터셋은 데이터 안내에 나와있는 것과 같이 오픈 데이터셋인 Book-Crossing Dataset을 활용하였습니다.
하지만 오픈 데이터셋으로 진행되는 대회인만큼, 쉽게 문제 해결 방법을 접근할 수 있는 것을 감안하여 본 대회의 경우, Rating이 0인 경우에도 정확히 예측할 수 있는 알고리즘을 요구하는 대회로 설계되었습니다.
Rating이 0인 경우는 해당 유저가 특정 책에 관심이 없고, 관련이 없는 경우이기때문에 이를 고려하여 추천시스템 알고리즘을 문제 없이 적용시키기 위해서는 추가로 해결해야할 과제들이 존재할 것 입니다.
아울러, Rating이 0인 경우에 대한 안내 정보를 '데이터 탭'에 추가하였습니다.
감사합니다.