분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
[세소식] 5편. 빅데이터 기반의 맞춤형 콘텐츠, 넷플릭스
세상의 다양한 AI 새 소식, 세 소식
5편. 빅데이터 기반의 맞춤형 콘텐츠, 넷플릭스 입니다.
요즘 가장 핫한 OTT (Over-The-Top media) 서비스 넷플릭스,
데이콘 유저님들은 즐겨보고 계십니까?
(저는 매일매일 넷플릭스를 들락날락 하고있답니다..)
'오징어게임'부터 시작해서 현재 '지금우리학교는' 까지
한국의 넷플릭스 컨텐츠가 전세계적으로 엄청난 인기를 끌고도 있죠!
빅데이터를 잘 활용하여 많은 사람들에게 사랑받고 있는 기업 넷플릭스,
오늘의 소식은 넷플릭스 추천 알고리즘에 대하여 소개해 드릴려고 합니다.
목차는 다음과 같습니다.
1. 넷플릭스 소개
2. 넷플릭스 추천 알고리즘
3. 넷플릭스 알고리즘 대회, 넷플릭스 프라이즈(Netflix Prize)
4. 빅데이터 기반 넷플릭스 드라마
5. 마무리
* 본 포스팅은 데이콘 서포터즈 “데이크루" 1기 활동의 일환입니다.
우선 넷플릭스는 ‘리드 헤이스팅스 (Reed Hastings)’가 창업을 하였습니다.
창업을 하게 된 이유는 비디오가게의 대여 반납 서비스가 불편하여 개선한 사업을 하기로 마음을 먹었다고 합니다.
그렇게 1997년 넷플릭스 회사가 설립이 되었죠!
넷플릭스 이름의 유래는,
인터넷 = Net
영화 = Filcks
를 합성한 이름으로 Netflix 라고 합니다.
네이밍 참 잘짓지 않았나요? :)
또한 넷플릭스하면 로고를 빼놓을 수 없는데요!
로고의 변화는 다음 그림과 같습니다.
확실히 최근 로고가 정말 이쁜 것 같습니다 ㅎㅎ
넷플릭스 회사는 초기에 비디오를 우편으로 배달하는 사업이었다고 합니다.
인터넷으로 DVD를 대여 신청하면 부직포 봉투에 DVD를 담아 직접 배달 해주는 서비스였죠.
그렇게 어언 10년이 지나 2007년, 드디어 OTT 서비스를 시작하였습니다.
편리하고 저렴한 월 정액제로 다양한 영상 콘텐츠를 광고 없이 무제한으로 볼수있게 된 것이죠!
OTT 서비스를 시작한 넷플릭스는 초기에 콘텐츠 양이 타사보다 적었다고 합니다.
하지만 현재까지 넷플릭스가 꾸준히 회원 수가 증가할 수 있었던 비결은 무엇이었을까요?
바로 ‘빅데이터’ 를 이용한 것 입니다.
넷플릭스를 시청하는 유저들이 영상을 시청하면 별점을 매기도록 만들어 데이터를 차곡차곡 축척해 나갔죠.
이 데이터를 활용하여 시청자 마다 선호 영상을 분석하여 추천 알고리즘 시스템으로 '맞춤형 콘텐츠'를 제공하게된 것이죠.
즉, 회원의 개개인의 니즈를 적절하게 충족시켜 시청자들의 마음을 사로잡은 것이죠!
그렇다면 어떻게 이렇게 기가막히게 시청자가 선호하는 타이틀, 맞춤형 서비스가 가능하게 된 걸까요?
간단하게 알고리즘을 소개해 드리겠습니다.
1) 유사 사용자 기반 알고리즘
위 그림에서 보면 A, B, C 유저가 있습니다.
우리가 영화를 추천해야 할 유저는 C 라고 해봅시다.
유사 사용자 기반 알고리즘은 C와 취향이 비슷한 유사 사용자를
찾아내 영화를 추천해주는 방식입니다
그럼 그림에서 보시면, C와 중복되는 영화를 시청한 유저는 A라는 것을 확인해 볼 수 있습니다.
따라서 A와 C를 유사 사용자로 묶고
A는 시청했는데 C는 시청하지 않은 '킹덤'과 '설국열차'를 추천하는 것입니다.
2) 유사 아이템 기반 알고리즘
유사 아이템 기반 알고리즘은 영화와 영화 간의 시청기록을 파악하여
유사한 아이템을 추천해주는 방식입니다
위 그림에서 A와 B의 시청기록을 보면,
A는 '킹덤', '설국열차' 그리고 '국제시장'을 시청했고
B는 '킹덤'과 '국제시장'을 시청했습니다
A와 B의 시청기록을 바탕으로 ‘킹덤’과 ‘국제시장’을 유사 아이템으로 묶을 수 있고
국제시장을 시청한 C에게는 아직 시청하지 않은 '킹덤'을 추천하는 것입니다.
앞서 소개드린 사용자 및 아이템 기반 알고리즘은 이미 많은 플랫폼에서 사용하고 있습니다.
넷플릭스는 위 2가지 방식 외에 조금 더 복잡한 2가지 방식을 추가로 사용하고 있습니다.
3) 잠재 모델 기반 알고리즘
잠재 모델 기반 알고리즘은 항목 간 유사성을 단순하게 비교하는 방식이 아니라
사용자와 아이템에 내재된 잠재 모델의 패턴을 이용하는 방법입니다
예를 들어 '킹덤'을 좋아하는 사용자는 배우 주지훈을 좋아해서 일수도 있고,
좀비물을 좋아해서 일 수도 있고,
OST를 좋아해서 일수도 있습니다.
따라서 이것을 세부 분류하여 특정 기준을 바탕으로
2차원으로 행과 열을 분해하여 예측 평점을 구하는 것입니다.
장르를 기준으로 행과 열을 분해한 예)
4) 콘텐츠 기반 알고리즘
콘텐츠 기반 알고리즘은 사용자와 아이템간의 정보가 필요하지 않습니다.
영화 타이틀을 기준으로 배우, 장르, 국가, 시대, 연령대 등 수백 개의 영화 특성을 분석해
영화 프로파일을 생성하고 사용자가 좋아한 영화를 바탕으로 사용자 프로파일을 도출합니다.
그리고 영화 프로파일과 사용자 프로파일을 비교해서 사용자 선호 영화를 추천하는 방식입니다.
넷플릭스는 1~4번을 포함한 다양한 알고리즘을 섞은 하이브리드 추천 시스템을 적용하고 있다고 합니다.
실제로 넷플릭스 시청자의 70~80%가 추천 콘텐츠를 시청한다고 하니,
정말 대단하지 않나요?
(어쩌면,, 나는 알고리즘에 끌려다니는,, 해파리일지도 몰라..)
넷플릭스가 알고리즘 경진대회도 열었다는 사실 알고 계셨나요?
실제로 자사의 추천 알고리즘 성능을 10%까지 끌어올리기 위해 100만 달러의 상금을 걸고
2006년부터 2009년까지 넷플릭스 프라이즈(Netflix Prize) 대회를 개최하였습니다.
48만 명의 사용자가 1만8천여 개의 영화에 대해 작성한 약 1억개의 평가 데이터를 제공하고,
사용자가 좋아할 만한 영화를 추천하는 알고리즘을
일반 대중에게 제한 없이 공모하였다고 합니다.
수많은 분석가 및 머신러닝 연구진들이 참여했으며,
딥러닝의 아버지라고 하는 제프리 힌튼 교수도 참여했다고 합니다.
2009년 7월 26일 BellKor's Pragmatic Chaos라는 팀이
10.06%의 성능을 끌어올리면서 대회는 마무리 되었고,
이 때 넷플릭스는 수많은 협업 필터링들을 탄생시키게 된 것이죠!
넷플릭스는 자체 독창적인 콘텐츠, 넷플릭스 오리지널에 꾸준히 투자함으로써
글로벌 시장에서 큰 성과를 이루어냈습니다.
이러한 오리지널 컨텐츠를 제작하는데 있어 빅데이터를 기반으로 분석하여
직접 드리마를 제작하였다고 합니다!
바로 이 '하우스 오브 카드(House of Cards)' 정치 드라마가 그렇습니다.
이 드라마는 넷플릭스 유저들의 빅데이터를 분석하여 원하는 연출 스타일, 선호하는 배우 등을 예측하였습니다.
이 예측한 결과에 맞게 드라마가 제작이 되었고,
또한 빅데이터 분석 결과 사람들이 주말에 드라마를 몰아 본 후 입소문을 잘 낸다는 결론을 도출하여
한 시즌 전체를 한번에 공개하였죠.
아직까지도 이렇게 하는 방식이 넷플릭스의 큰 장점이라고 생각이 드네요..!
이렇게 한 결과 무려 85%의 시청자가 만족하는 엄청난 인기 콘텐츠가 탄생할 수 있었습니다.
이 후 넷플릭스는 더욱 적극적으로 퀄리티가 뛰어난 자체 콘텐츠 제작에 나서고 있죠!
넷플릭스 회사의 소개부터 넷플릭스 추천 알고리즘, 넷플릭스 프라이즈 빅데이터 대회
그리고 빅데이터 기반 넷플릭스 드라마 '하우스 오브 카드' 까지 같이 알아보았습니다.
넷플릭스의 추천 알고리즘에 대하여
여러분들도 평소에 궁금증을 가지셨다면
조금이나마 궁금증이 해결 되셨으면 좋겠습니다. :)
정말 빅데이터를 잘 활용하여 성공으로 이끈 기업이라고 생각이 드네요!
이상 세상의 다양한 새 소식, 세소식 이었습니다.
참고 :
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved