联商网前言:Netflix是近年来迅速窜起来的美国知名影片,音乐租赁零售商,已经连续五次被评为顾客最满意的网站。公司可以提供在线影片租赁观看,或者租赁实体DVD,并在大多数的知名实体零售商内设有Netflix自动影片租赁亭。在其急速渗透至美国消费者家庭的同时我们不得不感叹公司背后强大的技术支持,下文分享的是Netflix基于用户搜索作出的相关推荐运算法,译者想表达的是:简单的现象背后不简单的工程。
假如你用过Netflix的影片租赁服务,你可能会被它基于你搜索下的影片相关推荐给惊讶到,因为它的“相关推荐”是在是有点特殊、甚至让你觉得摸不着头脑。
假如Netflix要为其约4000万名顾客作出特殊的影片定制推荐,那它需要多大的个性化类型数据库去描述整个好莱坞的电影呢?
当笔者意识到自己可能发现Netflix算法规律后,深深的被这个网站的技术理念给震慑了。通过大量而且重复工作,笔者发现Netflix的影片数据分类不是简单的分几百或几千个,这个网站有76897种独立的电影分类方法。
我们花了数周的时间去理解,分析,逆向解析Netflix的词汇和语法的分类原理。我们已经拆分了Netflix最受欢迎的分类,计算出最受欢迎的演员和导演。
有史以来从没有一家公司会像Netflix整合过这些数据。从数据中可以得知:Netflix分析非常细致,给每一部电影和电视剧都会设定标签。他们几乎拥有所有好莱坞的影片,而那些我们找到的流派仅仅是整个数据库的冰山一角。
我们逆向解构Netflix的系统原理,发现真的难以超越。公司雇佣了很多人,工作前需要阅读长达36页的培训文件,然后训练他们如何对影片的暗示性内容、暴力程度、浪漫情节等元素做出精准的评级、分类。
他们捕捉了数万种不同的电影属性,甚至还为影片主要人物进行道德评级。这些标签,与4000万用户的看片习惯进行匹配,随即形成了Netflix独一无二的竞争优势。
在Netflix线下销售中没有一部电影的标签超过五个,三个描述词的比较多:如恋爱无果外国喜剧片,两个描述词的最常用,用得最多的就是一个形容词。
从《洛杉矶时报》的一篇文章中我们学到了设置标签的基本知识。这些标签是如何与Netflix的个性化推荐祥结合的?是什么样的算法能将标签精确地转化为76897个分类?
其中关键的一步是:将设置标签的人类智慧与有着运算法则的机器智能相结合。不难看出,Netflix公司”个性化类型“完全是人为形成的,也从侧面反映出人类可能还不能独立解决这一问题。例如,形容词“赏心悦目的”,要想给电影贴上这样的标签,电影必须满足一系列特征以外,更重要的是有一个美满的结局。工程师在给一部电影分类时,依据的是一系列基本的标签,并不是直接得到这个电影的类型。
Netflix公司甚至拿出100万美元的奖金用于鼓励团队设计出算法。要求其算法能够提高公司预测用户给电影评星的能力。而团队花费数年时间也仅仅把算法提高10%。
Netflix这么做的最主要目的是留住订阅用户。而我们之前表象看到的奇怪推荐正是他们战略的重要部分。早在2012年时,Netflix就在其官博中提到,“能精确捕捉到用户喜欢的微类型内容,就能用提升订购率,从而拉开自己与竞争对手的差距”事实也证明,Netflix更了解用户,其网站内容对于用户的粘性就越强。
现在Netflix建立了属于自己用户对美国电影喜好的强大数据库。该数据库虽然不能告诉导演编剧影视剧要怎么拍才能有好票房,但至少能提醒美国的制片人,影片需要有哪些元素才能抓住美国观众的眼球,例如在拍摄美剧“纸牌屋”的时候,就很好的利用了这些元素。
(联商网编译,转载注明出处)