如今,数据科学与人工智能正越来越普遍——尤其是随着Netflix、亚马逊、Facebook、Spotify等大公司不断部署人工智能战略,想在幕后与消费者展开更紧密的互动。
但是,有很多企业并没有用好数据科学,而把数据科学当成了一个好看而无用的花瓶。到底应该如何“正确地应用”数据科学和人工智能呢?如何真正地从业务需求出发,把数据科学用在刀刃上呢?今天这篇文章,我们就来看看Netflix是如何从产品需求出发,让数据科学和机器学习成为真正的增长引擎,而不是摆设的花瓶。
Netflix数据科学/人工智能的五大实例电影推荐个性化——观看A电影的用户可能会观看B电影。这可能是Netflix最著名的功能,Netflix根据品味相似的用户观看历史记录来推荐你接下来可能最有兴趣观看的内容,从而提升客户满意度,维持订阅量。
缩略图的自动生成和个性化——Netflix使用来自现有电影或节目的数千个视频帧作为缩略图生成的起点,再对这些图像进行注释,然后对每张图像进行排名,从而判断哪些缩略图最有可能被客户点击。这些计算基于与你相似的用户点击的内容,发现可能喜欢某些演员/电影的用户更有可能点击具有某些演员/图像属性的缩略图。
电影制作的选址(前期制作)——Netflix使用数据来辅助决定最佳拍摄地点和时间。考虑到日程安排(包括演员/工作人员的可用性等)、预算(场地、航班/酒店成本)和制作的限制场景要求(比如是白天还是夜间拍摄,极端天气状况的发生概率等)。这个应用场景属于数据科学中的优化问题,而不是基于过去数据进行预测的机器学习模型。
电影编辑(后期制作)——Netflix使用过去的有质量问题的视频数据(指字幕与声音/动作不同步的情况)——预测人工检查在什么时候最有益,因为人工检查往往是一个非常耗时和费力的过程。
流媒体质量——使用过去的观看数据来预测带宽使用情况,以帮助Netflix决定何时缓存区域服务器,从而能在在峰值(预期)需求期间加快加载时间。
对Netflix而言,这5个数据科学/机器学习的应用产生了非常可观的影响,而它们之所以能对Netflix的业务产生长足的影响是因为,Netflix的数据科学家和产品经理们,能够把这些数据科学技术与业务需求正确地联系起来。如果没有把这些技术与业务进行连接,那么这些技术就只会是空中楼阁。只有把这些技术和Netflix的核心业务问题联系起来,才能真正改变人们的生活。
那什么是所谓的“业务需求”呢?
这五大Netflix的数据科学应用场景,每个实例都与特定的业务需求、目标或假设相关联。对于所有的数据科学家与产品经理来说,明确目标至关重要,如果没有清楚地确定问题或业务需求,可能会在没有业务的情况下耗尽宝贵的技术资源。我们做数据科学并不是因为它是一项有趣的技术,而是因为它能解决问题。那么让我们再看看电影推荐和那些个性化的缩略图的商业目标是什么?.电影推荐:增加忠诚度、减少订阅者Netflix拥有大量的内容,根据它自己的统计,它拥有超过亿种不同的产品。这些内容在不断变化,有的可能并不讨用户欢心,如果不做智能推荐,那么每天会有多少用户面对海量视频挑花了眼,因而感到沮丧,这导致的结果就是,他们可能会退订。Netflix的赚钱方式就是让尽可能多的用户付费订阅。所以“电影推荐”这个功能的终极目标,就是减少退订的人,其方式就是让每个用户,能在短时间内就找到自己感兴趣的电影电视,并且忍不住要经常回来看。所以我们就很清楚“电影推荐”这个功能的产品目标:在有限的观看时间内增加/保持收视率
增加探索的视频的数量,重新登录的频率
超过公司制定的任何最低阈值
每月订阅忠诚度总体增加/订阅者取消减少
Netflix之所以开发“电影推荐”这个功能,不是为了耍酷的,而是为了解决上面这些产品功能的。2.个性化图像缩略图:识别问题这个例子可以当作是电影推荐系统的分支问题。鉴于要向用户提供电影推荐,我们现在还有另一个业务问题,就是如何让人们点击他们可能感兴趣的电影?一种方法是通过电影缩略图,但是应该提供什么样的缩略图?缩略图有多重要?改变缩略图会影响收视率和订阅者忠诚度呢?我们有这方面的数据吗?Netflix的产品团队在年之前就提出了这些问题,他们整合了用户调研数据和其他数据,证明了图像缩略图和收视率之间确实存在密切联系。Netflix创意服务全球经理NickNelson解释说,公司在年初进行的研究发现,缩略图的呈现内容“不仅是影响用户是否观看内容的最大因素”,同时也占据了超过82%用户在浏览Netflix时的注意力。Nelson写道:“我们还看到,用户在每个缩略图标题上平均花费.8秒。”“我们之前没有想到一张图片对会员的影响有多大,还有我们拥有的时间是如此之短(指.8秒)。那当我们明确了电影缩略图的重要性之后,我们怎么来确定,每一步电影到底该用什么样的缩略图呢?让我们接着往下看看Netflix是如何用数据来创建缩略图的!如何用数据科学来解决业务问题?首先,这里需要解答两个问题:Netflix使用哪些数据来创建这些个性化缩略图?
Netflix使用哪些数据将这些自定义创建的缩略图定位到个人?
对于第一个问题,我们就得考虑以下这些因素:一集《怪奇物语》有小时,其中包括超过86,个静态视频帧。
这些视频帧可以单独被分配某些属性,这些属性稍后会经由一组称为美学视觉分析(AVA)的工具和算法过滤,成为最佳缩略图的候选者。这一系列操作是为了了从视频的每个静态帧中找到最佳的自定义缩略图图像。
Netflix注释—Netflix为每一帧创建元数据,包括亮度(.67)、面部数量(3)、肤色(.2)、裸露概率(.03)、运动模糊级别(4)、对称性(.4)。
Netflix图像排名—Netflix使用来自上方的元数据来挑选出最高质量的特定图像(光线良好、无运动模糊、可能包含一些从适当角度拍摄的主要角色的面部照片、不包含未经授权的品牌内容等))和最容易被点击的图像。
对于第二个问题,可以从Netflix的用户行为数据来考虑:观看的电影数量,每个节目的观看分钟数
每个视频/系列的完成百分比
‘点赞’的数量,哪些电影获得了最多的赞
可归因于任何特定节目的整体观看内容的百分比(用户是不是出于对特定演员/节目的兴趣才观看的)
与用户参与度等相关的任何季节性或周趋势。
有趣的是,在年,Netflix不再采用用户评论作为数据点,在那之前Netflix只在网页版本上设置评论功能。为什么?因为这个功能实际上降低了收视率,负面评论会降低用户们的兴趣,这是业务需求如何取代流行用户需求的另一个例子。因此,Netflix拥有大量关于每个客户的数据——从观看的视频到点击的图像。那么问题来了,他们如何处理所有这些数据?Netflix利用这些数据来汇总每个用户的全景图,构建每个用户的个人资料,并根据数百甚至数千个不同的属性对每个用户进行数学索引。他们这样做是为了将兴趣相似的人组合在一起,这样就可以利用来自一个用户的数据来帮助预测其他类似用户的可能行为。对于Netflix用户,每个用户的个人资料都可以用数值来描述,每个数值代表该用户兴趣的单个维度,这些维度包括电影类型、最喜欢的演员/女演员、电影主题等。下图可以看成是Netflix的部分用户们在电影类型这一个维度上的得分分组:比如:“6”=浪漫喜剧“4”=惊悚片如果一个用户被Netflix标记为“6”,那么他/她将被放置在上图中靠近底部的绿松石色6的位置附近。同样,如果用户被Netflix标记为“4”,那么他/她将被放置在上图中洋红色4的位置附近(靠近顶部)。请注意绿松石色的“6”区域(浪漫喜剧)与灰色的“5”区域(模仿或讽刺电影)有些重叠。这可能类似于喜欢浪漫喜剧的用户也喜欢模仿或讽刺电影,因为它们都涉及搞笑。同样,由于洋红色“4”区域(惊悚片)有点接近粉红色“9”区域——这个粉红色9区域代表那些喜欢动作片的人——在数学上比浪漫喜剧“6”更接近惊悚片“4”区域“地区。因此,在上图中,可以用空间距离来表示两个用户的品味有多相似或者多不同不同。当然,当喜欢浪漫喜剧的人也喜欢惊悚片时,这会变得无限复杂——但这个类比的目的是展示不同类别之间数学/空间关系的一般概念。如果用户喜欢附近的其他类型的电影,彼此相关的兴趣组会看起来更接近,并且可以很好地预测用户会喜欢什么。这种类型的机器学习模型就被Netflix以及其他的众多公司频繁使用,在看似非结构化的数据之间建立联系,并将他们转化为数字表示。所以让我们总结一下:一堆Netflix图像缩略图其实就是一堆非结构化数据。但是一旦Netflix对每个缩略图进行注释并为每个缩略图分配元数据来描述该缩略图中的内容——我们就有了非结构化数据的数字表示。然后我们找到彼此相对靠近的数据点,并使用它们来帮助预测未来的点击行为,并且会相应地调整这些特征的数学定位,直到模型随着时间的推移变得越来越好。这就是Netflix将非结构化数据转化为数学表示的方式。它使用数据点之间的关系距离作为制作和改进图像缩略图推荐的基础。从这样的分析中,Netflix得到了一些在缩略图方面很有意思的洞察:●缩略图最好要展示表情丰富的面部特写镜头●缩略度最好向人们展示反派角色而不是英雄角色由此,Netflix在以“正确的方式”应用人工智能、数据科学和机器学习方面做得非常出色——使用基于产品的方法,首先