大数据分析技术应用 揭秘谷歌票房预测模型

2013年6月,谷歌公布了一项重要研究成果 – 电影票房预测模型。该模型能够提前一个月预测电影上映首周的票房收入,准确度高达94%。这在业内引起了强烈讨论,不少内人士认为该模型非常适合好莱坞电影公司通过预测票房来及时调整电影营销战略,但同时也有吐槽者暗示谷歌的票房预测模型别有用心,旨在鼓动电影公司购买其搜索引擎广告。那么,孰是孰非,谷歌票房预测模型以及大数据在电影行业的应用是嘘头,还是大有来头,让我们来一探究竟。

谷歌票房预测模型的基础:电影相关的搜索量与票房收入的关联

谷歌的票房预测模型是大数据分析技术在电影行业的一个重要应用。随着互联网的发展,人们越来越习惯于在网上搜索电影信息。据谷歌统计,从2011到2012年,电影相关的搜索量增长了56%.谷歌发现,电影相关的搜索量与票房收入之间存在很强的关联。

图1显示了2012年电影票房收入(红色)和电影的搜索量(灰色)的曲线(注:本文的所有图片均引用自谷歌的白皮书:Quantifying Movie Magic with Google Search)。可以看到,两条曲线的起伏变化有着很强的相似性。

电影票房预测模型
(红色是票房收入,灰色是搜索量,横轴是月份,纵轴是数量)

更进一步地,谷歌把电影的搜索分成了两类:

I. 涉及电影名的搜索(Movie Title Search);

II. 不涉及电影名的搜索(Non-Title Film-Related Search)。这类搜索不包含具体的名字,而是一些更宽泛的关键词搜索,如“热门电影”、“爱情片”、“好莱坞电影”等。

图2显示了票房收入与这两类搜索量之间的关系。从图上可以看到,大部分情况下,第I类搜索量超过第II类搜索量。但在电影淡季的时候(图中灰色椭圆区域,这时候票房收入较低),第I类搜索量会低于第II类搜索量。这符合常理,因为在淡季的时候知名度高的电影很少,人们往往用更宽泛的搜索来寻找想看的电影。

电影票房预测模型
图2. 2012年票房收入和两类搜索量的曲线

(红色代表票房收入,蓝色代表第I搜索,灰色代表第II类搜索,横轴是月份,纵轴是数量)

这一发现对电影的网络营销来说有一定的指导意义:在淡季的时候,电影公司可多购买相对宽泛的关键词的广告,而在旺季的时候,多购买涉及电影名的、更具体的关键词的广告。
「提前一周预测票房,可达到92%的准确度」

上面的讨论表明用电影的搜索量来预测票房是有可能的。那么,如果单纯使用搜索量来预测首周票房收入,效果怎么样?通过对2012年上映的99部电影的研究,谷歌发现仅依靠搜索量来预测是不够的。谷歌尝试构建了一个线性的模型,但只达到了70%的准确度(如图3)。

电影票房预测模型

图3. 搜索量与首周票房收入之间的关系

(横轴是搜索量,纵轴是首周票房收入,灰色点对应某部电影的搜索量与首周票房收入)

为了构建更加精确的预测模型,谷歌最终采用了四类指标:

(1)(电影放映前一周的)电影的搜索量

(2)(电影放映前一周的)电影广告的点击量

(3)上映影院数量

(4)同系列电影前几部的票房表现

其中每类指标又包含了多项类内指标。

在获取到每部电影的这些指标后,谷歌构建了一个线性回归模型(linear regression model)模型,来建立这些指标和票房收入的关系。线性回归模型,在大数据分析领域里算是最基本的模型之一,它认为票房收入与这些指标之间是简单的线性关系。

图4展示了模型的效果,其中灰色点代表了实际的票房收入,红色点代表了预测的票房收入。可以看到,预测的结果与实际的结果差异很小。

电影票房预测模型