基于贝叶斯推断的电影票房超预期度量方法

电影产业作为典型的高不确定性市场,其票房表现对出品方的财务状况及市场估值具有直接影响。票房的 超预期程度 是衡量市场对电影接受度的关键指标,同时也是评估电影公司业绩的重要变量。然而,传统票房预测方法往往依赖静态的点估计模型,难以精准刻画票房随时间演化的动态特性,更难以量化票房超出市场预期的幅度及其不确定性,难以转化为可行的投资策略。

研究意义

本文提出了一种 基于贝叶斯推断的票房超预期度量方法,通过构建 贝叶斯时序模型(Bayesian Time Series Model),基于 趋势-衰减动态机制,同时利用人工先验与实时票房数据对电影票房进行概率预测,并计算票房超预期程度。该方法不仅能提高票房预测的准确性,还能量化票房超预期概率,提供更具解释力的度量工具。

贝叶斯方法在电影票房预测中的核心优势在于:

  1. 提供完整的后验分布,可以计算票房超预期的概率,而非仅仅是一个单点预测。
  2. 动态更新预测,能够适应市场变化,而传统模型必须重新训练。
  3. 定量衡量不确定性,提供置信区间和概率解释,而不是单一的预测值。

票房预测的贝叶斯框架

设 \(y_t\) 表示电影在第 \(t\) 日的票房,\(\mathbf{x}_t\) 为影响票房的特征(如营销投入、口碑评分等),目标是预测 \(y_t\) 并评估其超预期程度。

(1) 先验分布:
贝叶斯模型首先假设票房参数 \(\theta\) 服从某个先验分布(可以由研究员结合市场预测/主观判断指定):

$$ p(\theta) \sim \mathcal{N}(\mu_0, \sigma_0^2) $$

其中,\(\theta\) 表示票房的关键参数(如增长率、衰减系数等)。

(2) 似然函数:
观测数据 \(y_t\) 服从某个带噪声的分布:

$$ y_t \mid \theta, \mathbf{x}_t \sim \mathcal{N}(f(\mathbf{x}_t, \theta), \sigma^2) $$

其中,\(f(\mathbf{x}_t, \theta)\) 是票房预测的均值函数(可以是线性或非线性函数,如神经网络、Gamma回归等)。

(3) 后验分布更新:
利用贝叶斯定理,结合观测数据更新 \(\theta\) 的后验分布:

$$ p(\theta \mid y_{1:t}) \propto p(y_{1:t} \mid \theta) p(\theta) $$

然后对未来票房 \(y_{t+1}\) 进行预测:

$$ p(y_{t+1} \mid y_{1:t}) = \int p(y_{t+1} \mid \theta) p(\theta \mid y_{1:t}) d\theta $$

此时,我们获得的是一个 分布 而非单一预测值。

贝叶斯方法的数学优越性

预测不确定性

传统方法(如回归)仅提供点估计:

$$ \hat{y}_t = f(\mathbf{x}_t; \hat{\theta}) $$

而贝叶斯方法提供完整的后验分布:

$$ p(y_t \mid y_{1:t-1}) $$

从而可以估算 **置信区间**,例如 95% 预测区间:

$$ [\mathbb{E}[y_t] - 1.96 \sigma, \mathbb{E}[y_t] + 1.96 \sigma] $$

这在票房数据高波动的情况下尤为重要。

动态更新,适应市场变化

贝叶斯推断允许我们 随着新数据的加入动态更新预测

$$ p(\theta \mid y_{1:t}) \rightarrow p(\theta \mid y_{1:t+1}) $$

因此,模型能够适应新趋势,例如:

  • 电影口碑逐步发酵导致票房超预期
  • 社交媒体突发事件提升观众兴趣

而传统方法通常需要重新训练模型,无法做到 实时自适应

可解释性

贝叶斯方法可以直接计算:

$$ P(y_t > \mathbb{E}[y_t]) $$

相比黑箱机器学习(如深度学习),提供了更直观的概率解释。例如:

  • “这部电影今天票房超出预测值的概率是 98%” → 说明市场对其接受度远超预期
  • “票房跌破 90% 置信区间的概率仅 5%” → 说明模型预测稳健

票房时序建模

电影票房通常呈现典型的 生命周期模式,可分解为 增长期衰减期 两个阶段。我们构建以下动态模型:

$$ y(t;S_0,\mu, \lambda) = S_0 \cdot (\mu t + 1) \cdot e^{-\lambda t} + \epsilon_t $$

其中:

  • \(S_0\):首日票房基准值(受制作规模、IP影响力等因素决定)
  • \(\mu\):增长速率参数(反映口碑传播效应)
  • \(\lambda\):衰减速率参数(反映观众兴趣衰退)
  • \(\epsilon_t \sim \mathcal{N}(0,\sigma^2)\):观测噪声

该模型具有明确的 经济学解释

  1. \((\mu t +1)\) 项刻画 口碑驱动的线性增长(如社交媒体传播)
  2. \(e^{-\lambda t}\) 项反映 自然衰减效应(观众兴趣随时间递减)
  3. 乘积形式保证单峰形态,与真实票房曲线一致

时序模型拟合

基于猫眼电影网上的280多部电影的票房事件序列,分别进行参数拟合。检验票房时序模型是否能捕捉到票房变化的一般趋势。

对于某一部特定的电影,拟合的过程归结为求解优化问题:

$$ \theta = \mathrm{argmin}_{\theta}\ \mathcal{L}(\theta),\quad \mathcal{L}(\theta) = \frac{1}{T}\sum_t (\hat{y}_t(\theta) - y_t)^2 $$

其中\(T\)是观测到的票房时间序列长度,\(y_t\)为猫眼网给出的这部电影第\(t\)天的票房数据,\(\hat{y}_t\)是模型基于参数\(\theta\)给出的第\(t\)天的票房预测值。

通过对每一部电影求解优化问题,我们可以得到其对应的最佳拟合参数 \(Y ={(S_0^{(i)},\mu^{(i)},\lambda^{(i)})}_{i=1}^n\)。

计算线性增长率参数和自然衰减参数的均值和方差:

$$ m_{\mu} = \frac{1}{n}\sum_i \mu^{(i)},\quad\sigma_{\mu}^2 = \frac{1}{n}\sum_i(\mu^{(i)} - m_{\mu})^2 $$

$$ m_{\lambda} = \frac{1}{n}\sum_i \lambda^{(i)},\quad\sigma_{\lambda}^2 = \frac{1}{n}\sum_i(\lambda^{(i)} - m_{\lambda})^2 $$

基于LightGBM的先验生成模型

模型设定

我们通过集成学习的方法,基于上映前的电影特征,训练模型,预测电影的首日票房参数。并利用预测值构造参数的先验分布函数。

训练数据与目标变量

  • 特征矩阵 \(X \in \mathbb{R}^{n \times p}\)(n部历史电影,p个特征)
  • 目标变量 \(Y ={S_0^{(i)}}_{i=1}^n\)(n部电影的首日票房参数)

使用LightGBM模型预测首日票房参数

对于新电影特征 \(x_{\text{new}}\),我们可以得到基于集成学习模型的首日票房预测结果:

$$ \hat{S}_0 = \mathrm{model}(x_{\mathrm{new}}) $$

贝叶斯参数估计

对参数 \(\theta = (S_0,\mu,\lambda)\) 指定共轭先验:

$$ \begin{aligned} p(S_0) =& \mathcal{N}^+(S_0;\hat{S}_0,\sigma_S^2) \\ p(\mu) =& \mathcal{N}^+(\mu; m_{\mu},\sigma^2_{\mu}) \\ p(\lambda)=& \mathcal{N}^+(\lambda;m_\lambda,\sigma_\lambda^2) \end{aligned} $$

其中 \(\mathcal{N}^+\) 表示截断正态分布(保证三个参数非负)。在此基础上,用户可以基于媒体给出的预测,额外增加参数分布的先验信息:

$$ \begin{aligned} p'(S_0) =& \mathcal{N}^+(S_0;\hat{S}_0',\sigma_S'^2) \\ p'(\mu) =& \mathcal{N}^+(\mu; m_{\mu}',\sigma'^2_{\mu}) \\ p'(\lambda)=& \mathcal{N}^+(\lambda;m_\lambda',\sigma_\lambda'^2) \end{aligned} $$

综合模型预测先验函数与用户定义的先验函数,整合得到最终的先验分布函数:

$$ \mathrm{prior}(\theta) =p(S_0)p(\mu)p(\lambda)\times p'(S_0)p'(\mu)p'(\lambda) $$

通过电影上映后观测到的票房序列\({y_t}_{t=1}^T\),基于最大熵原理构造似然函数:

$$ \mathrm{likelyhood}(\theta;y_{1:T}) = \Pi_i \frac{1}{\sqrt{2\pi \sigma_i^2}} \exp{\left(-\frac{(y_t-\hat{y}_t(\theta))^2}{2\sigma_i^2}\right)} $$

结合参数的先验分布与似然函数得到参数的后验分布,使用马尔可夫链蒙特卡洛(MCMC)采样法,近似后验分布 \(p(\theta|y_{1:T})\):

$$ p(\theta|y_{1:T}) = \mathrm{prior}(\theta)\times \mathrm{likelyhood}(\theta;y_{1:T}) $$

基于采样结果,我们可以对票房时间序列、总票房等各种重要指标进行预测,并给出其概率分布区间。

衡量”超预期”程度

总票房

总票房 \(Y = \sum_{t=1}^T y_t\) 的后验分布可通过蒙特卡洛积分近似:

  1. 从后验 \(p(\theta|y_{1:t})\) 抽取 \(N\) 组参数 \(\theta^{(i)}\)

  2. 对每组参数计算

$$ Y^{(i)} = \frac{S_0}{1 - e^{-\lambda}} \left( 1 + \frac{\mu e^{-\lambda}}{1 - e^{-\lambda}} \right) $$

  1. 得到总票房的经验分布 \({Y^{(i)}}_{i=1}^N\)

定义”超预期”的两种量化方式:

1. 绝对阈值法
给定行业预测值 \(Y_{\text{ref}}\)(如猫眼专业版预测),计算超越概率:

$$ P_{\text{beat}} = \frac{1}{N}\sum_{i=1}^N \mathbb{I}(Y^{(i)} > Y_{\text{ref}}) $$

2. 相对分位数法
以模型自身预测的中位数 \(Y_{\text{med}}\) 为基准,计算:

$$ P_{\text{extreme}} = P(Y > Y_{\text{med}} + k\sigma_Y) $$

其中 \(\sigma_Y\) 为后验标准差,\(k\) 可根据风险偏好调整(通常取1-2)。

基于参数偏离的口碑量化评估

电影口碑可以通过模型参数与先验预期的偏离进行科学量化,建立以下评估体系:

口碑强度指标

(1) 增长参数偏离度(μ-Deviation)

定义:

$$ D_\mu = \frac{\mu_{\text{post}} - \mu_{\text{prior}}}{\sigma_{\mu_{\text{prior}}}} $$

  • \(D_\mu > 1.64\):口碑显著正向(p<0.05)
  • \(D_\mu < -1.64\):口碑显著负向
(2) 衰减参数偏离度(λ-Deviation)

$$ D_\lambda = \frac{\lambda_{\text{prior}} - \lambda_{\text{post}}}{\sigma_{\lambda_{\text{prior}}}} $$

  • \(D_\lambda > 0\):生命周期延长
  • \(D_\lambda < 0\):快速衰退

综合口碑指数

构建加权指标:

$$ WOM = w_\mu D_\mu + w_\lambda D_\lambda $$

建议权重:

  • \(w_\mu = 0.6\)(增长效应更重要)
  • \(w_\lambda = 0.4\)

分级标准:

  • WOM > 2:现象级口碑
  • 1 < WOM ≤ 2:优质口碑
  • |WOM| ≤ 1:符合预期
  • WOM < -1:口碑崩坏

基于贝叶斯推断的电影票房超预期度量方法

https://heth.ink/BoxOffice/

作者

YK

发布于

2025-03-26

更新于

2025-03-26

许可协议