2025-03-26发表2025-03-26更新数据科学

基于贝叶斯推断的电影票房超预期度量方法

电影产业作为典型的高不确定性市场，其票房表现对出品方的财务状况及市场估值具有直接影响。票房的 超预期程度 是衡量市场对电影接受度的关键指标，同时也是评估电影公司业绩的重要变量。然而，传统票房预测方法往往依赖静态的点估计模型，难以精准刻画票房随时间演化的动态特性，更难以量化票房超出市场预期的幅度及其不确定性，难以转化为可行的投资策略。

研究意义

本文提出了一种 基于贝叶斯推断的票房超预期度量方法，通过构建贝叶斯时序模型（Bayesian Time Series Model），基于 趋势-衰减动态机制，同时利用人工先验与实时票房数据对电影票房进行概率预测，并计算票房超预期程度。该方法不仅能提高票房预测的准确性，还能量化票房超预期概率，提供更具解释力的度量工具。

贝叶斯方法在电影票房预测中的核心优势在于：

提供完整的后验分布，可以计算票房超预期的概率，而非仅仅是一个单点预测。
动态更新预测，能够适应市场变化，而传统模型必须重新训练。
定量衡量不确定性，提供置信区间和概率解释，而不是单一的预测值。

票房预测的贝叶斯框架

设 $y_t$ 表示电影在第 $t$ 日的票房，$\mathbf{x}_t$ 为影响票房的特征（如营销投入、口碑评分等），目标是预测 $y_t$ 并评估其超预期程度。

(1) 先验分布：
贝叶斯模型首先假设票房参数 $\theta$ 服从某个先验分布(可以由研究员结合市场预测/主观判断指定)：

$$ p(\theta) \sim \mathcal{N}(\mu_0, \sigma_0^2) $$

其中，$\theta$ 表示票房的关键参数（如增长率、衰减系数等）。

(2) 似然函数：
观测数据 $y_t$ 服从某个带噪声的分布：

$$ y_t \mid \theta, \mathbf{x}_t \sim \mathcal{N}(f(\mathbf{x}_t, \theta), \sigma^2) $$

其中，$f(\mathbf{x}_t, \theta)$ 是票房预测的均值函数（可以是线性或非线性函数，如神经网络、Gamma回归等）。

(3) 后验分布更新：
利用贝叶斯定理，结合观测数据更新 $\theta$ 的后验分布：

$$ p(\theta \mid y_{1:t}) \propto p(y_{1:t} \mid \theta) p(\theta) $$

然后对未来票房 $y_{t+1}$ 进行预测：

$$ p(y_{t+1} \mid y_{1:t}) = \int p(y_{t+1} \mid \theta) p(\theta \mid y_{1:t}) d\theta $$

此时，我们获得的是一个分布而非单一预测值。

贝叶斯方法的数学优越性

预测不确定性

传统方法（如回归）仅提供点估计：

$$ \hat{y}_t = f(\mathbf{x}_t; \hat{\theta}) $$

而贝叶斯方法提供完整的后验分布：

$$ p(y_t \mid y_{1:t-1}) $$

从而可以估算 **置信区间**，例如 95% 预测区间：

$$ [\mathbb{E}[y_t] - 1.96 \sigma, \mathbb{E}[y_t] + 1.96 \sigma] $$

这在票房数据高波动的情况下尤为重要。

动态更新，适应市场变化

贝叶斯推断允许我们 随着新数据的加入动态更新预测：

$$ p(\theta \mid y_{1:t}) \rightarrow p(\theta \mid y_{1:t+1}) $$

因此，模型能够适应新趋势，例如：

电影口碑逐步发酵导致票房超预期
社交媒体突发事件提升观众兴趣

而传统方法通常需要重新训练模型，无法做到 实时自适应。

可解释性

贝叶斯方法可以直接计算：

$$ P(y_t > \mathbb{E}[y_t]) $$

相比黑箱机器学习（如深度学习），提供了更直观的概率解释。例如：

“这部电影今天票房超出预测值的概率是 98%” → 说明市场对其接受度远超预期
“票房跌破 90% 置信区间的概率仅 5%” → 说明模型预测稳健

票房时序建模

电影票房通常呈现典型的 生命周期模式，可分解为 增长期 和 衰减期 两个阶段。我们构建以下动态模型：

$$ y(t;S_0,\mu, \lambda) = S_0 \cdot (\mu t + 1) \cdot e^{-\lambda t} + \epsilon_t $$

其中：

$S_0$：首日票房基准值（受制作规模、IP影响力等因素决定）
$\mu$：增长速率参数（反映口碑传播效应）
$\lambda$：衰减速率参数（反映观众兴趣衰退）
$\epsilon_t \sim \mathcal{N}(0,\sigma^2)$：观测噪声

该模型具有明确的 经济学解释：

$(\mu t +1)$ 项刻画 口碑驱动的线性增长（如社交媒体传播）
$e^{-\lambda t}$ 项反映 自然衰减效应（观众兴趣随时间递减）
乘积形式保证单峰形态，与真实票房曲线一致

时序模型拟合

基于猫眼电影网上的280多部电影的票房事件序列，分别进行参数拟合。检验票房时序模型是否能捕捉到票房变化的一般趋势。

对于某一部特定的电影，拟合的过程归结为求解优化问题:

$$ \theta = \mathrm{argmin}_{\theta}\ \mathcal{L}(\theta),\quad \mathcal{L}(\theta) = \frac{1}{T}\sum_t (\hat{y}_t(\theta) - y_t)^2 $$

其中$T$是观测到的票房时间序列长度，$y_t$为猫眼网给出的这部电影第$t$天的票房数据，$\hat{y}_t$是模型基于参数$\theta$给出的第$t$天的票房预测值。

通过对每一部电影求解优化问题，我们可以得到其对应的最佳拟合参数 $Y ={(S_0^{(i)},\mu^{(i)},\lambda^{(i)})}_{i=1}^n$。

计算线性增长率参数和自然衰减参数的均值和方差：

$$ m_{\mu} = \frac{1}{n}\sum_i \mu^{(i)},\quad\sigma_{\mu}^2 = \frac{1}{n}\sum_i(\mu^{(i)} - m_{\mu})^2 $$

$$ m_{\lambda} = \frac{1}{n}\sum_i \lambda^{(i)},\quad\sigma_{\lambda}^2 = \frac{1}{n}\sum_i(\lambda^{(i)} - m_{\lambda})^2 $$

基于LightGBM的先验生成模型

模型设定

我们通过集成学习的方法，基于上映前的电影特征，训练模型，预测电影的首日票房参数。并利用预测值构造参数的先验分布函数。

训练数据与目标变量：

特征矩阵 $X \in \mathbb{R}^{n \times p}$（n部历史电影，p个特征）
目标变量 $Y ={S_0^{(i)}}_{i=1}^n$(n部电影的首日票房参数)

使用LightGBM模型预测首日票房参数

对于新电影特征 $x_{\text{new}}$，我们可以得到基于集成学习模型的首日票房预测结果：

$$ \hat{S}_0 = \mathrm{model}(x_{\mathrm{new}}) $$

贝叶斯参数估计

对参数 $\theta = (S_0,\mu,\lambda)$ 指定共轭先验：

$$ \begin{aligned} p(S_0) =& \mathcal{N}^+(S_0;\hat{S}_0,\sigma_S^2) \\ p(\mu) =& \mathcal{N}^+(\mu; m_{\mu},\sigma^2_{\mu}) \\ p(\lambda)=& \mathcal{N}^+(\lambda;m_\lambda,\sigma_\lambda^2) \end{aligned} $$

其中 $\mathcal{N}^+$ 表示截断正态分布（保证三个参数非负）。在此基础上，用户可以基于媒体给出的预测，额外增加参数分布的先验信息：

$$ \begin{aligned} p'(S_0) =& \mathcal{N}^+(S_0;\hat{S}_0',\sigma_S'^2) \\ p'(\mu) =& \mathcal{N}^+(\mu; m_{\mu}',\sigma'^2_{\mu}) \\ p'(\lambda)=& \mathcal{N}^+(\lambda;m_\lambda',\sigma_\lambda'^2) \end{aligned} $$

综合模型预测先验函数与用户定义的先验函数，整合得到最终的先验分布函数：

$$ \mathrm{prior}(\theta) =p(S_0)p(\mu)p(\lambda)\times p'(S_0)p'(\mu)p'(\lambda) $$

通过电影上映后观测到的票房序列${y_t}_{t=1}^T$，基于最大熵原理构造似然函数：

$$ \mathrm{likelyhood}(\theta;y_{1:T}) = \Pi_i \frac{1}{\sqrt{2\pi \sigma_i^2}} \exp{\left(-\frac{(y_t-\hat{y}_t(\theta))^2}{2\sigma_i^2}\right)} $$

结合参数的先验分布与似然函数得到参数的后验分布，使用马尔可夫链蒙特卡洛(MCMC)采样法，近似后验分布 $p(\theta|y_{1:T})$：

$$ p(\theta|y_{1:T}) = \mathrm{prior}(\theta)\times \mathrm{likelyhood}(\theta;y_{1:T}) $$

基于采样结果，我们可以对票房时间序列、总票房等各种重要指标进行预测，并给出其概率分布区间。

衡量”超预期”程度

总票房

总票房 $Y = \sum_{t=1}^T y_t$ 的后验分布可通过蒙特卡洛积分近似：

从后验 $p(\theta|y_{1:t})$ 抽取 $N$ 组参数 $\theta^{(i)}$
对每组参数计算

$$ Y^{(i)} = \frac{S_0}{1 - e^{-\lambda}} \left( 1 + \frac{\mu e^{-\lambda}}{1 - e^{-\lambda}} \right) $$

得到总票房的经验分布 ${Y^{(i)}}_{i=1}^N$

定义”超预期”的两种量化方式：

1. 绝对阈值法
给定行业预测值 $Y_{\text{ref}}$（如猫眼专业版预测），计算超越概率：

$$ P_{\text{beat}} = \frac{1}{N}\sum_{i=1}^N \mathbb{I}(Y^{(i)} > Y_{\text{ref}}) $$

2. 相对分位数法
以模型自身预测的中位数 $Y_{\text{med}}$ 为基准，计算：

$$ P_{\text{extreme}} = P(Y > Y_{\text{med}} + k\sigma_Y) $$

其中 $\sigma_Y$ 为后验标准差，$k$ 可根据风险偏好调整（通常取1-2）。

基于参数偏离的口碑量化评估

电影口碑可以通过模型参数与先验预期的偏离进行科学量化，建立以下评估体系：

口碑强度指标

(1) 增长参数偏离度（μ-Deviation）

定义：

$$ D_\mu = \frac{\mu_{\text{post}} - \mu_{\text{prior}}}{\sigma_{\mu_{\text{prior}}}} $$

$D_\mu > 1.64$：口碑显著正向（p<0.05）
$D_\mu < -1.64$：口碑显著负向

(2) 衰减参数偏离度（λ-Deviation）

$$ D_\lambda = \frac{\lambda_{\text{prior}} - \lambda_{\text{post}}}{\sigma_{\lambda_{\text{prior}}}} $$

$D_\lambda > 0$：生命周期延长
$D_\lambda < 0$：快速衰退

综合口碑指数

构建加权指标：

$$ WOM = w_\mu D_\mu + w_\lambda D_\lambda $$

建议权重：

$w_\mu = 0.6$（增长效应更重要）
$w_\lambda = 0.4$

分级标准：

WOM > 2：现象级口碑
1 < WOM ≤ 2：优质口碑
|WOM| ≤ 1：符合预期
WOM < -1：口碑崩坏

基于贝叶斯推断的电影票房超预期度量方法

https://heth.ink/BoxOffice/

作者

发布于

2025-03-26

更新于

2025-03-26

基于贝叶斯推断的电影票房超预期度量方法

研究意义

票房预测的贝叶斯框架

贝叶斯方法的数学优越性

预测不确定性

动态更新，适应市场变化

可解释性

票房时序建模

时序模型拟合

基于LightGBM的先验生成模型

模型设定

贝叶斯参数估计

衡量”超预期”程度

总票房

基于参数偏离的口碑量化评估

口碑强度指标

(1) 增长参数偏离度（μ-Deviation）

(2) 衰减参数偏离度（λ-Deviation）

综合口碑指数

作者

发布于

更新于

许可协议

目录

分类

最新文章