这是MCM 2025 Problem B O奖论文2504448的学习笔记，其他MCM笔记：

论文写作

在Introduction的Our work部分放上我们的整个建模、求解、分析过程

加入图片说明文字（类似PPT）

建模

熵权法思路

对于每一个指标，对其评价对象的值进行归一化，然后计算该指标的熵值
用所有指标的熵值计算熵权

假设：

有 (m) 个评价对象
有 (n) 个指标

原始数据矩阵为：

X = \begin{bmatrix} x_{11} & x_{12} & \cdots & x_{1n} \\ x_{21} & x_{22} & \cdots & x_{2n} \\ \vdots & \vdots & & \vdots \\ x_{m1} & x_{m2} & \cdots & x_{mn} \end{bmatrix}

指标正向化

如果所有指标都是“越大越好”

极大指标（越大越好）：不变
极小指标（越小越好）：

$x'_{ij} = \max(x_j) - x_{ij}$

指标内部数据归一化

p_{ij} = \frac{x'{ij}}{\sum{i=1}^{m} x'_{ij}}

若 $x'_{ij} = 0$ *，*则规定 $p_{ij}\ln p_{ij} = 0$

计算指标熵值

e_j = -k \sum_{i=1}^{m} p_{ij} \ln p_{ij}

其中： $k = \frac{1}{\ln m}$

计算熵权

d_j = 1 - e_j

w_j = \frac{d_j}{\sum_{j=1}^{n} d_j}

得到每个指标的权重 $w_j$

逻辑斯谛修正 (Logistic Correction)

适用于描述 “饱和增长/恢复模型”

例如本文中描述自然恢复的公式中的 $r\cdot(1-E_{sub}(t))$ 就是Logistic Correction

E(t+1)=E_{sub}(t)+r\cdot(1-E_{sub}(t))-h\cdot(\frac{T(t)}{T_{max}})

它描述的是：环境恢复速度随着环境变好而下滑

Logistic Correction的通式是：

\text{本期增量} = \text{基础速率} \times \underbrace{(1 - \frac{X}{K})}_{\text{剩余空间/缺口}}

$X$ 是研究的变量（比如环境质量、人口、市场占有率）， $K$ 是该量的最大值

本文中该公式也可以写成该形式

r\cdot(1-E_{sub}(t)) = r\cdot (1 - \frac{E_{sub}(t)}{1})

基于理想点的归一化惩罚项

其思想是 “中庸之道”，适用于中间值是最好的情况

Score = 1 - \frac{|T_{actual} - T_{optimal}|}{T_{optimal}}

适用场景：

体温、库存管理、城市规划（建筑密度…）、生态学（土壤pH、生物量…）

进阶：使用正态分布函数，消除不可导点

Q(t) = e^{-\frac{(T(t) - T_{opt})^2}{2\sigma^2}}

动态规划（Dynamic Programming, DP）

解决多阶段决策过程的工具，将长期的决策问题拆解为每个 t 下的决策问题

首先定义四要素：

1. 定义状态变量(State Variables)

随时间变化，且会被决策影响的指标，往往是目标函数中的变量

例如本文中选取了： $T(t)$ 当前的游客数量， $E(t)$ 当前的环境质量指数， $Q(t)$ 当前的居民满意度

2. 定义决策变量

决策者可以修改的参数

本文中为税率 $\tau(t)$ 和拨款 $M(t)$

3. 定义状态转移方程

利用回归分析、微分方程或逻辑斯谛增长模型等方式构建 $T(t+1)$ 与 $T(t)$ 之间的等式关系

4. 定义阶段指标/回报函数

描述当前 t 下做得好不好

一般是利润、成本、效用等

文中为 $Reward(t) = P(t) + \omega_4 E(t) + \omega_5 Q(t)$

然后写出贝尔曼方程：

5. 写出贝尔曼方程

V(\text{t}) = \max_{\text{决策变量}} \{ Reward(t) + \gamma \cdot V(\text{t+1}) \}

该论文中为：

V(t) = \max_{\tau(t), M(t)} \{ \underbrace{P(t) + \omega_4 E(t) + \omega_5 Q(t)}_{\text{当前回报}} + \underbrace{\gamma V(t+1)}_{\text{未来折现价值}} \}

$V(t)$ ：价值函数，表示从第 $t$ 年开始一直到最后一年，能获得的最大总收益

$\gamma$ : 折现因子，将未来的价值函数折现到当前

求解方法：逆向归纳法

设定 Final

假设第5年是最后一年，没有下一年了（ $V(6)=0$ ），则

V(5) = \max_{\tau(t), M(t)} \{ Reawrd(t)\}

例如文中为 $V(5) = \max_{\tau(t), M(t)} \{ P(t) + \omega_4 E(t) + \omega_5 Q(t)\}$
由于文中模型的公式均为线性函数/凹函数，并且在定义域内连续，一定有全局最优解

如何求解？

（1） 首先，V(5)受到 t = 4 的状态变量的影响，例如文中的 T(4) 和 E(4)

因此， $V(5)$ 实际上是一个以 T(4) 和 E(4) 为变量的表 / 函数

其一， 可以采用网格法，输入大量的 T(4) 和 E(4)，对每个 (T(4) , E(4))，采取以下方法求得 $V(5)$

（离散）

对于处处可导的凹/凸函数，可以用梯度法（梯度下降）、牛顿法，
对于存在不可导点的凹/凸函数情形
- 定义域较小的可以用离散化求解（网格搜索）
- 否则采用次梯度法、近端梯度法
对于非凸函数的情形
- 若函数光滑可导：
  - 多起点梯度下降：找到多个局部最优再选出全局最优
- 若函数包含整型变量
  - 使用MIP求解器求解：分支定界法（B&B）：将定义域不断二分，分别求每一块中函数的上下界、
- 若函数是个黑箱
  - 可以采用启发式算法（GA，DE，PSO…）
- 有的函数有特殊的数学结构可以变换为凸函数…

其二， 可以采用 近似动态规划

即在第 5 年随机输入几千个 (T(4) , E(4))，对每个 (T(4) , E(4))同样用上文所述方法求得最优解，然后用回归模型拟合这个函数，得到

\hat{V}_5(T, E)

这是一个连续函数，适合T、E连续的情形

常用的回归模型包括：线性回归、随机森林 / XGBoost、神经网络

注意线性回归指关于各项权重是线性的，变量可以为任意幂次，不一定是线性的，即

y = w_0 \cdot \phi_0(x) + w_1 \cdot \phi_1(x) + w_2 \cdot \phi_2(x) + \dots

线性回归可以用sklearn做到，e.g.

# degree=2 会将 [T, E] 扩展为 [1, T, E, T^2, E^2, T*E]
poly = PolynomialFeatures(degree=2, include_bias=True)
X_poly = poly.fit_transform(X_raw)

model_v5 = LinearRegression()
model_v5.fit(X_poly, y_targets)

倒推

得到 $V(5)$ 后，即可优化得到 $V(4)$

V(4) = \max_{\tau(t), M(t)} \{ Reawrd(t) + \gamma V(5)\}

例如文中为 $V(4) = \max_{\tau(t), M(t)} \{ P(t) + \omega_4 E(t) + \omega_5 Q(t) + \gamma V(5)\}$
以此类推可以求得前面各年的值

灵敏度分析

对于一个动态规划模型，可以尝试改变状态变量，看参数的变化

可以展示模型的 Smart 程度

一般的灵敏度分析（改变参数）展示的只是 Robust

这篇论文可以改进的点

论文中的决策变量只写了两个 $\tau(t), M(t)$

但实际求解（根据3.5.7）可知 $M(t)$ 实际上是有4个分量的，分别表示政府的基础设施投入、广告投入、补贴投入、环保投入

更好的写法是将其在模型建立时清晰地写出来，如下所示：

设 $\alpha_i(t)$ 为第 $t$ 年各类政府支出的分配比例，满足归一化约束：

\mathbf{\alpha}(t) = [\alpha_{env}(t), \alpha_{infra}(t), \alpha_{sub}(t), \alpha_{ads}(t)]

\text{s.t.} \quad \sum \alpha_i(t) = 1, \quad \alpha_i(t) \ge 0

各类具体的支出金额为： $M_i(t) = \alpha_i(t) \cdot M(t)$

广告投入 ( $M_{ads}$ )

原公式只写了 $\eta \cdot M(t)$ ，现在更精确为：
$g(t) = g_{base} - \beta C_{cap}(t) + \eta \cdot \underbrace{(\alpha_{ads}(t) \cdot M(t))}_{\text{仅广告费起作用}}$
环保投入 ( $M_{env}$ )

原公式写的是 $\kappa \cdot M(t)$ ，现在更精确为：
$E_{sub}(t) = E(t) + \kappa \cdot \underbrace{(\alpha_{env}(t) \cdot M(t))}_{\text{仅环保费起作用}}$
基建投入 ( $M_{infra}$ )

基建投入应该提升城市的承载力。我们可以把 $T_{opt}$ 改写为动态变量：
$T_{opt}(t) = T_{opt}^{base} + \mu \cdot \sum_{k=1}^{t} \underbrace{(\alpha_{infra}(k) \cdot M(k))}_{\text{累计基建投入}}$
补贴投入 ( $M_{sub}$ )

收了税，但我返还了一部分 $M_{sub}$ 给居民，居民满意度提高
$Q(t) = \dots - \omega_3 \cdot \underbrace{\max\left(0, \ \tau(t) \cdot R(t) - \theta \cdot (\alpha_{sub}(t) \cdot M(t)) \right)}_{\text{净税收负担}}$

Cover

【MCM/论文学习/2025B】熵权法，Logistic 和动态规划 (2504448)

一之濑亚子