方法互补案例分析

解释为什么单一方法可能不足，并设计一个“混合策略"解决方案。

场景:外卖派单问题(大量骑手、订单动态到来)。

外卖派单是在线、带时间窗、容量受限的动态匹配问题：骑手位置在变、餐品出餐时间有噪声、订单持续到达、路况突变、还要兼顾公平与成本。典型单一方法的短板：

就近贪心：局部最优，容易把近处骑手“吃光”，后续紧急单无骑手可用，整体迟到率升高。
纯批量最小代价匹配（Hungarian/线性分配）：静态假设强；订单/骑手在求解期间已变化，求解与现实脱节。
纯 MILP/车辆路径规划（VRP）：表达力强但求解慢，高峰期无法及时滚动重算。
纯 RL（强化学习）：能学策略，但约束与合规（比如时间窗、超距）很难保证，且对分布漂移敏感。
纯规则：应急快，但难以权衡多目标（时效、公平、成本、取消率）。

因此需要把预测、规则、优化、学习几种“擅长点”拼起来，互相兜底。

混合策略（Hybrid）总体框架：P–C–O–C

Prediction → Candidate generation → Optimization → Control（滚动控制）

1) 预测层（P）

用模型把不确定性“定量化”，为后续优化产生成本与可行性判断。

预测 出餐时间 \hat{r}_j 、行驶时间/ETA \widehat{\text{TT}}(u\!\rightarrow\!v) 、到店等待、到达承诺时间 \text{ddl}_j。
可用特征：餐厅历史、菜品、时段/天气/节假日、路段速度、骑手疲劳度等。

2) 候选生成层（C）

用快速启发式把巨大搜索空间缩成“小而精”的候选集合，保证后续优化能实时跑。

对每个订单 j，只保留到店 ETA \le \tau_{\text{pickup}} 的前 K名骑手；
识别可捆绑单（同店/同向/时间窗近）：形成“订单包”候选；
过滤不可行组合（必迟到、绕行过长、容量超限）。

3) 优化层（O）

在候选图上做最小费用流/带时间窗的分配，兼顾时效、成本与公平。

决策变量：
- x_{ij}\in\{0,1\}：骑手 i 是否接订单 j；
- 对捆绑包 b： y_{ib}\in\{0,1\}。
目标函数（示例）：

\min \sum_{i,j} x_{ij}\,c_{ij} + \sum_{i,b} y_{ib}\,c_{ib} + \lambda \cdot \text{FairPenalty} + \mu \cdot \text{ReassignPenalty}

其中单对成本

c_{ij}=\alpha\cdot \underbrace{\widehat{\text{TT}}(i\!\rightarrow\!\text{店}_j)}_{\text{到店时长}} +\beta\cdot \underbrace{\max(0,\,\hat{r}_j - t_i^{\text{到店}})}_{\text{等餐}} +\gamma\cdot \underbrace{\max(0,\,t_{ij}^{\text{送达}}-\text{ddl}_j)}_{\text{迟到惩罚}} +\delta\cdot \text{负载均衡项}

约束（部分）：

\sum_j x_{ij} + \sum_b y_{ib} \le \text{cap}_i \quad;\quad \sum_i x_{ij} + \sum_i \sum_{b\ni j} y_{ib} = 1 \quad;\quad \text{时间窗/路径可行性}

求解器：最小费用流/拉格朗日松弛加贪心修复；捆绑用扩展节点或列生成承载。

4) 滚动控制层（C）

用MPC（模型预测控制）+ 双通道派单稳定在线决策。

急单通道：满足“剩余时距 < 门限”的订单，用轻量贪心+规则即时指派；
批量通道：其余订单每 \Delta t 秒滚动优化一次（如 10–30s）；
冻结窗口：对已下发任务设置 T_{\text{lock}}（如 3–5 分钟）减少反复改派；
再优化触发：暴雨/堵车/集中爆单时立即缩短 \Delta t ，扩大候选半径。

学习与规则的协同

学习：
- 用 GBDT/Graph 模型做 ETA 与出餐预测；
- 用 多臂老虎机/贝叶斯优化在线调 \alpha,\beta,\gamma 与捆绑阈值；
- 用 轻量 RL 做“是否延迟指派/是否捆绑”二元决策，但最终分配仍由优化器保证约束。
规则兜底：夜间/低算力/极端峰值，降级为“就近+时窗校验+黑白名单”快速策略。

关键指标与离线模拟

核心 KPI：准时率、平均迟到、平均接单-送达时长、改派率、骑手空驶/等待、每单成本。
评测建议：用真实回放 + 加噪声的交通/出餐分布做离线仿真；A/B 校验候选规模 K、滚动间隔 \Delta t 、冻结时间 T_{\text{lock}}。

小结

单一方法要么快但短视（贪心/规则），要么准但慢（MILP/VRP），或灵活但不稳（纯 RL）。
预测缩不确定性 → 候选控规模 → 优化做全局权衡 → 控制层滚动稳态，这套混合策略能在高峰动态场景里取得可解释、可控、可上线的平衡。

菜单