【文献笔记】MM-Agent: LLM as Agents for Real-world Mathematical Modeling Problem

MM-Agent框架利用大型语言模型(LLM)作为代理，解决真实世界的数学建模问题。研究构建了首个数学建模基准MM-Bench（包含111个竞赛问题），并提出层级化数学建模知识库HMML来结构化建模方法。MM-Agent通过四个阶段工作：问题分析、数学建模、计算求解和报告生成，其中创新性地采用Actor-Critic机制进行迭代优化。实验表明，该框架显著优于基线模型，并在2025年MCM/ICM竞

c769

721人浏览 · 2025-10-09 09:54:10

c769 · 2025-10-09 09:54:10 发布

MM-Agent: LLM as Agents for Real-world Mathematical Modeling Problem
原文代码
 Demo

MM-Agent: LLM作为代理解决真实世界数学建模问题

信息：
作者：Fan Liu, Zherui Yang, Cancheng Liu, Tianrui Song, Xiaofeng Gao, Hao Liu
单位：The Hong Kong University of Science and Technology (Guangzhou), Shanghai Jiao Tong University
时间：2025年5月

1. 介绍

1.1. 研究背景

数学建模是科学发现和工程实践的基石，它将物理、生物、经济等领域的真实世界问题转化为可分析的形式化系统。这项任务与纯粹的数学推理有着本质区别：

数学推理 (Mathematical Reasoning)：通常从一个预先定义好的、结构清晰的数学问题（如方程组）出发，目标是找到一个精确解。这好比是“解题”。
数学建模 (Mathematical Modeling)：则是一个开放式的过程，需要从一个模糊、复杂的真实世界场景（如森林火灾管理）出发，通过问题分析、抽象、简化和形式化，来构建一个数学模型，并最终求解以提供决策支持。这更像是“提出问题并解题”。

在这里插入图片描述

尽管大型语言模型（LLMs）在数学推理方面展现了强大的能力，但它们在处理开放式的数学建模问题时却表现不佳。现有的LLM在建模时常常会忽略关键的假设、约束和抽象过程，导致构建出的模型过于简化，缺乏科学有效性，无法真正应用于现实世界。因此，如何利用LLM自动化解决真实、复杂的数学建模问题，是当前一个重要且具有挑战性的研究空白。

1.2. 研究贡献

这篇论文旨在填补上述空白，其主要贡献可以总结为以下四点：

构建了首个真实世界数学建模基准 MM-Bench：论文收集并整理了2000年至2025年间国际大学生数学建模竞赛（MCM/ICM）中的111个问题，创建了一个名为MM-Bench的评测基准。该基准覆盖物理、生物、经济等10个不同领域和8种任务类型，为评估LLM的数学建模能力提供了系统化的平台。
提出了层级化数学建模知识库 HMML：为了让LLM能够像专家一样选择合适的模型，研究者构建了一个三层结构的“层级化数学建模知识库”（Hierarchical Mathematical Modeling Library, HMML）。它将复杂的建模方法按照“领域-子领域-方法节点”的层次进行组织，包含了98种高级建模模式，使代理能够根据问题情境和求解需求，结构化地检索和选择最合适的建模策略。
设计了专家启发的MM-Agent自主代理框架：论文提出了一个名为MM-Agent的自主代理框架，该框架模仿了人类专家解决数学建模问题的完整流程。它将复杂的建模过程分解为四个核心阶段：问题分析、数学建模、计算求解和解决方案报告，从而系统性地解决开放式建模难题。
通过全面的实验证明了框架的有效性和实用性：实验结果表明，MM-Agent在MM-Bench上的表现显著优于现有基线，甚至在多个维度上超越了人类专家的解决方案。而且在2025年的MCM/ICM竞赛中，MM-Agent作为一个建模辅助，成功让两支本科生队伍获得了决赛入围奖（Finalist Award），有力地证明了其在真实场景下的实用价值。

2. 研究方法

MM-Agent的核心是一个模仿人类专家的、分阶段的自主工作流。下面将极其详细地讲解其问题定义、核心组件和算法流程。

2.1. MM-Bench

2.1.1. 构建

收集了从2000年到2025年举办的MCM和ICM比赛的所有竞赛问题，使用gpt-4o从竞赛问题中提取以下元素：背景信息、问题需求、数据集路径、数据集描述以及数据集内部属性的变量描述。最后，手动检查和纠正提取信息中的错误，从而创建数学建模基准，命名为MM-Bench。总共111个问题，涉及10个领域，8种问题类型（比如决策、预测、评估等）。

在这里插入图片描述

2.1.2. 任务定义

给定一个数学建模问题 $F$ ，agent需要访问其所有相关内容 $f$ （包括背景信息、问题要求、数据集描述等），并生成一份完整的、端到端的解决方案报告。

2.1.3. 评估

评估标准：由于建模问题是开放的，没有标准答案，论文参考官方竞赛评审标准，从四个维度对生成的报告进行评估：
- 分析评估 (Analysis Evaluation)：考察问题定义的清晰度、关键要素的识别以及子任务逻辑的连贯性。
- 建模严谨性 (Modeling Rigorousness)：评估模型假设是否合理且明确阐述，选择的方法和模型结构是否科学、准确地反映了现实问题。
- 实用性与科学性 (Practicality and Scientificity)：评估模型是否具有实际应用价值，能否为决策提供有价值的见解，并遵守科学原则。
- 结果与偏差分析 (Result and Bias Analysis)：衡量结果的清晰度、可解释性和分析深度，并关注是否识别和缓解了数据或模型中存在的偏差。

2.2. 层级化数学建模知识库 (HMML)

HMML是MM-Agent做出高质量建模决策的知识基础。

在这里插入图片描述

结构：HMML采用三层树状结构：
- 顶层-领域 (Domain)：最高级别的建模域，如运筹学、机器学习、预测、评估等，共5个。
- 中层-子领域 (SubDomain)：对领域的细分，如运筹学下的规划论、图论等，共17个。
- 底层-方法节点 (Method Node)：具体建模方法的详细描述，以元组形式存在：{建模方法, 核心思想, 应用场景} 。例如，“线性规划”方法节点的核心思想是“优化线性目标函数和约束”，应用场景是“资源分配、生产计划”等，共98种。

2.3. MM-Agent 框架

MM-Agent的工作流分为四个紧密相连的阶段（如图3所示）：

在这里插入图片描述

阶段一：问题分析 (Problem Analysis)
此阶段的目标是将模糊的现实问题转化为结构化的子任务。

在这里插入图片描述

1.1 问题理解 (Problem Understanding)：分析师代理 (Analyst Agent) 首先对问题进行结构化分析，识别问题类型、核心概念、目标和约束。此过程采用自我反思机制，通过迭代来加深对问题的理解。
1.2 问题分解 (Problem Decomposition)：协调员代理 (Coordinator Agent) 将复杂的总体目标分解为一组更小、更易于管理的子任务集合 $D=\{\mathcal{D}_{1},\mathcal{D}_{2},\cdot\cdot\cdot,\mathcal{D}_{n}\}$ 。
1.3 任务依赖分析 (Task Dependency Analysis)：由于子任务之间并非独立(例如模型预测任务可能依赖于数据分析任务的分析结果)，协调员代理需要分析它们之间的相互依赖关系（如数据依赖、方法依赖）。它会构建一个有向无环图 (Directed Acyclic Graph, DAG) $\mathcal{G}=(\mathcal{V},\mathcal{E})$ 来表示任务的执行顺序。历史任务的中间输出（如模型方案、代码、实验结果）会被存储在记忆模块 $\mathcal{H}$ 中，供后续任务调用。

阶段二：数学建模 (Mathematical Modeling)
这是整个框架中最具创新性的部分，它通过一个精巧的机制来构建数学模型。

2.1 层级化建模知识检索 (Hierarchical Modeling Knowledge Retrieval)：
- 针对一个子任务 $\mathcal{D}_i$ ，代理在HMML知识库上执行深度优先搜索 (Depth-First Search, DFS)。
- 它使用嵌入模型计算子任务与每个方法节点 $\mathcal{N}$ 之间的余弦相似度 $Sim(\mathcal{D},\mathcal{N})$ 。
- 一个方法节点的最终得分 $S(\mathcal{D},\mathcal{N})$ 由其自身相似度与父节点（子领域）相似度加权得到，公式为： $S(\mathcal{D},\mathcal{N})=\omega\cdot Sim(\mathcal{D},\mathcal{N})+(1-\omega)\cdot Sim(\mathcal{D},\mathcal{N}_{parent})$ 。
- 最终，得分最高的 Top-K 个建模方法被检索出来，作为候选方案。
2.2 Actor-Critic 迭代建模优化 (Actor-Critic Iterative Modeling Optimization)：
- 这个机制通过自我迭代来优化和完善建模方案。
- Actor (执行者)：建模代理 (Modeling Actor) 基于检索到的Top-K方法，生成一个初始的建模方案 $\mathcal{M}_{i}^{(0)}$ 。
- Critic (评论者)：另一个代理 (Modeling Critic) 评估当前方案 $\mathcal{M}_{i}^{(t)}$ 的质量，并提供具体的、有针对性的反馈和改进建议 $\mathcal{F}_{i}^{(t)}$ 。
- 迭代优化：Actor根据Critic的反馈来修正和改进方案，生成新版本的方案 $\mathcal{M}_{i}^{(t+1)}$ 。这个“提出-批评-改进”的循环会持续进行，直到达到最大迭代次数或方案质量收敛。

阶段三：计算求解 (Computational Solving)

3.1 代码生成与执行：建模程序员代理 (Modeling Programmer Agent) 根据最终确定的数学模型方案 $\mathcal{M}_{i}$ ，自主编写计算代码，然后使用MLE-Solver进行计算实验。
3.2 自我调试：代码在一个环境中执行。如果出现运行时错误，代理会分析错误信息，并在指定的迭代次数内自动修复代码，直到代码能够成功运行并返回实验结果 $\mathcal{O}_{i}$

阶段四：解决方案报告 (Solution Reporting)

4.1 报告大纲生成：在所有子任务完成后，报告代理 (Reporting Agent) 首先会构建一个结构化的LaTeX格式的报告大纲，包含摘要、问题重述、模型假设、符号定义、求解过程、结论等标准部分。
4.2 报告内容填充与润色：代理从记忆模块 $\mathcal{H}$ 中提取所有任务的分析、模型、代码和结果，逐步填充到大纲的各个部分。通过一系列迭代编辑，最终生成一份逻辑清晰、格式规范、内容详实的完整解决方案报告。

3. 实验

为了验证MM-Agent的性能，论文进行了一系列详尽的实验。

3.1. 实验设置：

测试集：从MM-Bench中选取了2021-2025年的32个问题作为测试集，并特别将2025年的问题分开评估，以避免因为预训练造成的数据泄露风险。
基线模型：包括人类团队（竞赛中获奖的真实解决方案）、基础LLM（直接用GPT-4o等模型回答问题）以及其他为科学研究设计的SOTA代理，如 DS-Agent, ResearchAgent 和 Agent Laboratory。
底层模型：推理型模型：GPT-4o 和 DeepSeek-R1。
评估标准：分析评估（AE）、建模严谨性（MR）、实用性与科学性（PS）以及结果与偏差分析（RBA）。采用基于gpt-4o的自动评分和人工专家评审，使用统一的1到10级量表。

3.2. 主要实验结果：

在这里插入图片描述

直接使用基础LLM的效果远差于MM-Agent，证明了论文提出的结构化代理框架的必要性。
MM-Agent基本上在所有评估维度上均取得了SOTA性能，全面超越所有基线代理。
基于DeepSeek-R1-671B的代理普遍优于GPT-4o版本，说明更大的底层模型能带来更好的性能。
人类团队仍然是强大的竞争对手，在大多数指标上优于除MM-Agent之外的所有基于LLM的代理，体现了任务的复杂性，以及证明了MM-Agent接近人类的建模熟练程度。
在2025年问题的测试中，MM-Agent的表现与往年一致，有力地证明了其建模能力而非记忆能力，排除了数据污染（过拟合）的可能性。

3.3. 消融实验：

为了探究框架中各关键模块的贡献，论文对任务依赖分析 (DA)、HMML知识库和Actor-Critic优化 (HACM) 进行了消融研究。

在这里插入图片描述

结果显示，移除任何一个模块都会导致性能显著下降：
- 移除任务依赖分析（DA）会显著下降建模严谨性（MR），这表明深度任务理解对于严谨的表述至关重要；
- 移除HMML知识库会导致模型在分析评估（AE）和结果偏差分析（RBA）上表现变差，证明了结构化知识检索的重要性；
- 移除HACM则会损害模型的科学性（PS）和分析评估(AE)能力，凸显了迭代优化的关键作用。

3.3.1. 成本与泛化能力：

在这里插入图片描述

MM-Agent在实现高性能的同时，保持了与同类代理相当的计算成本和运行时间，展示了良好的成本效益。
在一个定义明确的数学优化问题数据集（OPTIBENCH）上，MM-Agent依然表现出色，证明了其不仅能处理开放式问题，还具备很强的泛化能力。

4. 结论、限制与未来方向

结论：
本研究成功地定义了LLM赋能的真实世界数学建模任务，并为此构建了评测基准MM-Bench。提出的MM-Agent框架通过模仿专家工作流，并结合创新的HMML知识库和Actor-Critic优化机制，显著提升了LLM在开放式建模任务上的表现，解决了现有模型输出过于简化和不科学的问题。
限制：
- 高阶推理能力：尽管MM-Agent表现出色，但在更高阶的抽象推理和跨学科问题的解决上仍存在挑战。
- 评估主观性：由于建模问题的开放性，评估过程（无论是人类还是LLM）都存在一定的主观性和偏见。
- 潜在风险：存在未来模型可能“记住”竞赛解法的数据污染风险，以及该技术被用于学术不端（如在竞赛中作弊）的滥用风险。
未来方向：
- 开发更客观的评估体系：研究者计划开发一个专门的“数学建模评判员”模型，以提供更结构化、透明和一致的评估，减少偏见。
- 提升模型能力：进一步提升代理在复杂、跨领域问题上的高阶推理和创新能力。
- 奠定未来研究基础：作者希望MM-Bench和MM-Agent能为未来LLM驱动的自动化科学发现和数学建模研究奠定坚实的基础。

北京朝阳AI社区

更多推荐

无人机追逃博弈论文读取有感

多智能体追逃博弈算法综述与未来方向本文系统梳理了多智能体追逃博弈的算法框架，分为全局视野和局部视野两大类，并针对无人机局部观测场景提出推荐方案。全局视野算法（如MADDPG、QMIX）依赖完整环境信息，虽在协同控制中表现良好，但难以适应真实场景中的部分观测问题，存在过拟合和泛化性差的缺陷。局部视野算法（如MAPPO、MAAC）更适合无人机追逃场景，通过注意力机制、图神经网络或课程学习实现局部