LLM多智能体综述论文阅读 LLM-Based Multi-Agent Systems for Software Engineering:Literature Review, Vision..（2）

本文提出LMA在软件工程领域的两大研究方向：提升单体智能体能力和优化多智能体协同。对于单体智能体，通过"角色识别-能力评估-专项强化"三阶段方法，将通用LLM培养为专业SE角色代理；同时提出面向智能体的编程范式(AOP)来优化提示语言设计。在多智能体协同方面，重点解决任务分配、性能评估、系统扩展等关键问题，包括建立协作基准、设计分层架构、引入工业管理机制等。最终目标是构建可胜任

RebeZk

285人浏览 · 2025-10-07 11:36:53

RebeZk · 2025-10-07 11:36:53 发布

第五章

这一章开始作者针对SE领域中LMA的问题与挑战提出自己观点。作者提出了LMA在SE领域的研究议程，分为两点：1、提升单体智能体能力。2、优化多智能体协同

（1）提升单智能体的能力

作者先提出两条核心 RQ：

哪些 SE 角色适合由 LLM-based agent 承担，如何增强其胜任这些角色的能力？

如何设计一种有效、灵活且稳健的提示语言，以增强 LLM-based agent 的能力？

a. 细化“角色扮演”能力（Refining Role-Playing Capabilities in SE）

现状与痛点：现有 LMA（如 ChatDev、MetaGPT、AgileCoder）多依赖通用 LLM（如 ChatGPT），能模拟“通用开发者/产品经理”，但欠缺安全审计、漏洞检测等细分领域的深层知识。

实证研究表明：通用 LLM 在检测/修复漏洞等专门任务上存在明显缺陷 → 需要把领域专知系统性注入到 LLM/agent 中。

三步式可操作方案（Structured, Actionable 3-Step）

Step 1：识别并优先排序关键 SE 角色

Market Analysis：结合岗位/行业报告、招聘数据、开发者调查，判断哪些角色需求高、价值大，及哪些任务已由 LLM 替代趋势明显。
Stakeholder Engagement：访谈一线工程师/HR/学界专家，确保“关键角色集”与真实业务对齐。
Value Addition Modeling：用数据驱动评估 LLM-agent 对每个角色的生产率/质量/速度/创新等增益，可做小规模试点以取证；不同领域价值主张不同，要差异化建模。

Step 2：对齐“角色要求”与“agent 能力”

Competency Mapping：为各角色建立胜任力框架（技术 + 软技能 + 领域知识），形成可度量基线。
Performance Evaluation：按真实场景设计评测任务（如 DevOps 让 agent 自动化 CI/CD、排错等），覆盖“技术到思维”的广域能力。
Gap Analysis：对照期望产出，定位 agent 的短板（术语理解、最佳实践、性能优化、安全忽视等）。
Expert Consultation & Iterative Refinement：与资深工程师评审结果，修正评测与能力框架，挖掘量化指标难覆盖的细节。

Step 3：面向角色的“定向强化”

数据构建：为目标角色策划高质量训练语料（API/手册/白皮书/学术与行业案例、Stack Overflow/Reddit/行业论坛实战讨论等）。
模型微调：用参数高效微调等方法对 LLM 做角色化适配。
Prompt 设计：围绕角色/任务/目标制定模板化、可复用的高质量 prompts（如安全分析需内置协议、常见漏洞与合规标准）。
持续学习与适配：建立监控与更新机制，随技术与标准演进迭代数据、提示与模型，让产出常新且可审计。

小结：通过“选角色—量能力—补能力”的工程化流程，把通用 LLM 逐步锻造成可胜任专门 SE 角色的 agent。

b. 通过“面向智能体编程范式”推进提示语言（Advancing Prompts via Agent-Oriented Programming, AOP）

动机：自然语言 易歧义、上下文不确定，对 LLM 来说并非理想“指令语言”；现有工具（DSPy、AutoGen、LangChain 等）仍以人为主要受众，缺少把 LLM/agent 作为“一等公民”的专用语言。

提案：AOP/MAOP 式提示语言

借鉴 面向对象编程（OOP） 的组织思想，把 Agent 作为基本构件，显式描述：目标/约束/交互协议/层级关系/沟通模式/任务结构；
扩展到 Multi-Agent-Oriented Programming（MAOP）：规范多智能体的协作与适应；
期望收益：降歧义、控幻觉、提执行一致性与效率。

设计需求与研究问题

表达力 × 易用性 的平衡：既能刻画复杂 SE 工作流，又不致学习曲线过陡；
跨模型可迁移：不同模型/版本对提示的解释差异显著，需要可移植、可裁剪的机制；
非终点但重要一步：AOP 不一定是最终答案，但它推动形成AI-oriented 的专用语法，显著减少误解、提升整体效果。

Phase 1 的目标不是马上解决“多智能体协同”，而是先把每个 agent 练强：

一手抓角色化与专门化能力建设（三步法落地）；

一手抓可编排、可移植的提示语言（AOP/MAOP 思路）。
这样才能为后续 Phase 2：优化协同 打下坚实“单点能力”与“指令语言”基础。

（2）优化多智能体协同

本阶段关注智能体间协作（agent synergy）及人与智能体的协同工作，核心问题包括：

a.如何在人类与智能体之间合理分配任务？

制定角色特定指南：明确何时以及在哪些决策点应当引入人类判断；特别适用于伦理决策、冲突处理、模糊问题解决等人类独有优势领域。

设计友好交互界面与协议：使用自然语言接口（NLI）和可视化技术；以直观方式呈现智能体输出，并收集人类反馈；需针对不同人类角色（项目经理、开发者、QA 工程师）提供差异化信息层级。

预测性协作模型：建立预测模型，确定最优人机比例（human-agent ratio）；综合考虑任务复杂度、时间限制、优先级与双方能力；可利用机器学习分析历史项目数据以优化分配。

b. 如何量化协作的影响，评估其对性能与质量的提升？

提出需建立多智能体协作基准（Collaborative Benchmarks），涵盖以下任务：

协作式设计：评估智能体能否共同生成平衡设计方案。
任务分配与协调：检查任务划分是否合理、依赖管理是否高效。
冲突识别与协商：测试智能体能否识别逻辑或目标冲突，并通过协商解决。
组件集成与代码评审：评估代码互检与集成质量。
主动澄清请求：测试智能体能否在不确定时主动寻求澄清，避免误解。

c. 如何让 LMA 系统支持大规模复杂项目？

分层任务分解:通过高层智能体管理全局目标，低层智能体负责子任务；提升规划与分配效率。

高效通信协议与消息压缩：减少冗余报告，用摘要化更新以降低负载；预防信息过载与延迟。

共享知识库：建立统一知识平台，减少信息不一致；通过版本控制与自动纠错机制维持一致性。

决策结构优化：设计子集投票或代表性共识算法，加速团队决策；减少全员讨论带来的低效。

d. 哪些工业组织机制可应用于 LMA 系统？

引入工业级项目管理框架：采用工具（看板、报告、里程碑管理）实现可视化进度控制；实时调整资源分配与任务优先级。

融入企业级架构与设计模式：遵循软件架构最佳实践与复用性设计；减少技术债、增强可维护性与扩展性。

组织与领导机制：借鉴大型团队管理结构，提升透明度与协作稳定性；结合实时数据更新任务板、优化负载、预测瓶颈。

e. 如何让系统动态调整策略与架构？

动态团队重组：系统应能自动添加、删除或重新分配角色；根据任务变化动态调整智能体数量与类型。

知识与经验复用：通过学习过往项目识别高效模式；实现“从经验中学习”的持续优化。

资源自适应管理：动态分配算力与内存；优化资源以应对任务复杂度变化。

终止条件预测：引入实时监测与机器学习评估机制，自动判断项目阶段是否应结束；避免“无限循环”或提前收尾。

f. 如何在协作中确保隐私与安全的数据共享？

跨组织访问控制：扩展 RBAC / ABAC 模型以适配动态多智能体场景；支持多粒度权限控制与安全协作。隐私保护计算技术：差分隐私、安全多方计算、同态加密、联邦学习。法规遵从与隐私设计：遵守 GDPR（欧盟）与 CCPA（美国）；引入同意管理、可追溯与“被遗忘权”机制。数据一致性与透明性：使用分布式账本实现可验证访问；通过数据同步与共享存储减少延迟与不一致。

模块	研究核心	关键要点	最终目标
Human–Agent Collaboration	人机分工与交互优化	角色指南 + 界面设计 + 人机比例预测	实现最优人机协作
Evaluating LMA Systems	协作基准建立	群体任务评测 + 冲突协商 + 主动澄清	衡量协作智能
Scaling Up for Complex Projects	大型项目可扩展性	分层架构 + 通信优化 + 知识共享	支撑复杂工程
Leveraging Industry Principles	工业经验迁移	工程方法论 + 管理框架 + 架构标准	提升工业可行性
Dynamic Adaptation	实时演化能力	动态重组 + 资源调度 + 终止预测	实现自组织、自优化
Privacy and Partial Information	安全与隐私治理	安全访问 + 隐私计算 + 法规合规	构建可信协作生态

北京朝阳AI社区

更多推荐

大模型应用开发agent开发关键点

在构建多模态智能体时，提示词（Prompt）的设计直接影响大模型的输出质量。任务描述：明确说明需要生成的内容类型（如文本、图像或混合输出）。格式约束：指定返回数据的格式（JSON、Markdown等）。示例引导：提供少量示例（Few-shot Learning）提高准确性。Vue前端可通过表单收集用户输入，Flask后端将提示词拼接后发送至大模型API。# Flask 示例：拼接提示词任务：生成一

北京朝阳AI社区

AI 与 Agent 的区别

北京朝阳AI社区

白话大模型评估：文本嵌入与文本生成模型评估方法详解

本文介绍了大语言模型的两类核心评估方法：文本嵌入模型和文本生成模型。对于文本嵌入模型，重点阐述了准确率、精确率、召回率和F1分数等核心指标及其计算方法，并提供了基于LCQMC数据集的评估代码示例。文本生成模型评估部分则详细解析了BLEU、ROUGE和困惑度等指标的特点与适用场景，同时给出了完整的评估流程代码。文章通过具体示例展示了如何从数据加载到指标计算的全过程，为读者提供了实用的模型评估参考框架