logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【Agent】框架开发实践(AutoGen、AgentScope、CAMEL、LangGraph)

AutoGen 将复杂的协作抽象为一场由多角色参与的、可自动进行的“群聊”,其核心在于“以对话驱动协作”。AgentScope 则着眼于工业级应用的健壮性与可扩展性,为构建高并发、分布式的多智能体系统提供了坚实的工程基础。CAMEL 以其轻量级的“角色扮演”和“引导性提示”范式,展示了如何用最少的代码激发两个专家智能体之间深度、自主的协作。LangGraph 则回归到更底层的“状态机”模型,通过显

文章图片
【MLLM】多模态理解Ovis2.5模型和训练流程(更新中)

第一阶段:VET预训练 (视觉基础启蒙)• 目标:教会模型最基础的“看图识物”,即训练好VET这个“视觉词典”。• 方法:使用海量“图像-标题”数据对。为保证学习稳定,此阶段会冻结视觉编码器的大部分参数,只微调最后几层和VET。分辨率较低,且暂时关闭。第二阶段:多模态预训练 (图文对话入门)• 目标:打通视觉和语言的连接,让模型具备基础的对话和理解能力。• 方法:开放所有模块的参数进行全量训练,并

文章图片
【LLM-Agent】七种agent协作模式

7种智能体(Agent)协作模式并行模式(Parallel):每个智能体负责处理不同的子任务,例如数据提取、网页检索和内容摘要,它们的输出会整合为一个统一结果。该模式非常适合在文档解析、API 编排等高通量流程中降低延迟;串行模式(Sequential):每个智能体逐步为任务增值,例如一个智能体生成代码、另一个进行审核、第三个负责部署。在工作流自动化、ETL(抽取 - 转换 - 加载)链路以及多步

文章图片
【LLM】使用DSA和改进GRPO的DeepSeek-V3.2模型

DSA 训练的两个阶段阶段一:Dense Warm-up先冻住主模型,只训练 Lightning Indexer训练目标是让 Indexer 的输出分布对齐主注意力的分布只训练了 1000 步,共 2.1B tokens阶段二:Sparse Training放开所有参数,让模型适应稀疏注意力模式继续用 KL 散度对齐 Indexer 和主注意力训练了 15000 步,共 943.7B tokens

文章图片
【RL】Scaling RL Compute for LLMs | JustRL 1.5b

ScaleRL配方中包含了哪些关键技术选择?这些选择是如何影响渐近性能和计算效率的?​​​​异步Pipeline-RL设置​​:提高训练稳定性和效率。​​强制长度中断​​:防止推理输出长度爆炸,提高训练稳定性。​​截断的重要性采样RL损失(CISPO)​​:提高渐近性能。​​提示级损失平均​​:优化损失聚合方式,提高计算效率。​​批次级优势归一化​​:提高计算效率。​​FP32精度在logits​

文章图片
#深度学习
【LLM-RL】以信息熵的角度理解RL

为啥会发生熵崩溃为什么会发生“熵崩溃”?论文从数学上给出了一个解释。作者推导出,策略熵的变化与一个关键因素——动作概率和优势函数(Advantage)的协方差——有关(反比关系)。原文中的公式比较复杂,感兴趣的读者可以自行拜读。这里提供一个通俗易懂的说法(在数学上不一定严谨)。简单来说:• 当模型选择一个高概率的动作(token),而这个动作又带来了高奖励(高Advantage)时,强化学习算法会

文章图片
【LLM】大模型vibe coding(cursor、copilot、comate)

选对工具,谋定而后动• 新手和老手选择不同:如果你是编程新手,可以从 Replit 或 Lovable 这类可视化工具入手,它们能让你快速搭建界面。但文章指出,当你需要更精细地控制后端逻辑时,这类工具可能力不从心。如果你有基础,那么像 Cursor 或 Claude Code 这类更专业的编码AI工具会是更好的选择,它们提供更精准的控制。• 别直接写代码,先做计划:这是最重要的建议之一。不要一上来

文章图片
#copilot
【LLM训练框架】deepseed之autoTP+zero1训练框架

deepseed新发布了一个训练方式autoTP,deepseed就是玩zero的,zero是一种配合DP省显存的方式:- zero1是优化器被打散,- zero2是梯度,- zero3直接是模型参数,如果手里卡有限,显存不够,一般是采用==FSDP+zero3==来训练才能装下比较大的模型,但是zero3因为能拆的都拆了,所以一通信就all2all,计算全被通信吃了,MFU就非常小,虽然是DP但

文章图片
【Agent】AI智能体评测基座AgentCLUE-General

AgentCLUE-General借鉴了GAIA基准(https://huggingface.co/spaces/gaia-benchmark/leaderboard)对难度等级的定义,来定义难度等级:- 1 级问题通常只考察一个任务场景,解题所需要的步骤不超过 5 个。- 2 级问题通常只考察一个任务场景,解题需要 5 个以上的步骤(通常是6-10个)。如果是考察多个任务场景的“多场景组合”任务

文章图片
【Agent】智能体:在循环中自主调用工具的LLM

ReAct范式通过一种特殊的提示工程来引导模型,使其每一步的输出都遵循一个固定的轨迹。智能体将不断重复这个 Thought -> Action -> Observation 的循环,将新的观察结果追加到历史记录中,形成一个不断增长的上下文,直到它在Thought中认为已经找到了最终答案,然后输出结果。Thought (思考): 这是智能体的“内心独白”。它会分析当前情况、分解任务、制定下一步计划,

文章图片
    共 420 条
  • 1
  • 2
  • 3
  • 42
  • 请选择