logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

智能体构建技术方案

📌【智能体构建最重要的文档】:所有智能体的层级结构、PE模板、代码示例、调用方法的全集链接,请点开查看:Sheet1- 模块清单:完成特定子任务的功能模块清单,包括模块输入、输出,代码示例等;Sheet2- 节点清单:实现大模型调用或工具执行的基本功能单元,包括节点输入、输出、PE模板等;Sheet3- 模型清单:适用于不同场景的推荐选用模型,包括参数量、地址、场景说明。智能体是一种能够感知环境

文章图片
#人工智能#云原生#AIGC
Langfuse:LLM应用全生命周期的“显微镜“与“加速器“

Langfuse通过提供全面可观测性、协作式提示词管理和智能评估能力,已成为LLM应用开发团队的必备工具。它不仅能帮助团队快速定位和解决问题,还能系统性提升应用质量和性能,最终实现**从"黑盒试错"到"透明优化"**的开发范式转变。先接入追踪→再优化提示词→最后建立评估体系,形成持续改进的闭环。

文章图片
#网络#语言模型#人工智能 +1
WebSocket协议核心机制与聊天室系统设计指南

消息区分:依赖应用层协议(如 JSON 中的Type和MsgID),而非 WebSocket 本身。有序性:TCP 保证底层有序,应用层通过长度前缀、序列号、单线程处理等机制确保消息完整和顺序。聊天室设计:核心在于连接管理、消息路由、协议定义和并发处理,结合持久化和安全机制实现可靠通信。通过上述方案,可实现一个基础聊天室系统,进一步优化可考虑分布式部署(如使用 Redis 共享用户状态)、消息压缩

文章图片
#websocket#网络协议#网络
详解DAPO

DAPO通过“双演员网络+直接偏好优化”的设计,在大模型对齐任务中实现了“更精准捕捉偏好、更稳定训练、更高样本效率”的平衡。让模型同时学习“应做什么”和“不应做什么”,从而更好地理解人类偏好的本质。随着大模型对对齐精度要求的提升,DAPO有望成为RLHF流程中的重要优化算法,尤其在复杂偏好场景中展现优势。

文章图片
#人工智能#语言模型#AIGC
大模型如何从开始到编译出Engine

【代码】大模型如何从开始到编译出Engine。

文章图片
#语言模型
GPU计算效率提升:混合精度训练、并行优化、量化与VLLM实践

基于上述策略,丰语8B模型通过混合精度训练将显存占用从224GB降至80GB以内(A800单卡可承载),同时通过损失缩放和精度分层,保证预训练精度与FP32训练基本一致。并行优化通过“拆分模型或数据”,将大模型训练/推理任务分配到多GPU上执行,突破单卡显存与计算能力限制,核心分为四类并行方式。,在保证模型收敛精度的前提下,降低显存占用、提升计算吞吐量,解决大模型训练的硬件资源限制。将模型按层(或

文章图片
#人工智能#算法#机器学习 +1
开源训练框架:LLaMA-Factory详解

LLaMA-Factory 凭借多模型兼容、低门槛、全流程支持的特点,成为大模型微调领域的主流工具之一,尤其适合中小团队和个人开发者快速落地定制化模型。将复杂的微调流程标准化、自动化,让开发者聚焦于数据质量和业务需求,而非底层技术实现。随着大模型技术的发展,LLaMA-Factory 正持续扩展对新模型(如 Llama 3、Qwen 2.0)和新技术(如 MoE 模型微调、长上下文适配)的支持,进

文章图片
#人工智能#语言模型#AIGC
Agentic RL

Agentic RL的核心价值是“让智能体具备自主解决复杂问题的能力”,它通过融合大模型的“理解与规划”和强化学习的“自主学习”,打破了传统AI“碎片化、被动化”的局限。当前在客服、运维、机器人等需要“端到端闭环”的场景落地最快,是大模型从“生成内容”走向“解决实际问题”的关键技术。

文章图片
#人工智能#AIGC
ToolCall(大模型工具调用)深度解析

ToolCall(工具调用)是大语言模型(LLM)基于用户需求,自主决策是否调用外部工具、选择匹配工具、生成标准化调用参数、整合工具返回结果并输出自然语言回答的核心能力。它的本质是让大模型突破“纯文本生成”的边界,成为能与外部系统交互的“智能体(Agent)”——相当于给大模型装上了“动手做事的手”。核心逻辑:ToolCall的本质是让大模型从“文本生成”升级为“任务执行”,核心流程是「意图识别→

#人工智能#语言模型#AIGC
RLHF与RLvR 深度解析:技术原理、对比及未来趋势

RLHF 是三阶段流水线方法,通过监督微调(SFT)→ 奖励模型(RM)训练 → 强化学习(RL)微调的闭环,将人类的主观偏好转化为模型可优化的数学目标,最终让模型输出符合人类预期。RLvR 是单阶段方法,跳过人类标注和奖励模型训练,直接以参考模型的输出或概率分布作为反馈信号,通过强化学习微调模型,让模型输出对齐参考模型的“偏好”。技术本质:RLHF 是“人类主导”的高成本、高效果方案,RLvR

文章图片
#人工智能#机器学习#语言模型 +1
    共 49 条
  • 1
  • 2
  • 3
  • 4
  • 5
  • 请选择