logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Multimodal Agent 最新方法盘点:从看懂屏幕到操作真实世界

2024-2026年,多模态智能体(Multimodal Agent)技术从基于视觉语言模型(VLM)的简单界面操作,快速演进为能够跨平台执行复杂任务、连接数字与物理世界的系统。研究重点转向可训练的动作模型(如UI-TARS)、技能复用(CUA-Skill)、多模态事件流(OmniGUI)和更真实的评测基准(WindowsWorld、MacArena)。当前挑战包括动作空间统一、长期状态跟踪、错误

文章图片
#人工智能#语言模型#自然语言处理
Prompt Injection 与 Agent Security 论文盘点:从“提示词越狱”到权限化 Agent 架构

近年来,Prompt Injection 问题已从简单的"提示词越狱"演化为Agent安全的核心挑战。随着LLM获得操作系统权限,攻击方式从直接注入发展为间接注入、工具投毒和记忆污染。研究重点转向真实任务环境下的权限控制,防御策略从文本过滤升级为指令层级隔离、结构化通道和运行时授权。关键趋势表明,安全边界应建立在工具和数据流层面而非依赖LLM本身,需结合最小权限、来源追踪等传统安全范式。工程实践强

文章图片
#架构#人工智能
Prompt Injection 与 Agent Security 论文盘点:从“提示词越狱”到权限化 Agent 架构

近年来,Prompt Injection 问题已从简单的"提示词越狱"演化为Agent安全的核心挑战。随着LLM获得操作系统权限,攻击方式从直接注入发展为间接注入、工具投毒和记忆污染。研究重点转向真实任务环境下的权限控制,防御策略从文本过滤升级为指令层级隔离、结构化通道和运行时授权。关键趋势表明,安全边界应建立在工具和数据流层面而非依赖LLM本身,需结合最小权限、来源追踪等传统安全范式。工程实践强

文章图片
#架构#人工智能
大语言模型技术指南:长上下文是怎么做出来的?RoPE、位置插值、滑窗注意力与 KV Cache 详解

大语言模型长上下文技术解析 本文深入剖析了实现大语言模型长上下文的关键技术挑战和解决方案。核心要点包括: 长上下文本质是扩大模型单次处理的序列窗口,而非单纯增强记忆力 Transformer架构面临三重挑战: 计算量随序列长度平方级增长 显存需求激增 推理延迟恶化 位置编码是首要难题: RoPE旋转位置编码成为主流方案 需通过RoPE scaling和位置插值等技术扩展训练范围 工程优化策略: 滑

#语言模型#人工智能#自然语言处理
大语言模型技术指南:SFT、RLHF、DPO 怎么串起来?对齐训练与关键参数详解

大语言模型对齐训练技术指南 本文系统梳理了大语言模型预训练后的对齐训练技术,包括SFT、RLHF和DPO三种关键方法: SFT(监督微调):通过指令-回答样本训练,将通用续写模型转化为指令跟随模型,重点调整回答风格和交互模式而非增加知识。其数据配比直接决定模型行为风格。 RLHF(基于人类反馈的强化学习):分三步实现:SFT基础训练→构建奖励模型→强化学习优化,使模型输出更符合人类偏好。工程难点在

#语言模型#人工智能#深度学习
大语言模型部署实战:生产环境怎么做高并发、监控、限流与故障恢复?

大模型生产环境部署的核心挑战在于从"能跑"到"稳定服务"的跨越。本文系统剖析了高并发场景下的关键问题与解决方案: 并发瓶颈本质:生产环境的核心矛盾不是单条请求速度,而是流量波动时的系统稳定性,需要关注吞吐量、尾延迟等指标。 调度策略三要素: 基于token处理能力而非简单QPS 实现请求类型分层(长短请求分离) 通过压测定制容量规划而非盲目扩容 工程优化重点

#语言模型#人工智能#自然语言处理
大语言模型技术指南:Function Calling、Tool Use、Agent 框架的工作机制与参数要点

本文系统梳理了大语言模型从基础功能到智能代理的演进路径,将其划分为三个层级:Function Calling(结构化调用接口)、Tool Use(调用闭环)和Agent(多步决策系统)。作者指出模型需要工具调用的本质原因是其存在三类固有局限:无法感知实时世界、不擅长精确执行、缺乏长期工作流管理能力。文章详细解析了工具调用的工作机制,包括schema设计要点、参数校验规则、执行器解耦原则和结果压缩方

#语言模型#人工智能#大数据
大语言模型技术指南:RAG 为什么能补知识盲区?检索、切块、重排与生成参数详解

RAG技术解析:如何高效补足大模型知识盲区 RAG(检索增强生成)通过四阶段链路解决大模型知识边界问题:1)数据入库层处理文档清洗与切块;2)召回层粗筛相关候选;3)重排层精选关键证据;4)生成层基于证据回答。核心优势在于将知识与模型解耦,特别适合知识更新频繁、文档较长且需追溯依据的场景。技术关键点包括:chunk大小需平衡完整性与噪声(300-1000 tokens)、overlap设置(10%

#语言模型#人工智能#自然语言处理
从 Toolformer 到 RL Tool Policy:Tool Learning / Agentic Tool Use 论文路线盘点

本文系统梳理了工具学习(Tool Learning)领域从基础方法到最新进展的研究路线。早期工作(如ReAct、Toolformer)聚焦模型如何调用工具并生成参数,而近一年研究重点转向多轮交互、状态管理、RL训练和安全边界。核心趋势包括:工具schema设计从文档演变为控制面,评测从静态JSON匹配转向动态环境执行,安全协议(如MCP)与权限管理日益重要。工程实践表明,工具调用需构建为可审计、可

文章图片
#人工智能#学习#语言模型
Prompt Engineering 为什么不够了:从“写好提示词”到“构建可靠上下文系统”

随着大模型应用从实验阶段进入生产环境,单纯依赖Prompt Engineering(提示词工程)已无法满足实际需求。Prompt Engineering曾通过角色设定、Few-shot示例、输出格式约束等方法显著提升模型表现,但在真实业务中面临知识过时、权限管理、工具调用、安全审计等复杂问题。本文指出,Prompt Engineering并未失效,而是需要融入更全面的Context Enginee

文章图片
#人工智能#语言模型
    共 75 条
  • 1
  • 2
  • 3
  • 8
  • 请选择