logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大模型Prompt-Tuning技术进阶 - 完整总结

大规模模型高效微调技术解析 摘要:本文系统介绍了面向超大规模模型的Prompt-Tuning和PEFT参数高效微调技术。针对10亿+参数模型,分析了Prompt-Tuning的三大范式:In-Context Learning(零样本学习)、Instruction-Tuning(指令微调)和Chain-of-Thought(思维链推理)。重点阐述了PEFT三大方法:Prefix-Tuning(前缀调

文章图片
#人工智能
大模型Prompt-Tuning技术详解:从入门到进阶

本文系统介绍了NLP任务的四种发展范式,重点对比了Fine-Tuning和Prompt-Tuning的核心原理与差异。Prompt-Tuning通过调整输入提示而非修改模型参数,实现了更高效的少样本学习。文章详细解析了In-Context Learning、Hard/Soft Prompt等主要方法,以及面向超大模型的Instruction-Tuning和Chain-of-Thought技术。同时

文章图片
#人工智能
大模型面试通关秘籍:面试官亲划的5大核心考点(附满分回答模板)

摘要:本文提炼了大模型面试中的核心知识点,整理成5张关键表格:1. Transformer原理篇(Attention机制、LayerNorm等核心问题);2. RAG技术篇(检索增强生成的实现与优化);3. Agent系统篇(智能体的架构与规划);4. 工程化部署篇(推理优化与生产部署);5. 开放式问题应对策略。重点强调面试中要用通俗语言解释技术原理,结合实践案例展示解决问题的能力,而非死记硬背

文章图片
#人工智能
大模型面试宝典

本文总结了21道高频AI面试题,涵盖模型微调、Transformer架构、BERT原理、训练技巧等核心知识点。主要内容包括:1)LoRA通过低秩矩阵实现高效微调;2)RMSNorm相比LayerNorm计算更快;3)Decoder-only架构在成本效果上更优;4)BERT采用80%-10%-10%的mask策略;5)训练显存约为参数量8倍;6)RAG通过检索增强生成质量;7)PDF提取需根据不同

文章图片
#人工智能
LoRA 面试完全指南:低秩分解原理 + Transformer 应用

LoRA(低秩自适应)是一种参数高效微调方法,通过在预训练模型旁注入可训练的低秩分解矩阵(B×A),大幅减少训练参数量(通常0.1%-1%)。核心优势包括:显存占用低、训练速度快、存储成本小(仅需保存MB级权重),且效果接近全量微调。其原理基于预训练权重更新具有低秩特性,通过冻结原始权重W,训练随机初始化的A矩阵和全零初始化的B矩阵(r<<d)。LoRA广泛应用于Transformer

文章图片
#transformer#深度学习#人工智能
RAG 完整面试指南:原理、优化、幻觉解决方案

摘要:RAG(检索增强生成)是一种通过实时检索外部知识库来增强大模型回答能力的方法,能有效解决知识过时和幻觉问题。其核心流程包括离线建库(文档加载、分块、向量化)和在线检索生成(查询改写、混合检索、结果精排)。优化重点包括:查询改写、混合检索策略、Chunk参数调整(建议256-512tokens,10-20%重叠率)、提示词工程等。相比微调和Agent,RAG具有无需训练、算力消耗低、知识可实时

文章图片
#人工智能
大模型训练框架 ➕ 推理部署框架

本文系统介绍了大模型训练和推理的主流框架。训练方面重点解析了DeepSpeed框架,包括其核心技术ZeRO优化器(分阶段切分模型状态)、3D并行(数据/模型/流水线并行)以及梯度累积方法,并提供了ChatGLM-6B微调的实战代码示例。推理方面对比了7种框架,突出vLLM的PagedAttention技术和TGI的生产级稳定性,并给出选型指南:新手用Ollama、高并发选vLLM、生产环境用TGI

文章图片
LangGraph 垂直领域智能体实战:从入门到构建高效AI工作流

《基于LangGraph的智能体开发实战指南》摘要 本文系统介绍了使用LangGraph框架开发智能体的完整方法。首先讲解了智能体的核心架构(大脑、感知、行动和记忆模块),以及LangGraph的图结构计算模型优势。通过"冲咖啡"案例详细演示了流程控制、状态管理和人工介入的实现方式。重点阐述了六种智能体构建模式:提示链(分步处理)、分支(条件路由)、并行化(效率优化)、计划-执

文章图片
#人工智能
大模型KV缓存机制:从根本上理解你命中缓存了吗?

摘要:KV缓存机制基于序列前缀匹配而非问答对缓存,每轮对话新增成本来自上一轮回答和本轮问题。优化原则是固定内容前置、动态内容后置,可显著降低多轮对话成本。关键认知包括:缓存按token级前缀匹配,命中率依赖输入序列一致性;上一轮回答不会作为前缀被命中;动态内容混入前缀会导致缓存失效。工程实践中可通过调整输入结构、预热缓存提升命中率,验证方式为查看API返回的缓存命中token数。该机制将多轮对话成

文章图片
#人工智能
生产级RAG Agent系统的标准架构

本文介绍了一个生产级旅行助手系统的核心架构实现,主要包含以下特性: 采用两阶段LLM处理流程(槽位提取+响应生成) 实现智能追问机制(基于missing_slots标记) 构建多层上下文管理系统(内存/Redis/MySQL) 集成AgentServer+MCP数据库查询功能 系统包含8个核心类,分为数据类(IntentResult、ConversationContext等)和业务类(Contex

文章图片
#架构#人工智能#工作流 +1
    共 54 条
  • 1
  • 2
  • 3
  • 6
  • 请选择