
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
在传统大模型推理框架中,最核心的瓶颈不是算力,而是 KV Cache 的管理方式。
本文从背景、来源、技术路线及性能等方面综述了11种在模型参数调优阶段进行的方法,其中前缀调优、提示调优和P-Tuning v2属于引入特定参数来减少算力消耗、提升训练速度;基于LoRA的各种方法的基本思想是添加新的旁路,对特定任务或特定数据进行微调。开源社区Hugging Face将这11种方法归纳为高效参数调优方法(Parameter-Efficient Fine-Tuning,PEFT)。PE

在大规模范围内高效使用大型语言模型是一个挑战,过去几年里已经开发出了许多技术来加快推理速度并降低成本。在本文中,我们将回顾这些技术。

LangChain入门+企业RAG实战,手把手教你搭企业知识库
首先一句话通俗解释什么是RAG? 全称: Retrieval-Augmented Generation (检索增强生成) :RAG是一种结合信息检索与大语言模型生成的架构。

若不显式打开这些标志,训练过程会退回到原始 PyTorch 实现,出现 显存占用激增、梯度同步延迟 等瓶颈,直接削弱了模型收敛速度和可复用性。

本文提出了一种"领域感知分层检索"架构,通过四阶段自调节管道,将LLM从"概率猜测者"转变为"事实验证者"。

如果说大模型是个“超级大脑”,那Agent就是“大脑 + 手 + 工具箱”。它能听懂你的目标,自己规划步骤,调用工具,最后把事儿给办成。搞懂Agent,才算真正看懂了AI下一步要往哪儿走。
今天就从数据层面,把大模型训练的几个关键环节梳理清楚。

AI正在对全行业进行无差别的颠覆,所有人都面临着工作方式的升级。不是说有全新职业的出现,而是大部份职业都会被要求原地升级 + AI。








