logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Case-Based Reasoning用于RAG

在做大模型应用RAG的时候,会发现一种特殊的场景,就是基于之前的case进行回答,比如法律咨询、医疗诊断等等。这种情况的问答,需要有强有力的case支持才行,有了case支持,大模型回答会更加准确。CBR这个概念已经很久了,它是一种人工智能推理方法,它的基本思想是:遇到新问题时,先回忆相似的过去案例,再基于这些案例进行调整,得到新问题的解答。Retrieve(检索):在案例库中找到与当前问题最相似

文章图片
#人工智能#算法
Case-Based Reasoning用于RAG

在做大模型应用RAG的时候,会发现一种特殊的场景,就是基于之前的case进行回答,比如法律咨询、医疗诊断等等。这种情况的问答,需要有强有力的case支持才行,有了case支持,大模型回答会更加准确。CBR这个概念已经很久了,它是一种人工智能推理方法,它的基本思想是:遇到新问题时,先回忆相似的过去案例,再基于这些案例进行调整,得到新问题的解答。Retrieve(检索):在案例库中找到与当前问题最相似

文章图片
#人工智能#算法
Case-Based Reasoning用于RAG

在做大模型应用RAG的时候,会发现一种特殊的场景,就是基于之前的case进行回答,比如法律咨询、医疗诊断等等。这种情况的问答,需要有强有力的case支持才行,有了case支持,大模型回答会更加准确。CBR这个概念已经很久了,它是一种人工智能推理方法,它的基本思想是:遇到新问题时,先回忆相似的过去案例,再基于这些案例进行调整,得到新问题的解答。Retrieve(检索):在案例库中找到与当前问题最相似

文章图片
#人工智能#算法
CodeAct范式

在大模型agent领域,比较常见的是ReAct范式,它的核心思想是把推理(Reasoning)和行动(Acting,通常是工具调用)结合起来。LLM 一边输出“思考过程”,一边决定调用什么工具或采取什么行动,再根据观察结果继续推理。而CodeAct的核心思想是让 LLM 输出 可执行代码(而不是自然语言的行动指令),然后在安全环境里执行代码,执行结果再反馈给模型,进入下一轮。虽然CodeAct还有

文章图片
#人工智能#算法
CodeAct范式

在大模型agent领域,比较常见的是ReAct范式,它的核心思想是把推理(Reasoning)和行动(Acting,通常是工具调用)结合起来。LLM 一边输出“思考过程”,一边决定调用什么工具或采取什么行动,再根据观察结果继续推理。而CodeAct的核心思想是让 LLM 输出 可执行代码(而不是自然语言的行动指令),然后在安全环境里执行代码,执行结果再反馈给模型,进入下一轮。虽然CodeAct还有

文章图片
#人工智能#算法
推理加速prefix cache

在大模型应用中,常会遇到的问题,就是大模型慢。这里一般是受限于GPU资源问题。大模型慢,一般有两种情况,一个是首token慢,二是token流速慢。第一种情况,更难于让人接受,所以优化大模型首token时间,很有必要。Prefix Caching的核心目标是:•当多个请求共享同样的 prompt(或者部分前缀相同),避免重复计算前缀的 attention key/value (KV 缓存)。•通过

文章图片
#人工智能#transformer
推理加速prefix cache

在大模型应用中,常会遇到的问题,就是大模型慢。这里一般是受限于GPU资源问题。大模型慢,一般有两种情况,一个是首token慢,二是token流速慢。第一种情况,更难于让人接受,所以优化大模型首token时间,很有必要。Prefix Caching的核心目标是:•当多个请求共享同样的 prompt(或者部分前缀相同),避免重复计算前缀的 attention key/value (KV 缓存)。•通过

文章图片
#人工智能#transformer
大模型推理加速

目前各个行业都在接入大模型,借助大模型的能力优化自己的业务。但是有一个问题,一直是需要面对的,就是速度,目前而言,大模型的首token速度仍是很慢,获取输出之前,需要等待几秒。这对实时性要求很高的系统而言,是难以接受的。一般而言,优化推理主要从以下4个方面:1、模型压缩技术(如量化和剪枝)2、高效注意力机制3、硬件加速策略4、改进算法以提高解码速度以下针对一些具体的方法进行说明。上面提到了各种模型

#深度学习#人工智能#机器学习
AI服务器介绍

现在大模型依旧如火如荼,大模型训练和推理都少不了AI服务器,常见的就是英伟达GPU服务器,比如A100等。国产AI服务器也有很多,比如华为昇腾,这些服务器的算力如何,和英伟达的对比怎么样,作为大模型应用开发人员,需要有个了解,这样对部署的大模型性能有个大致判断。作为一个大模型应用工程师,了解国产AI服务器的指标,有利于掌握AI服务器的选型,也有利于在部署模型时,清楚模型运行的性能,知道优化模型性能

#人工智能#服务器#算法 +1
大模型推理框架介绍

最近大模型很火,但是能够训练大模型的,一般是头部大厂。相较于大模型训练而言,大模型推理则很多公司都在做,能够很好地进行大模型推理,在成本优化、性能提升、硬件适配、吞吐提高等多个方面很有意义。本文简要介绍两种推理框架Hugging Face Transformers和vllm,并对其简单对比。两种推理框架面向的侧重点不同,部署一般使用vllm,而开发调试使用hugging face较为方便。参考文档

#人工智能#算法
    共 24 条
  • 1
  • 2
  • 3
  • 请选择