
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
在做大模型应用RAG的时候,会发现一种特殊的场景,就是基于之前的case进行回答,比如法律咨询、医疗诊断等等。这种情况的问答,需要有强有力的case支持才行,有了case支持,大模型回答会更加准确。CBR这个概念已经很久了,它是一种人工智能推理方法,它的基本思想是:遇到新问题时,先回忆相似的过去案例,再基于这些案例进行调整,得到新问题的解答。Retrieve(检索):在案例库中找到与当前问题最相似

在做大模型应用RAG的时候,会发现一种特殊的场景,就是基于之前的case进行回答,比如法律咨询、医疗诊断等等。这种情况的问答,需要有强有力的case支持才行,有了case支持,大模型回答会更加准确。CBR这个概念已经很久了,它是一种人工智能推理方法,它的基本思想是:遇到新问题时,先回忆相似的过去案例,再基于这些案例进行调整,得到新问题的解答。Retrieve(检索):在案例库中找到与当前问题最相似

在做大模型应用RAG的时候,会发现一种特殊的场景,就是基于之前的case进行回答,比如法律咨询、医疗诊断等等。这种情况的问答,需要有强有力的case支持才行,有了case支持,大模型回答会更加准确。CBR这个概念已经很久了,它是一种人工智能推理方法,它的基本思想是:遇到新问题时,先回忆相似的过去案例,再基于这些案例进行调整,得到新问题的解答。Retrieve(检索):在案例库中找到与当前问题最相似

在大模型agent领域,比较常见的是ReAct范式,它的核心思想是把推理(Reasoning)和行动(Acting,通常是工具调用)结合起来。LLM 一边输出“思考过程”,一边决定调用什么工具或采取什么行动,再根据观察结果继续推理。而CodeAct的核心思想是让 LLM 输出 可执行代码(而不是自然语言的行动指令),然后在安全环境里执行代码,执行结果再反馈给模型,进入下一轮。虽然CodeAct还有

在大模型agent领域,比较常见的是ReAct范式,它的核心思想是把推理(Reasoning)和行动(Acting,通常是工具调用)结合起来。LLM 一边输出“思考过程”,一边决定调用什么工具或采取什么行动,再根据观察结果继续推理。而CodeAct的核心思想是让 LLM 输出 可执行代码(而不是自然语言的行动指令),然后在安全环境里执行代码,执行结果再反馈给模型,进入下一轮。虽然CodeAct还有

在大模型应用中,常会遇到的问题,就是大模型慢。这里一般是受限于GPU资源问题。大模型慢,一般有两种情况,一个是首token慢,二是token流速慢。第一种情况,更难于让人接受,所以优化大模型首token时间,很有必要。Prefix Caching的核心目标是:•当多个请求共享同样的 prompt(或者部分前缀相同),避免重复计算前缀的 attention key/value (KV 缓存)。•通过

在大模型应用中,常会遇到的问题,就是大模型慢。这里一般是受限于GPU资源问题。大模型慢,一般有两种情况,一个是首token慢,二是token流速慢。第一种情况,更难于让人接受,所以优化大模型首token时间,很有必要。Prefix Caching的核心目标是:•当多个请求共享同样的 prompt(或者部分前缀相同),避免重复计算前缀的 attention key/value (KV 缓存)。•通过

目前各个行业都在接入大模型,借助大模型的能力优化自己的业务。但是有一个问题,一直是需要面对的,就是速度,目前而言,大模型的首token速度仍是很慢,获取输出之前,需要等待几秒。这对实时性要求很高的系统而言,是难以接受的。一般而言,优化推理主要从以下4个方面:1、模型压缩技术(如量化和剪枝)2、高效注意力机制3、硬件加速策略4、改进算法以提高解码速度以下针对一些具体的方法进行说明。上面提到了各种模型
现在大模型依旧如火如荼,大模型训练和推理都少不了AI服务器,常见的就是英伟达GPU服务器,比如A100等。国产AI服务器也有很多,比如华为昇腾,这些服务器的算力如何,和英伟达的对比怎么样,作为大模型应用开发人员,需要有个了解,这样对部署的大模型性能有个大致判断。作为一个大模型应用工程师,了解国产AI服务器的指标,有利于掌握AI服务器的选型,也有利于在部署模型时,清楚模型运行的性能,知道优化模型性能