sinat_28694519 个人主页

@sinat_28694519

sinat_28694519

2023-06-19 20:05:48 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

Case-Based Reasoning用于RAG

在做大模型应用RAG的时候，会发现一种特殊的场景，就是基于之前的case进行回答，比如法律咨询、医疗诊断等等。这种情况的问答，需要有强有力的case支持才行，有了case支持，大模型回答会更加准确。CBR这个概念已经很久了，它是一种人工智能推理方法，它的基本思想是：遇到新问题时，先回忆相似的过去案例，再基于这些案例进行调整，得到新问题的解答。Retrieve（检索）：在案例库中找到与当前问题最相似

#人工智能 #算法

Case-Based Reasoning用于RAG

#人工智能 #算法

Case-Based Reasoning用于RAG

#人工智能 #算法

CodeAct范式

在大模型agent领域，比较常见的是ReAct范式，它的核心思想是把推理（Reasoning）和行动（Acting，通常是工具调用）结合起来。LLM 一边输出“思考过程”，一边决定调用什么工具或采取什么行动，再根据观察结果继续推理。而CodeAct的核心思想是让 LLM 输出可执行代码（而不是自然语言的行动指令），然后在安全环境里执行代码，执行结果再反馈给模型，进入下一轮。虽然CodeAct还有

在大模型应用中，常会遇到的问题，就是大模型慢。这里一般是受限于GPU资源问题。大模型慢，一般有两种情况，一个是首token慢，二是token流速慢。第一种情况，更难于让人接受，所以优化大模型首token时间，很有必要。Prefix Caching的核心目标是：•当多个请求共享同样的 prompt（或者部分前缀相同），避免重复计算前缀的 attention key/value (KV 缓存)。•通过

目前各个行业都在接入大模型，借助大模型的能力优化自己的业务。但是有一个问题，一直是需要面对的，就是速度，目前而言，大模型的首token速度仍是很慢，获取输出之前，需要等待几秒。这对实时性要求很高的系统而言，是难以接受的。一般而言，优化推理主要从以下4个方面：1、模型压缩技术（如量化和剪枝）2、高效注意力机制3、硬件加速策略4、改进算法以提高解码速度以下针对一些具体的方法进行说明。上面提到了各种模型

#深度学习 #人工智能 #机器学习

AI服务器介绍

现在大模型依旧如火如荼，大模型训练和推理都少不了AI服务器，常见的就是英伟达GPU服务器，比如A100等。国产AI服务器也有很多，比如华为昇腾，这些服务器的算力如何，和英伟达的对比怎么样，作为大模型应用开发人员，需要有个了解，这样对部署的大模型性能有个大致判断。作为一个大模型应用工程师，了解国产AI服务器的指标，有利于掌握AI服务器的选型，也有利于在部署模型时，清楚模型运行的性能，知道优化模型性能

#人工智能 #服务器 #算法 +1

大模型推理框架介绍

最近大模型很火，但是能够训练大模型的，一般是头部大厂。相较于大模型训练而言，大模型推理则很多公司都在做，能够很好地进行大模型推理，在成本优化、性能提升、硬件适配、吞吐提高等多个方面很有意义。本文简要介绍两种推理框架Hugging Face Transformers和vllm，并对其简单对比。两种推理框架面向的侧重点不同，部署一般使用vllm，而开发调试使用hugging face较为方便。参考文档

#人工智能 #算法

共 24 条

请选择