logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大模型推理OOM?KVCache优化实战解析

KV Cache 优化是 LLM 推理部署中最具性价比的优化手段。KV Cache 量化(INT8):显存减半,精度损失 <0.1%,vLLM 一行参数搞定前缀缓存(RadixAttention):多请求共享前缀,RAG 场景加速 3-5x分块预填充(Chunked Prefill):防止长请求阻塞短请求,P95 延迟降低 60%+在 A100 80GB × 4 卡的实测中,综合使用这三项优化后,

文章图片
#缓存
Windows快速安装ClaudeCode全攻略

Claude Code 是 Anthropic 公司推出的命令行工具,让开发者能够通过终端与 Claude AI 模型进行交互。本文将为您提供在 Windows 系统上快速安装和配置 Claude Code 的完整指南,帮助您快速上手这个强大的 AI 开发工具。

文章图片
#windows
Windows快速安装ClaudeCode全攻略

Claude Code 是 Anthropic 公司推出的命令行工具,让开发者能够通过终端与 Claude AI 模型进行交互。本文将为您提供在 Windows 系统上快速安装和配置 Claude Code 的完整指南,帮助您快速上手这个强大的 AI 开发工具。

文章图片
#windows
Windows快速安装ClaudeCode全攻略

Claude Code 是 Anthropic 公司推出的命令行工具,让开发者能够通过终端与 Claude AI 模型进行交互。本文将为您提供在 Windows 系统上快速安装和配置 Claude Code 的完整指南,帮助您快速上手这个强大的 AI 开发工具。

文章图片
#windows
FastAPI分布式追踪:Span与Scope详解

这种追踪机制对于微服务架构尤其重要,可以帮助开发者理解复杂的请求流程。是追踪系统中的基本单位,代表一个操作或工作单元。

#fastapi
Qwen/Qwen3-0.6B部署教程-Vllm

vLLM 是一个高性能的大型语言模型推理和服务库,具有以下特点:它支持多种模型(如 Llama、Mixtral 等)和硬件(如 NVIDIA GPU、AMD GPU 等),能够显著降低推理成本并提高资源利用率。Vllm一般适用于在linux上部署大模型,本文以ubuntu 24.02.2 系统、内存32G、显卡Nvidia、显存12G上部署为例讲解。A、硬件配制要求:CUDA 12.2。B、pyt

#人工智能#conda
Qwen/Qwen3-0.6B部署教程-Vllm

vLLM 是一个高性能的大型语言模型推理和服务库,具有以下特点:它支持多种模型(如 Llama、Mixtral 等)和硬件(如 NVIDIA GPU、AMD GPU 等),能够显著降低推理成本并提高资源利用率。Vllm一般适用于在linux上部署大模型,本文以ubuntu 24.02.2 系统、内存32G、显卡Nvidia、显存12G上部署为例讲解。A、硬件配制要求:CUDA 12.2。B、pyt

#人工智能#conda
LLM之召回率和准确率

准确率是在模型预测为“相关”的结果中,实际为“相关”的比例。通俗的说,就是“找出的结果,有多少是对的”。举例:在问答系统中,如果模型从数据库召回了10个可能的答案,但只有三个是正确的,那么正确率就是30%。举例:在问答系统中,如果数据库中总共有5个正确答案,而模型只找出了3个,那么召回率就是60%。False Negatives(FN):模型没有检索出的相关结果(漏检)。True Positive

#人工智能
DIfy修改工作空间名称教程

在PostgreSQL容器中,查询tentants表,列出id 和name。修改.env文件,将POSTGRES_MAX_CONNECTION增加。如果有docker-db-1容器,说明使用的是PostgreSQL。再次查询确认修改成功。接着control -D退出数据库。默认名称输出如下,则本地部署的是PostgreSQL。进入PostgreSQL容器。最后,重启dify生效。

#人工智能#python#linux +2
dify1.4.1版本模型插件离线安装

【代码】dify1.4.1版本模型插件离线安装。

#人工智能
    共 11 条
  • 1
  • 2
  • 请选择