素雪风华个人主页

@ultingCSDN

素雪风华

2024-08-01 14:57:48 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

7GB显存如何部署bf16精度的DeepSeek-R1 70B大模型？

本文介绍了在AutoDL算力云平台上通过优化显存管理技术，成功在7GB显存下运行DeepSeek-R170B大模型的过程。通过降低模型精度至bfloat16，显存需求减少50%，再通过INT4对称量化，模型体积压缩至原始尺寸的25%（140G→35G）。结合vLLM PageAttention显存管理引擎，显存碎片率降低80%以上，并启用GPU-CPU交换空间，进一步降低显存需求。最终，在单机单卡

文章图片

大模型LLMs基于Langchain、Langgraph的Agent使用

"""使用自定义提示词模板创建Agent:return:"""("system","""你是我定义的一个工具，一个搜索实时信息的工具这代表着如果有你不知道的信息，你都可以使用它们获得最准确的结果。如果工具也无法处理，请直接回复“无法处理”即可，切勿过多修饰。"""),# 添加，不然报错ValueError: Prompt missing required variables: {'agent_sc

7GB显存如何部署bf16精度的DeepSeek-R1 70B大模型？

本文介绍了在AutoDL算力云平台上通过优化显存管理技术，成功在7GB显存下运行DeepSeek-R170B大模型的过程。通过降低模型精度至bfloat16，显存需求减少50%，再通过INT4对称量化，模型体积压缩至原始尺寸的25%（140G→35G）。结合vLLM PageAttention显存管理引擎，显存碎片率降低80%以上，并启用GPU-CPU交换空间，进一步降低显存需求。最终，在单机单卡

文章图片

构建RAG混合开发---PythonAI+JavaEE+Vue.js前端的实践

构建RAG混合开发---通过PythonAI加载大模型以及RAG知识库，结合Java访问Python与Vue.js前端的实践交互案例

文章图片

#python #java #vue.js +1

大模型LLM基于PEFT的LoRA微调详细步骤---第二篇：环境及其详细流程篇

基于PEFT参数高效微调的LORA实战代码

文章图片

#python #开发语言

大模型LLMs基于Langchain、Langgraph的Agent使用

"""使用自定义提示词模板创建Agent:return:"""("system","""你是我定义的一个工具，一个搜索实时信息的工具这代表着如果有你不知道的信息，你都可以使用它们获得最准确的结果。如果工具也无法处理，请直接回复“无法处理”即可，切勿过多修饰。"""),# 添加，不然报错ValueError: Prompt missing required variables: {'agent_sc

大模型LLM基于PEFT的LoRA微调详细步骤

大模型微调完整精简版本

文章图片

大模型LLMs基于Langchain、Langgraph的Agent使用

"""使用自定义提示词模板创建Agent:return:"""("system","""你是我定义的一个工具，一个搜索实时信息的工具这代表着如果有你不知道的信息，你都可以使用它们获得最准确的结果。如果工具也无法处理，请直接回复“无法处理”即可，切勿过多修饰。"""),# 添加，不然报错ValueError: Prompt missing required variables: {'agent_sc

大模型LLM基于PEFT的LoRA微调详细步骤---第二篇：环境及其详细流程篇

基于PEFT参数高效微调的LORA实战代码

文章图片

#python #开发语言

使用LangGraph构建多代理Agent、RAG

使用LangGraph构建多代理Agent

文章图片

共 17 条

1
2

请选择