logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

这个大模型运行需要多少资源?

参数来跳过其他部分只显示测算结果:gguf-parser --hf-repo rubra-ai/Meta-Llama-3-8B-Instruct-GGUF -hf-file rubra-meta-llama-3-8b-instruct.Q4_K_M.gguf --gpu-layers-step 5 --skip-architecture --skip-model --skip-tokenizer。

#人工智能
了解阿里云服务器

通过合理的实例选型、计费方式选择和优化配置,用户可以在保障业务需求的同时实现成本的最优化。同时,完善的安全机制和全球化的基础设施布局,为不同规模的企业提供了稳定可靠的云服务解决方案。阿里云服务器(Elastic Compute Service,ECS)是阿里云提供的弹性计算服务,是一种处理能力可弹性伸缩的计算服务,其管理方式比物理服务器更简单高效。阿里云在全球29个地域、87个可用区提供高效、稳定

文章图片
#阿里云#服务器#云计算
阿里 PPU 加入 GPUStack 国产算力版图:异构算力统一调度的重磅里程碑(上)

GPUStack v2.1 正式新增对(平头哥)的支持,在 PPU 平台上实现。在等多种算力平台的基础上,此次 PPU 的加入,使 GPUStack 的国产算力支持版图进一步扩展,也让平台在方面迈出新的一步。过去几年,大模型技术快速发展,算力正逐渐从单一硬件资源演变为企业 AI 基础设施的重要组成部分。与此同时,数据中心的算力形态也在不断丰富 —— 不同厂商、不同架构的加速器开始在同一环境中并存运

#人工智能#开源#服务器
Token 不再焦虑:用 GPUStack + OpenClaw 搭一个“无限用”的本地 AI 助手(下)

如果出现反复授权,并提示:duplicate plugin id detected。可尝试:rm -rf ~/.openclaw/extensions/feishu。当推理能力、上下文和工具调用都变成基础设施的一部分,不妨亲手试一次,把 AI 真正接进你的日常工作流里。当模型运行在云端、能力掌握在别人手里时,而当模型真正跑在自己的 GPU 上,它不再是一次次付费调用的 API,当你不再关心 Tok

#人工智能
GPUStack × MaxKB:打造强大易用的开源企业级智能体平台(上)

如果你同时在寻找这两个问题的解决方案,那么的组合非常值得尝试。:专注于 GPU 资源管理与模型部署,支持多节点集群和多模型服务。:一个开源的企业级知识库与 AI 应用平台,可以快速构建知识库问答和 AI Agent。通过将,就可以非常方便地构建一个。本文将从零开始,完整演示整个流程。

#开源
GPUStack × MaxKB:打造强大易用的开源企业级智能体平台(下)

按照同样方式添加:qwen3-reranker-4b qwen3-embedding-4b。填入 GPUStack 文档地址,MaxKB 会自动抓取并解析页面内容。原因是 MaxKB 使用的是:/v2/rerank。在 MaxKB 顶部导航栏选择。创建知识库, 这里选择。发布成功后即可开始对话。创建 AI Agent。

#人工智能
如何用Python SDK调用MeMem0?

使用Python SDK调用Mem0主要分为和两种方式。下面这个表格汇总了核心的调用流程和关键点,方便你快速把握。特性自托管 (开源)托管服务 (火山引擎/官方平台)​Memory类类​配置config字典,指定LLM、Embedding模型、向量数据库使用api_key进行身份验证​addsearchget_alldelete等方法一致​存储在你自己配置的向量数据库(如Chroma, Qdran

#python#开发语言
释放 H200 全部潜力:DeepSeek-V3.2 推理性能提升 161% 的优化秘籍

在 AI 应用快速落地的今天,大语言模型的推理性能成为制约其广泛使用的关键因素。DeepSeek-V3.2 作为能力领先的开源模型,在实际部署中面临着性能调优的复杂挑战。我们通过系统的优化实验发现:相比于未优化的 vLLM 基线配置,经过针对性调优的 DeepSeek-V3.2 在 NVIDIA H200 集群上实现了。基于推理引擎的默认表现,我们深入探索了 vLLM 和 SGLang 各种并行策

#人工智能
阿里 PPU 加入 GPUStack 国产算力版图:异构算力统一调度的重磅里程碑(上)

GPUStack v2.1 正式新增对(平头哥)的支持,在 PPU 平台上实现。在等多种算力平台的基础上,此次 PPU 的加入,使 GPUStack 的国产算力支持版图进一步扩展,也让平台在方面迈出新的一步。过去几年,大模型技术快速发展,算力正逐渐从单一硬件资源演变为企业 AI 基础设施的重要组成部分。与此同时,数据中心的算力形态也在不断丰富 —— 不同厂商、不同架构的加速器开始在同一环境中并存运

#人工智能#开源#服务器
GPUStack 离线部署镜像准备与国内加速源

在 GPUStack 的实际部署中,经常会遇到一个问题:。无论是还是节点,运行的都是这个主镜像。但在模型推理时,GPUStack 会根据所使用的,自动拉取对应的。在在线环境中,这些镜像可以按需自动下载;而在中,如果提前不知道需要哪些镜像,就可能在部署过程中反复补充镜像,影响部署效率。通过简单的选项选择,就可以,方便提前准备离线部署所需的镜像。

#linux#运维#服务器
    共 39 条
  • 1
  • 2
  • 3
  • 4
  • 请选择