云游个人主页

@xinvictory

云游

2023-10-26 13:16:56 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

sglang0.4.3参数说明

flashinfer_mla_disable_ragged: 是否禁用FlashInfer MLA中的ragged，默认为False。triton_attention_reduce_in_fp32: 是否在FP32中减少Triton注意力，默认为False。debug_tensor_dump_output_folder: 调试张量转储输出文件夹，未指定时为None。debug_tensor_dum

#sglang

cuda_fp8.h错误

cuda工具版本太低。通过nvcc --version查看。小于11.8,会报fp8错误，因此是。下载高版本，本次下载了。

could not select device driver ““ with capabilities: [[gpu]]

https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list：根据之前获取的系统信息构造出对应的 APT 源地址。| sudo tee /etc/apt/sources.list.d/nvidia-docker.list：将下载的内容写入一个新的 APT 源配置文件中。. /etc/os-release：加载 /et

#docker #sglang

大模型性能指标的监控系统（prometheus3.5.0）和可视化工具(grafana12.1.0)基础篇

Prometheus是云原生计算基金会项目，是一个系统和服务监控系统。它以给定的时间间隔从配置的目标收集指标，评估规则表达式，显示结果，并在观察到指定条件时触发警报。Prometheus与其他指标和监控系统的区别在于：多维数据模型（由度量名称和键/值维度集定义的时间序列）PromQL，一种强大而灵活的查询语言不依赖分布式存储；单个服务器节点是自主的用于时间序列收集的HTTP拉取模型通过中间网关支持

#prometheus #grafana

n8n工作流自动化平台的实操：解决中文乱码

本文解决中文乱码问题

#工作流

vllm0.8.5发布Qwen2.5-Omni-7B，报python3.10/site-packages/transformers/models/autKeyError: ‘qwen2_5_omni‘

当前安装的 HuggingFace Transformers4.51.1 库不支持这种模型结构。这通常是因为该模型是新推出的，而你当前使用的 Transformers 版本尚未包含对该模型的支持。因此需要卸载旧Transformers版本，安装Transformers4.52.3版本。注：不能安装Transformers4.52.4，会导致vllm出现问题。多模态：Qwen2.5-Omni-7B。

vllm0.8.5发布Qwen2.5-Omni-7B，报python3.10/site-packages/transformers/models/autKeyError: ‘qwen2_5_omni‘

Coze:Window操作系统部署Coze Studio

Coze Studio，源自服务了上万家企业、数百万开发者的「扣子开发平台」，我们将它的核心引擎完全开放。它是一个一站式的 AI Agent 可视化开发工具，让 AI Agent 的创建、调试和部署变得前所未有的简单。通过 Coze Studio 提供的可视化设计与编排工具，开发者可以通过零代码或低代码的方式，快速打造和调试智能体、应用和工作流，实现强大的 AI 应用开发和更多定制化业务逻辑，是构

#工作流

k8s:利用kubectl部署nginx

本文介绍了在离线环境下基于Hygon C86处理器和麒麟操作系统部署HTTPS服务的完整流程。首先通过CA签发服务器证书并创建Kubernetes Secret存储证书密钥，然后配置Nginx服务（包含HTTP/HTTPS监听端口），接着创建PV/PVC存储和部署Nginx容器，最后通过NodePort服务暴露端口。关键步骤包括：1)使用ConfigMap管理Nginx配置；2)通过Secret挂

#kubernetes #nginx #容器

could not select device driver ““ with capabilities: [[gpu]]

#docker #sglang

共 16 条

请选择