永远的菜鸟个人主页

@m0_57112626

永远的菜鸟

好好学习

2023-11-24 17:10:04 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

8卡服务器（4服务x 2卡）Nginx 负载均衡配置，与百分位延迟说明

- vLLM 请求处理时间长（10-30s），属于长连接场景 - 不同请求生成 token 数不同（200-300），处理时间异构 - least_conn 能动态将新请求发给当前最空闲的实例。排序后: [18s, 19s, 19s, 20s, 20s, 21s, 21s, 22s, 23s, 100s]10 个请求的延迟：[1s, 1s, 1s, 1s, 1s, 1s, 1s, 1s, 1s,

#服务器 #nginx #负载均衡

Intel Arc B60 Qwen3-Omni-30B-A3B Thinking vs Instruct 横向对比测试报告

并发 100~200 时，差异稳定在。Instruct 模型直接输出最终答案，无中间 reasoning 步骤，KV Cache 利用更紧凑，batching 效率更高。：在控制变量的前提下，量化 Thinking（带推理过程）与 Instruct（纯指令遵循）两个版本在吞吐、延迟和扩展性上的差异。（每卡双 Tile，共 4 Tile）上，使用完全一致的硬件配置、软件环境和 vLLM 启动参数，对

#服务器 #经验分享

Intel Arc B60 Qwen3-Omni-30B-A3B Thinking vs Instruct 横向对比测试报告

#服务器 #经验分享

Intel Arc B60 Qwen3-Omni-30B-A3B 压测报告

测试严格遵循《Intel Arc B60 vLLM-XPU Qwen模型测试报告 V1.6》的 Benchmark 方法：输入约 472 tokens，输出 max_tokens=256，timeout=600s，覆盖并发度 1/5/10/15/20/30/50/100/150/200 的完整曲线。：MoE 模型每次前向传播仅激活约 3B 参数，计算量远低于同规模的 Dense 模型（如 Qwen

#经验分享 #服务器

Intel Arc B60 Qwen3-Omni-30B-A3B 压测报告

#经验分享 #服务器

Intel Arc B60 × 8vLLM-XPU Qwen3.5-27B 模型测试报告

对于延迟敏感场景（<30s），推荐 4卡 TP=4（40 客户）或 8卡 TP=8（86 客户）。• 2卡 TP=4：4 个 Tile 分布在 2 张卡上，50% 的 allreduce 走同卡内 EMIB/MDFI（带宽 ~100+ GB/s），仅 50% 走跨卡 PCIe（~25 GB/s）。2. 同卡双 Tile 的 EMIB/MDFI 互联是 B60 的隐藏王牌：在 2卡 TP=4 中，5

#经验分享 #服务器

Intel Arc B60 × 8vLLM-XPU Qwen3.5-27B 模型测试报告

#经验分享 #服务器

单卡910B4（32G）Qwen模型测试报告

#服务器 #经验分享

OpenClaw+DeepSeek+Seedance2.0自动视频生成方案

核心诉求为：了解如何组合使用这三个工具，实现一个能够的系统或工作流。用户关注的重点是“自动化”，意味着从触发到最终视频产出的整个过程应尽可能少地依赖人工干预，并希望获得具体的配置和使用方法指导。此需求并非单一工具的简单使用，而是一个需要将和串联起来的综合解决方案。。OpenClaw 是开源的自主智能体框架，需进行主动性配置以实现自动化触发。heartbeatwebhook在 OpenClaw 的技

#经验分享

4090-8卡服务器-生产力（读取：813tokens/s，输出：101tokens/s）-Qwen3.6-27B-AWQ部署和测试报告

基于Linux服务器、Conda虚拟环境隔离，全程锁定依赖版本、固化环境变量、内网拷贝模型，无外网不稳定下载，可1:1复刻生产环境。环境纯净、依赖固化、模型校验完整、全程无报错无溢出。echo "========== Python 版本检测 =========="echo "========== CUDA 版本检测 =========="echo "========== GPU 可用性检测 ===

#服务器 #运维

共 23 条

请选择