EulerBlind 个人主页

@qq_20623849

EulerBlind

2022-11-15 19:02:45 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

80 行 PyTorch 从零写 DeepSeek 的 MLA：量一遍 KV cache、踩一遍 absorption，你才会明白 vLLM 为什么要加专用内核

本文用 80 行 PyTorch 把 DeepSeek V2/V3 的 MLA 从论文推到能跑，然后在 RTX 3090 上量化了三件事：cache 体积（比同规模 MHA 小 56.9x，3090 实测一致）、朴素实现的 decode 开销（16k 上下文 MLA 反而比 MHA 慢约 4x）、absorption 和 decoupled RoPE 在数学上的等价与冲突关系（两行 einsum

#pytorch #人工智能 #深度学习

别把 `vLLM-Omni` 当成给 `vllm` 加个多模态插件：我实测后，先卡住的是版本对齐、`--omni` 入口和硬件 recipe

这篇文章围绕热门项目 vLLM-Omni 的第一条可用上手路径展开，不再复述 README，而是用官方安装文档、CLI 源码、支持模型列表、community recipe 讨论和两轮本地实验，拆清它为什么不该被理解成“给 vllm 加一个多模态插件”。我分别测试了 `vllm==0.19.0` 与 `vllm==0.20.0` 两条安装路线，验证旧命令会先卡在 `libcudart.so.12`

别被“3B 激活参数”骗了：Qwen3.6-27B 和 35B-A3B，先按部署路径选，再看 benchmark

这篇文章聚焦 Qwen3.6-27B 与 Qwen3.6-35B-A3B 的落地顺序，不再只比参数量，而是结合官方模型卡、Hub metadata 与 config.json，对比权重体积、分片数、长上下文、工具调用命令和 MoE 复杂度。结论很直接：第一次自托管 coding agent，先试 27B 更稳；35B-A3B 更适合明确要研究 sparse MoE 的第二阶段。

#数据结构

这篇文章围绕最近活跃的训练跟踪项目 SwanLab 做了一次工程化首验收：我没有先看 dashboard，而是先测试 source install、offline 日志路径、resume 本地语义和 `swanlab watch` 入口。实测发现 current main 分支会先踩 `nanoid` 缺依赖、`logdir=` 参数未生效，以及 `watch` 命令源码未完整实现这 3 个坑；同

官方 demo 只有 20 行，但我把 TabPFN 改成自己的 CSV 后，真正先卡住的是许可证、列类型和 `predict()` 调用方式

这篇文章围绕一个真实落地问题展开：把 TabPFN 官方 demo 改成自己的 CSV 时，为什么最先卡住的往往不是精度，而是默认 v2.6 的许可证链路、列类型处理和 `predict()` 调用方式。我复现了 headless 环境下的 `TabPFNLicenseError`，再用开源 `ModelVersion.V2` 跑通带字符串类别列和缺失值的 CSV，对比 raw DataFrame

#机器学习

别再把 TGI 当 2026 年自建推理的默认起点：官方已进 maintenance mode，我建议按这张表选 vLLM、SGLang 和 TensorRT-LLM

这篇文章围绕 TGI 进入 maintenance mode 后的一个现实问题展开：2026 年自建开源模型推理服务，还该不该继续把 TGI 当默认起点？我结合 TGI、vLLM、SGLang、TensorRT-LLM 的官方 README、文档和 GitHub 活跃度，对比它们在通用 serving、前沿推理、RL/post-training 和 NVIDIA 极限优化上的定位差异，并给出新团队

`VibeVoice` 这么火，先别急着 clone：我读完文档、源码和最近 Issues 后，建议你先按任务类型选 ASR、Realtime 还是 TTS

本文把热门语音 AI 仓库 VibeVoice 拆成 ASR-7B、Realtime-0.5B、TTS-1.5B 三条路线来判断：哪条适合长音频转写，哪条适合英文低延迟播报，哪条目前更像论文入口而非完整工程路径。我结合官方文档、vLLM 启动脚本、pyproject 和最新 issues，重点解释 24GB 单卡边界，以及为什么新手不该一上来就冲 TTS。

#深度学习

别只把 `GLM-5V-Turbo` 当成截图转代码：我读完论文、文档和 GUI Agent 示例后，更在意它把感知、规划、执行塞进了同一个模型

如果一款视觉模型只是想做“图片到 HTML”，它最自然的产品描述通常会围绕三个词展开：截图、还原、生成。但的官方文档不是这么写的。docs.z.ai在模型 overview 里把它定义为输入不只是图片，还包括；目标不只是代码生成，还包括；它被直接定位为能和这类 agent 工作流配合的模型。这三个信号叠在一起，说明它想切入的不是“前端美工辅助”这么窄的场景，而是更宽的视觉参与式编程和 agent

本文围绕当日热门 GitHub 项目 `modded-nanogpt` 展开，不复述它在 8xH100 上“90 秒训练 124M” 的成绩，而是直接把 current master 搬到本地 RTX 3090 上做最小复现实验。通过源码定位、内核导入和 warmup 诊断，我确认阻塞并不先来自显存，而是 `triton_kernels.py` 里写死的 `sm90` fused CE 内核，以及

#github

Transformers 5.x 升级后为什么 `AutoTokenizer` 会把 CamemBERT 切成字符？4 组实验讲透 tokenizer 元数据回归与止损方案

本文聚焦 2026-04-29 刚暴露的 Transformers 5.x tokenizer 升级回归：同一个 CamemBERT 仓库，在 4.57.6 下分成 23/41 个 token，在 5.7.0 下却膨胀到 78/188 个。我用 4 组最小实验拆开 tokenizer_config.json、tokenizer.json 与 AutoTokenizer 的选类逻辑，验证 use_f

#回归 #数据挖掘 #人工智能

共 30 条

请选择