logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

80 行 PyTorch 从零写 DeepSeek 的 MLA:量一遍 KV cache、踩一遍 absorption,你才会明白 vLLM 为什么要加专用内核

本文用 80 行 PyTorch 把 DeepSeek V2/V3 的 MLA 从论文推到能跑,然后在 RTX 3090 上量化了三件事:cache 体积(比同规模 MHA 小 56.9x,3090 实测一致)、朴素实现的 decode 开销(16k 上下文 MLA 反而比 MHA 慢约 4x)、absorption 和 decoupled RoPE 在数学上的等价与冲突关系(两行 einsum

#pytorch#人工智能#深度学习
别把 `vLLM-Omni` 当成给 `vllm` 加个多模态插件:我实测后,先卡住的是版本对齐、`--omni` 入口和硬件 recipe

这篇文章围绕热门项目 vLLM-Omni 的第一条可用上手路径展开,不再复述 README,而是用官方安装文档、CLI 源码、支持模型列表、community recipe 讨论和两轮本地实验,拆清它为什么不该被理解成“给 vllm 加一个多模态插件”。我分别测试了 `vllm==0.19.0` 与 `vllm==0.20.0` 两条安装路线,验证旧命令会先卡在 `libcudart.so.12`

别被“3B 激活参数”骗了:Qwen3.6-27B 和 35B-A3B,先按部署路径选,再看 benchmark

这篇文章聚焦 Qwen3.6-27B 与 Qwen3.6-35B-A3B 的落地顺序,不再只比参数量,而是结合官方模型卡、Hub metadata 与 config.json,对比权重体积、分片数、长上下文、工具调用命令和 MoE 复杂度。结论很直接:第一次自托管 coding agent,先试 27B 更稳;35B-A3B 更适合明确要研究 sparse MoE 的第二阶段。

#数据结构
别急着 clone 热门训练跟踪项目 SwanLab 的 main 分支:我实测后先卡住的不是可视化,而是 `nanoid`、`logdir` 和 `watch` 这 3 个入口

这篇文章围绕最近活跃的训练跟踪项目 SwanLab 做了一次工程化首验收:我没有先看 dashboard,而是先测试 source install、offline 日志路径、resume 本地语义和 `swanlab watch` 入口。实测发现 current main 分支会先踩 `nanoid` 缺依赖、`logdir=` 参数未生效,以及 `watch` 命令源码未完整实现这 3 个坑;同

官方 demo 只有 20 行,但我把 TabPFN 改成自己的 CSV 后,真正先卡住的是许可证、列类型和 `predict()` 调用方式

这篇文章围绕一个真实落地问题展开:把 TabPFN 官方 demo 改成自己的 CSV 时,为什么最先卡住的往往不是精度,而是默认 v2.6 的许可证链路、列类型处理和 `predict()` 调用方式。我复现了 headless 环境下的 `TabPFNLicenseError`,再用开源 `ModelVersion.V2` 跑通带字符串类别列和缺失值的 CSV,对比 raw DataFrame

#机器学习
别再把 TGI 当 2026 年自建推理的默认起点:官方已进 maintenance mode,我建议按这张表选 vLLM、SGLang 和 TensorRT-LLM

这篇文章围绕 TGI 进入 maintenance mode 后的一个现实问题展开:2026 年自建开源模型推理服务,还该不该继续把 TGI 当默认起点?我结合 TGI、vLLM、SGLang、TensorRT-LLM 的官方 README、文档和 GitHub 活跃度,对比它们在通用 serving、前沿推理、RL/post-training 和 NVIDIA 极限优化上的定位差异,并给出新团队

`VibeVoice` 这么火,先别急着 clone:我读完文档、源码和最近 Issues 后,建议你先按任务类型选 ASR、Realtime 还是 TTS

本文把热门语音 AI 仓库 VibeVoice 拆成 ASR-7B、Realtime-0.5B、TTS-1.5B 三条路线来判断:哪条适合长音频转写,哪条适合英文低延迟播报,哪条目前更像论文入口而非完整工程路径。我结合官方文档、vLLM 启动脚本、pyproject 和最新 issues,重点解释 24GB 单卡边界,以及为什么新手不该一上来就冲 TTS。

#深度学习
别只把 `GLM-5V-Turbo` 当成截图转代码:我读完论文、文档和 GUI Agent 示例后,更在意它把感知、规划、执行塞进了同一个模型

如果一款视觉模型只是想做“图片到 HTML”,它最自然的产品描述通常会围绕三个词展开:截图、还原、生成。但的官方文档不是这么写的。docs.z.ai在模型 overview 里把它定义为输入不只是图片,还包括;目标不只是代码生成,还包括;它被直接定位为能和这类 agent 工作流配合的模型。这三个信号叠在一起,说明它想切入的不是“前端美工辅助”这么窄的场景,而是更宽的视觉参与式编程和 agent

GitHub 热门项目 `modded-nanogpt` 实测:把“90 秒训练 124M”搬到 RTX 3090 后,先炸的不是显存,而是 Hopper 专用内核

本文围绕当日热门 GitHub 项目 `modded-nanogpt` 展开,不复述它在 8xH100 上“90 秒训练 124M” 的成绩,而是直接把 current master 搬到本地 RTX 3090 上做最小复现实验。通过源码定位、内核导入和 warmup 诊断,我确认阻塞并不先来自显存,而是 `triton_kernels.py` 里写死的 `sm90` fused CE 内核,以及

#github
Transformers 5.x 升级后为什么 `AutoTokenizer` 会把 CamemBERT 切成字符?4 组实验讲透 tokenizer 元数据回归与止损方案

本文聚焦 2026-04-29 刚暴露的 Transformers 5.x tokenizer 升级回归:同一个 CamemBERT 仓库,在 4.57.6 下分成 23/41 个 token,在 5.7.0 下却膨胀到 78/188 个。我用 4 组最小实验拆开 tokenizer_config.json、tokenizer.json 与 AutoTokenizer 的选类逻辑,验证 use_f

#回归#数据挖掘#人工智能
    共 30 条
  • 1
  • 2
  • 3
  • 请选择