徐安安_ye1 个人主页

@2501_94610615

徐安安_ye1

2025-12-11 22:28:39 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

FlashAttention学习路线：从调API到写算子，你该走哪条路

如果你用的是GQA（GroupedQueryAttention，比如Llama-2-70B有64个Q头但只有8个KV头），kvHeadNum要设成8，不是64。看了看网上的资料，要么是论文推导，要么是直接上代码，中间缺了一大截。你需要知道的参数就这几个。改blockLength的方法：在flash_attention_v2.cpp的GetTilingData函数里，把blockLength的计算逻

#学习 #python

FlashAttention长上下文窗口：32K之后注意力还准吗？

某团队在昇腾NPU上跑Llama-2-7B，想支持32K tokens的长上下文窗口。他们知道FlashAttention擅长处理长序列，理论上128K tokens都能高效处理。但跑起来之后发现，模型在处理超长文本时，结尾部分的注意力分布变得"模糊"了——模型对开头的关键信息反应迟钝，反而对中间一些无关紧要的内容反应强烈。这不是FlashAttention的问题，而是长上下文注意力退化（Long

#学习

FlashAttention与流水线并行：Prefill和Decode怎么分工才能不卡管

某团队在昇腾NPU集群上跑Llama-2-70B的推理，用流水线并行把模型分到8张卡上。他们配置了流水线并行（Pipeline Parallelism），把模型按层分开，每张卡负责一部分层。但跑起来之后发现流水线经常"卡住"——有时候Prefill阶段的输出还没传到Decode阶段，有时候Decode阶段在等Prefill阶段。问题出在流水线并行的调度策略上。Prefill和Decode的计算特性

#java #人工智能 #前端

FlashAttention的Attention Sink现象：为什么模型总是盯着第一个token看？

某团队在昇腾NPU上跑Llama-2-7B的长上下文推理，输入了一篇很长的文章（16384个token），让模型总结文章内容。他们用FlashAttention的注意力可视化工具分析模型的注意力分布，发现了一个奇怪的现象——无论输入多长，模型总是把大量的注意力放在第一个token（通常是""）上，其他token分到的注意力很少。他们怀疑FlashAttention出了问题，或者模型有bug。排查了

#人工智能

FlashAttention与投机解码：一张小票如何验出整桌菜的味道？

配置项选项建议小模型参数量大模型的1/10~1/20Llama-2-7B配Llama-160Mgamma4-8seq_len长时用小值，短时用大值接受阈值0.7-0.9阈值低→接受多但质量降，阈值高→质量高但加速少必须开启大模型验证长序列用FlashAttention接受率监控实时统计接受率<0.5时说明小模型和大模型差异太大判断标准：接受率≥0.7才有加速效果，<0.5建议换小模型。

#kotlin #开发语言 #android

FlashAttention 在智能客服业务中的落地实践：从“失忆”到“过目不忘”

FlashAttention 不仅仅是一个算子加速器，它更是业务功能的解锁器。通过节省下来的显存，我们才能实现真正的长上下文记忆和高并发服务。

#深度学习 #人工智能

FlashAttention与语音识别：让机器听懂人话

FlashAttention通过三层架构（声学编码、时序建模、文本输出），让语音识别的WER降低。

#语音识别 #人工智能

FlashAttention与投机解码：一张小票如何验出整桌菜的味道？

#kotlin #开发语言 #android

FlashAttention的批处理策略：Static Batching还是Continuous Batching？

某团队在昇腾NPU上做推理服务，用FlashAttention加速。他们发现一个奇怪的现象：benchmark测试的时候速度很快（batch_size=1时延迟很低），但上了生产环境之后，速度反而变慢了——虽然batch_size设得更大，但每个请求的延迟反而增加了。问题出在批处理策略上。他们用的是Static Batching（静态批处理），把所有请求padding到一样的长度，然后一起处理。但

#人工智能

FlashAttention的批处理策略：Static Batching还是Continuous Batching？

#人工智能

共 81 条

请选择