logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

算法工程知识汇总(神经网络)

神经网络预测推理---TensorRT: (比Tensorflow的推理快20倍)1. Kernel融合: 横向融合(例如1*1卷积等), 纵向融合(卷积+bias+Relu),消除concatenate层(预分配输出缓存,跳跃式的写入);2. 量化成FP16或者INT8: 减少显存占用,加快推理速度;3. Auto-Tuning:例如,对于卷积计算有若干种算法,TensorRT会...

#神经网络#算法#深度学习
ASR语音识别SOTA模型OpenAI的Whisper

Encoder-Decoder结构。68万小时的监督数据,做的训练。

文章图片
#语音识别#人工智能
Automatic Prefix Caching

APC技术,遇到新prompt和老prompt前缀完全相等的,则复用老prompt的KV cache,避免重新计算。3. 只要前面有1个字符不同,后面完全相同的部分,也不能被视为公共前缀。2. prefill公共前缀较长,且decode output较短时,KV cache复用的威力才能发挥出来。则把长文档放到前面,可以复用KV cache。enable_prefix_caching,prompt

文章图片
#GPU
VLLM历次会议(2024.9)

多模态上做了很多新功能。

文章图片
#GPU
TensorRT-LLM中的MoE并行推理

限制:二者的乘积,必须等于模型并行(不是指moe_tp_size,而是整个模型的tp_size)的卡数。moe_ep_size:按照Expert切分,每个GPU有用一部分Expert的所有权重。moe_tp_size:按照维度切分,每个GPU拥有所有Expert的一部分权重。二者可以搭配一起使用。

文章图片
#GPU
FlashDecoding

每个SM block上的Q,负责和所有K和所有V进行计算,得到对应的结果。但是,在decoding阶段,因为Query的seqLength=1,且batchSize=1,因此SM block数目无法都利用上。缺点:最后需要将不同SM block上的中间结果,进行通信,进行归一化的softmax和结果Reduce。在prefill阶段,seqLength*batchSize*Heads足够多,所以每

文章图片
#GPU
多种量化方式联合使用

SmoothQuant是W8A8,GPTQ是W8A16,两者一起使用,可以得到精度损失更小的W8A8量化。

文章图片
DeepSeek-v3在训练和推理方面的优化

4.MoE的load-balance:训练中,边训练,边调整每个MoE的路由权重。负载高的减少权重,负载低的增加权重。缺点是影响模型训练的主目标)。可以一次推理多个tokens。3.基础架构:MoE,同等参数量(模型的”能力“)下,训练、推理的计算量大幅减少。2.基础架构:MLA,大幅减少了KVcache大小。训练的时候就是一次预测多个tokens,推理时也这样,所以效果更好。限制每个token最

文章图片
#GPU
VLLM性能调优

减少max_num_seqs或max_num_batched_tokens。减少一个batch里的请求、token个数,从而减少KV cache占用。显存不够的时候,某些request会被抢占。其KV cache被清除,腾退给其他request,下次调度到它,重新计算KV cache。可以查看VLLM自带的Prometheus指标,查看抢占的请求数量。- 增大gpu_memory_utilizat

文章图片
#GPU
    共 32 条
  • 1
  • 2
  • 3
  • 4
  • 请选择