logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

nano vllm代码详解

nano vllm是简化版的vllm的实现, 里面实现了大模型推理的常见优化. 包括page attention, kv cache, continuous batching.

#人工智能#算法
nano vllm代码详解

nano vllm是简化版的vllm的实现, 里面实现了大模型推理的常见优化. 包括page attention, kv cache, continuous batching.

#人工智能#算法
nano vllm代码详解

nano vllm是简化版的vllm的实现, 里面实现了大模型推理的常见优化. 包括page attention, kv cache, continuous batching.

#人工智能#算法
端到端自动驾驶模型AutoVLA模型详解

论文: AutoVLA: A Vision-Language-Action Model for End-to-End Autonomous Driving with Adaptive Reasoning and Reinforcement Fine-Tuninggithub模型总体架构:训练步骤:trajectory是模型的预测目标. 我们把trajectory分成一小段一线段的segments,

#自动驾驶#人工智能#机器学习
几何深度学习(geometric deep learnng)

阅读关于geometric deep learning的相关内容:Geometric deep learning: going beyond Euclidean data

#深度学习
张量并行和模型并行

PipeDream是非交错的Pipeline Parallel, 执行方式是当一个micro-batch forward计算完了之后, 马上执行backward计算, 这样能够提前释放相关micro-batch的intermediate activation, 从而节省显存。最初提出Tensor Parallel是在32G的GPU上训练超大模型, 此时可能会存在单层Transformer显存过大的

#GPU
张量并行和模型并行

PipeDream是非交错的Pipeline Parallel, 执行方式是当一个micro-batch forward计算完了之后, 马上执行backward计算, 这样能够提前释放相关micro-batch的intermediate activation, 从而节省显存。最初提出Tensor Parallel是在32G的GPU上训练超大模型, 此时可能会存在单层Transformer显存过大的

#GPU
大模型设计

后训练阶段的数据如果超出了模型pre-training阶段达到的能力, 可能会让模型去做一些它根本做不到的事情。如果模型在预训练阶段没有接触到相关数据, 那模型可能就会迫使模型"一本正经的胡说八道"。但是在post-training阶段, 对于一些高质量得数据, 尽管出现多次, 但是我们仍然想要多次使用。MQA和GQA等, 对训练阶段影像不大, 但是对推理阶段模型的cost和behavior影响很

解决pytorch DDP 报错This error indicates that your module has parameters that were not used

这时未使用的参数就会未参与梯度的计算,因此可以获取未使用参数,并注释掉消除错误。使用pytorch DDP训练的时候,有的时候会报错。现在单GPU下做一个iteration,并在。

文章图片
#pytorch#人工智能#python
    共 22 条
  • 1
  • 2
  • 3
  • 请选择