logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

从源码分析 vllm + Ray 的分布式推理流程

随着 LLM 模型越来越大,单 GPU 已经无法加载一个模型。以 Qwen-14B-Chat 模型为例,模型权重大概 28GB,但是单个 NVIDIA A10 仅有 24GB 显存。如果想要在 A10 上部署 Qwen-14B-Chat 模型,我们需要将模型切分后部署到 2 个 A10 机器上,每个 A10 卡加载一半的模型,这种方式称之为分布式推理。社区涌现了很多支持分布式推理的框架如 vllm

文章图片
#分布式#wpf
更加灵活、经济、高效的训练 — 新一代搜推广稀疏大模型训练范式GBA

GBA的提出对阿里巴巴搜推广稀疏模型的训练范式带来了架构性的跨越式升级。本文将从GBA的设计思路、收敛性分析及工程实现等方面展开介绍,欢迎阅读交流。

文章图片
#人工智能#深度学习
阿里国际站-唤端技术的探索与演进

本文将从增长的视角来详细介绍阿里国际站对海外唤端技术发展的探索与理解。

文章图片
#前端
从源码分析 vllm + Ray 的分布式推理流程

随着 LLM 模型越来越大,单 GPU 已经无法加载一个模型。以 Qwen-14B-Chat 模型为例,模型权重大概 28GB,但是单个 NVIDIA A10 仅有 24GB 显存。如果想要在 A10 上部署 Qwen-14B-Chat 模型,我们需要将模型切分后部署到 2 个 A10 机器上,每个 A10 卡加载一半的模型,这种方式称之为分布式推理。社区涌现了很多支持分布式推理的框架如 vllm

文章图片
#分布式#wpf
异地多活架构新突破:库存单元化部署技术思路揭秘

挑战库存跨机房单元化部署,实现真正的交易单元封闭。

文章图片
#架构#数据库#服务器
阿里视觉AI的开放平台之路

AI开放平台,探索让技术能力赋能更多行业,同时反推技术前行,推动AI的可持续发展。本文以阿里云视觉智能开放平台为例,讲述AI平台的定位、架构、实现、运营及进化。

文章图片
#人工智能#计算机视觉
CUDA编程基础与Triton模型部署实践

本文将结合在阿里智能互联云端模型推理部署方面半年以来的工作学习,对相关的GPU编程与云端模型部署的知识与经验进行总结分享。

文章图片
#硬件架构
大数据上云存算分离演进思考与实践

本文将从大数据产品商业化从业者的视角来探讨与分析大数据领域的存算分离演进过程,核心价值,与相关所产生的蓬勃技术生态。

文章图片
#大数据#hadoop
更加灵活、经济、高效的训练 — 新一代搜推广稀疏大模型训练范式GBA

GBA的提出对阿里巴巴搜推广稀疏模型的训练范式带来了架构性的跨越式升级。本文将从GBA的设计思路、收敛性分析及工程实现等方面展开介绍,欢迎阅读交流。

文章图片
#人工智能#深度学习
2024 通义语音 AI 技术图景,大模型引领 AI 再进化

PPT 视觉边界检测及大模型摘要是指提取视频中的 PPT 画面,并将每页 PPT 展示时所讲述的内容,提炼成摘要总结,便于快速回顾 PPT 及讲解内容。算法基本流程如下图所示,我们针对 PPT 展示的特点设计了结合视觉和文本的检测任务;

文章图片
    共 46 条
  • 1
  • 2
  • 3
  • 4
  • 5
  • 请选择