
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
随着 LLM 模型越来越大,单 GPU 已经无法加载一个模型。以 Qwen-14B-Chat 模型为例,模型权重大概 28GB,但是单个 NVIDIA A10 仅有 24GB 显存。如果想要在 A10 上部署 Qwen-14B-Chat 模型,我们需要将模型切分后部署到 2 个 A10 机器上,每个 A10 卡加载一半的模型,这种方式称之为分布式推理。社区涌现了很多支持分布式推理的框架如 vllm

GBA的提出对阿里巴巴搜推广稀疏模型的训练范式带来了架构性的跨越式升级。本文将从GBA的设计思路、收敛性分析及工程实现等方面展开介绍,欢迎阅读交流。

本文将从增长的视角来详细介绍阿里国际站对海外唤端技术发展的探索与理解。

随着 LLM 模型越来越大,单 GPU 已经无法加载一个模型。以 Qwen-14B-Chat 模型为例,模型权重大概 28GB,但是单个 NVIDIA A10 仅有 24GB 显存。如果想要在 A10 上部署 Qwen-14B-Chat 模型,我们需要将模型切分后部署到 2 个 A10 机器上,每个 A10 卡加载一半的模型,这种方式称之为分布式推理。社区涌现了很多支持分布式推理的框架如 vllm

挑战库存跨机房单元化部署,实现真正的交易单元封闭。

AI开放平台,探索让技术能力赋能更多行业,同时反推技术前行,推动AI的可持续发展。本文以阿里云视觉智能开放平台为例,讲述AI平台的定位、架构、实现、运营及进化。

本文将结合在阿里智能互联云端模型推理部署方面半年以来的工作学习,对相关的GPU编程与云端模型部署的知识与经验进行总结分享。

本文将从大数据产品商业化从业者的视角来探讨与分析大数据领域的存算分离演进过程,核心价值,与相关所产生的蓬勃技术生态。

GBA的提出对阿里巴巴搜推广稀疏模型的训练范式带来了架构性的跨越式升级。本文将从GBA的设计思路、收敛性分析及工程实现等方面展开介绍,欢迎阅读交流。

PPT 视觉边界检测及大模型摘要是指提取视频中的 PPT 画面,并将每页 PPT 展示时所讲述的内容,提炼成摘要总结,便于快速回顾 PPT 及讲解内容。算法基本流程如下图所示,我们针对 PPT 展示的特点设计了结合视觉和文本的检测任务;








