
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
一、前言前几天做深度学习模型训练使用 Google 的 colab 总是掉,搞得很烦。然后那天我队友 “叶伏天” 和我说有一个类似于 Google colab 的平台,可以训练,虽然也有 8 小时的限时,但是这两个我可以替换使用,甚至一起跑实验,显卡配置也可以满足我的需求训练模型的需求。这个平台就是阿里云天池实验室。二、阿里天池实验室进入网页,选择天池Notebook:https://tianch
维恩图(Venn diagram),也叫文氏图或韦恩图,是一种关系型图表,用于显示元素集合之间的重叠区域。它帮助我们查看集合元素的分布关系,特别适用于图形化描述多个集合之间的交集、并集和差异。维恩图被广泛用于数学、统计学、逻辑、计算机科学和商业分析。它能够表示两组或更多组数据之间的逻辑关系。维恩图涉及重叠的圈子,这些圈子展示了组织结构、共同性和差异。

本文首先明确大语言模型推理系统的关键性能指标,继而剖析预填充(Prefilling)与解码(Decoding)这两个阶段的核心特征。基于上述分析,本文指出:持续批处理(Continuous Batching)采用阶段隔离与抢占机制,虽有助于提高系统吞吐量并降低首令牌延迟(Time To First Token,TTFT),但会显著增加词元间延迟(Token-to-Token Delay,TBT),

密度散点图(Density Scatter Plot),也称为密度点图或核密度估计散点图,是一种数据可视化技术,主要用于展示大量数据点在二维平面上的分布情况。与传统散点图相比,它使用颜色或阴影来表示数据点的密度,从而更直观地展示数据的分布情况。密度散点图能更好地揭示数据的集中趋势和分布模式,尤其是在数据量非常大时,避免了散点图中点重叠导致的可视化混乱问题。

大语言模型的浪潮已从 "能生成" 进入 "如何高效生成" 的深水区。推理效率不再只是大模型落地的附属议题,而是贯穿算法、系统乃至硬件全栈的关键战场。从 vLLM 的分页注意力,到自适应推测解码、Prefilling/Decoding 分离架构、大规模专家并行、KV 缓存压缩与跨节点传输,每一项创新都在重塑算力利用的极限。这篇博文汇总了一些最具代表性的大模型高效推理综述论文和博客,为想入行 LLM

大语言模型的浪潮已从 "能生成" 进入 "如何高效生成" 的深水区。推理效率不再只是大模型落地的附属议题,而是贯穿算法、系统乃至硬件全栈的关键战场。从 vLLM 的分页注意力,到自适应推测解码、Prefilling/Decoding 分离架构、大规模专家并行、KV 缓存压缩与跨节点传输,每一项创新都在重塑算力利用的极限。这篇博文汇总了一些最具代表性的大模型高效推理综述论文和博客,为想入行 LLM

TileLang 旨在简化高性能 GPU/CPU 内核(Kernels)的开发,例如 MLA(Multi-Head Latent Attention)、GEMM(GEneral Matrix Multiplication)、Dequant GEMM、FlashAttention 和 LinearAttention 等。通过在 TVM 之上构建底层编译器基础设施,并采用 Pythonic 语法,ti

大模型 Scaling Law 的本质是工业化思维,Token 工厂,Token 生意

欢迎学习面向开发者的大模型手册 - LLM Cookbook

了解一下创新奇智的 Orion 分布式机器学习平台








