logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

LLM底层秘密—Transformer原理解析

语言模型的发展经历了从 BERT、GPT 到今天的多模态大模型的快速演进。传统 Transformer 在处理长文本、关键信息检索以及对抗幻觉等任务时,常常因过度关注无关上下文而陷入困境,导致模型表现受限。为解决这些问题,研究人员提出了多种改进方案,如 DIFF Transformer、Energy-Based Transformer 等新型架构。Transformer、MoE 灵活搭配成为主流,

#transformer#深度学习#人工智能
LLM底层秘密—Transformer原理解析

语言模型的发展经历了从 BERT、GPT 到今天的多模态大模型的快速演进。传统 Transformer 在处理长文本、关键信息检索以及对抗幻觉等任务时,常常因过度关注无关上下文而陷入困境,导致模型表现受限。为解决这些问题,研究人员提出了多种改进方案,如 DIFF Transformer、Energy-Based Transformer 等新型架构。Transformer、MoE 灵活搭配成为主流,

#transformer#深度学习#人工智能
AI 芯片核心计算之矩阵乘

AI 模型中往往包含大量的矩阵乘运算,该算子的计算过程表现为较高的内存搬移和计算密度需求,所以矩阵乘的效率是 AI 芯片设计时性能评估的主要参考依据。本节我们一起来看一下矩阵乘运算在 AI 芯片的具体过程,了解它的执行性能是如何被优化实现的。

#人工智能#矩阵#线性代数
AI 芯片关键设计指标

前面我们已经对 AI 的计算模式有了初步的认识,那么这些计算模式具体是如何和 AI 芯片设计结合起来的呢?接下来我们将从 AI 芯片关键设计指标的角度来进一步拓展对 AI 计算体系的思考。

#人工智能
AI 计算模式(下)

了解 AI 计算模式对 AI 芯片设计和优化方向至关重要。本节将会接着从轻量化网络模型和大模型分布式并行两个主题来深入了解 AI 算法的发展现状,引发关于 AI 计算模式的思考。

#人工智能
AI 计算模式(下)

了解 AI 计算模式对 AI 芯片设计和优化方向至关重要。本节将会接着从轻量化网络模型和大模型分布式并行两个主题来深入了解 AI 算法的发展现状,引发关于 AI 计算模式的思考。

#人工智能
AI 计算模式(上)

现在我们已经了解到了神经网络模型的一些特点,比如模型深度高,每层的通道多,这些都会导致训练好的模型权重数据内存较大,另外,训练时候为了加速模型的收敛和确保模型精度,一般都会采用高比特的数据类型,比如 FP32,这也会比硬件的计算资源带来很大的压力。**针对不同领域,如计算机视觉、语音、自然语言处理,AI 模型具有不同形式的设计,但是作为 AI 芯片,需要尽可能全的支持所有应用领域的模型,并且支持未

#人工智能
什么是 AI 芯片

首先我们了解一下芯片是什么?芯片的本质就是在半导体衬底上制作能实现一系列特定功能的集成电路。在发现半导体之前,人类只能用机械控制电,而半导体却能直接“用电来控制电”。计算机是我们日常生活中常见的工具,可以通过数字形式存储古往今外的人类文明信息,计算机里任何复杂功能,还原到最底层都能用 0 和 1 解决,进而可以通过半导体开关的通断,绕过机械维度,直接去操控微观的电子来处理信息。通过芯片这个物理接口

#人工智能
FP6服务LLM

INT4量化技术的挑战:虽然这些技术可以减小模型大小和参数存储量,但由于过拟合问题, 它们在更一般的许多任务中往往表现不佳,包括代码生成和摘要等更多生成任务。FP6的突破:FP6数据格式在当前AI硬件的高效支持中存在挑战。该格式在各种任务的性能和灵活性方面均表现出色。为了提高FP6在当前主流AI硬件上的执行效率,我们提出了一种4+2新颖的FP6 GPU kernel方案。这一创新使FP6成为提高L

文章图片
#人工智能#深度学习#机器学习
AI芯片知识

模型算力利用率(Model FLOPs Utilization, MFU)和硬件算力利用率(Hardware FLOPs Utilization, HFU)是评估某一模型实现对芯片计算性能利用情况的常用指标。硬件算力利用率是指考虑重计算后,模型一次前反向计算消耗的矩阵算力与机器算力的比值。模型算力利用率是指模型一次前反向计算消耗的矩阵算力与机器算力的比值。注:FLOPs指浮点运算次数,FLOPS指

文章图片
#人工智能
    共 172 条
  • 1
  • 2
  • 3
  • 18
  • 请选择