logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

AI 计算模式(上)

现在我们已经了解到了神经网络模型的一些特点,比如模型深度高,每层的通道多,这些都会导致训练好的模型权重数据内存较大,另外,训练时候为了加速模型的收敛和确保模型精度,一般都会采用高比特的数据类型,比如 FP32,这也会比硬件的计算资源带来很大的压力。**针对不同领域,如计算机视觉、语音、自然语言处理,AI 模型具有不同形式的设计,但是作为 AI 芯片,需要尽可能全的支持所有应用领域的模型,并且支持未

#人工智能
什么是 AI 芯片

首先我们了解一下芯片是什么?芯片的本质就是在半导体衬底上制作能实现一系列特定功能的集成电路。在发现半导体之前,人类只能用机械控制电,而半导体却能直接“用电来控制电”。计算机是我们日常生活中常见的工具,可以通过数字形式存储古往今外的人类文明信息,计算机里任何复杂功能,还原到最底层都能用 0 和 1 解决,进而可以通过半导体开关的通断,绕过机械维度,直接去操控微观的电子来处理信息。通过芯片这个物理接口

#人工智能
FP6服务LLM

INT4量化技术的挑战:虽然这些技术可以减小模型大小和参数存储量,但由于过拟合问题, 它们在更一般的许多任务中往往表现不佳,包括代码生成和摘要等更多生成任务。FP6的突破:FP6数据格式在当前AI硬件的高效支持中存在挑战。该格式在各种任务的性能和灵活性方面均表现出色。为了提高FP6在当前主流AI硬件上的执行效率,我们提出了一种4+2新颖的FP6 GPU kernel方案。这一创新使FP6成为提高L

文章图片
#人工智能#深度学习#机器学习
AI芯片知识

模型算力利用率(Model FLOPs Utilization, MFU)和硬件算力利用率(Hardware FLOPs Utilization, HFU)是评估某一模型实现对芯片计算性能利用情况的常用指标。硬件算力利用率是指考虑重计算后,模型一次前反向计算消耗的矩阵算力与机器算力的比值。模型算力利用率是指模型一次前反向计算消耗的矩阵算力与机器算力的比值。注:FLOPs指浮点运算次数,FLOPS指

文章图片
#人工智能
6.文本理解和生成大模型

首先来看下如何定义信息检索(IR)任务。给定一个queryqqq给定一个文档库D⋯di⋯D⋯di⋯IR系统计算相关系数得分fqdif(q,d_i)fqdi​,然后根据该得分进行排序一个典型的IR系统分为两个阶段:检索和重排阶段。在检索阶段,针对整个文档库,从中找到相关文档的子集,它重视的检索速度和相关文档的召回率;在重排序阶段针对上一步得到的少量文档进行精排,看重的是性能和效果。神经网络IR。

#人工智能
6.文本理解和生成大模型

首先来看下如何定义信息检索(IR)任务。给定一个queryqqq给定一个文档库D⋯di⋯D⋯di⋯IR系统计算相关系数得分fqdif(q,d_i)fqdi​,然后根据该得分进行排序一个典型的IR系统分为两个阶段:检索和重排阶段。在检索阶段,针对整个文档库,从中找到相关文档的子集,它重视的检索速度和相关文档的召回率;在重排序阶段针对上一步得到的少量文档进行精排,看重的是性能和效果。神经网络IR。

#人工智能
5.高效训练&模型压缩

比较一下这三个阶段的显存占比:在第1阶段中,每张显卡只需要处理一部分的模型梯度,优化器降低到了原来的显卡数分之一,同时把中间结果的量也降低到原来的卡数分之一;第2阶段中,进一步地把模型的梯度划分提前,把Reduce Scatter提前到了反向传播的过程中,实际上不需要保留完整的梯度。第3阶段中,进一步地划分参数。通过这三部分的优化,显卡上的四大组成部分:参数、梯度、优化器和中间结果都得到了划分,每

#人工智能
4.Prompt Tuning & Delta Tuning

使用encoder作为PLMs的基本编码器Fine-tuning为特定任务添加额外的神经网络微调所有参数pre-training和fine-tuning之间存在差距。pre-training以mask的方式进行训练,而fine-tuning以QA的方式进行微调,存在差距。delta tuning在超大规模的模型上非常高效它的结构随着模型的增加变得越发不重要干净:不需要编辑backonePTM的代码

【无标题】

原名:Imitation Game采用一种行为注意的手段,尝试定义人工智能是不是具备人类智能的水平。

#人工智能#深度学习
大模型 RAG:文档分块方案与 RAG 全流程

大模型在预训练阶段获取的知识是有限的,一般需要数据增强模块引入外部知识库,通过知识检索的方式搜索于用户提问相关的知识,这也是 RAG 相关应用架构出现的原因。但这又引申出另一个问题,外部知识文档往往比较长,可能是包含几十页甚至数百页的内容,如果直接使用会存在以下问题所以我们需要根据一定策略将文本切分为小块,以便适应大模型的上下文窗口,同时提高知识检索的精度。分块的目标RAG分块策略:主流方法(递归

文章图片
#python#深度学习#linux +1
    共 167 条
  • 1
  • 2
  • 3
  • 17
  • 请选择