
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
如何在多个GPU中训练非常大的模型?
中小模型:优先使用数据并行+混合精度超大模型:采用混合并行结合激活冲计算。
机器学习-基于KNN算法手动实现kd树
上一章我们将了,这一章我们加上kd树对它进行优化,下面先来讲讲kd树。KD 树(K-Dimensional Tree)是一种高效的K 维空间数据索引结构,主要用于最近邻搜索和范围搜索。

一文解析大语言模型量化技术
特性INT8INT4FP16FP32位数8 bits4 bits16 bits32 bits内存占用1 字节/参数0.5 字节/参数2 字节/参数4 字节/参数计算速度极快(硬件加速)最快(理论)快慢精度中等(需量化)极低较低(3-4位有效)高(7位有效)适用阶段推理推理/边缘计算训练/推理训练硬件支持广泛(GPU/TPU)实验性(部分AI芯片)主流 GPU所有设备。
BertTokenizer.from_pretrained的讲解和使用
Hugging Face的方法是加载预训练BERT分词器的核心接口,支持多种配置和灵活使用。
一口气看完从零到一构建transformer架构代码一:多头注意力机制
的形状兼容,通常在 Transformer 的自注意力或多头注意力机制中使用。这是 Transformer 自注意力机制的核心实现,适用于编码器、解码器或跨注意力场景。,负责将输入向量线性变换并拆分为多个头的表示。的注意力分数矩阵,每个位置的值是。对应位置向量的点积。

如何在多个GPU中训练非常大的模型?
中小模型:优先使用数据并行+混合精度超大模型:采用混合并行结合激活冲计算。
BertTokenizer.from_pretrained的讲解和使用
Hugging Face的方法是加载预训练BERT分词器的核心接口,支持多种配置和灵活使用。
到底了







