asd8705 个人主页

@asd8705

asd8705

2023-02-01 13:41:32 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

如何使用 Megatron-LM 训练语言模型

🤗 Transformers 还支持使用 Trainer API 来训练，其在 PyTorch 中提供功能完整的训练接口，甚至不需要自己编写训练的代码。第一种选择是设置张量并行，它将模型中的张量拆分到多个 GPU 上并行运算，你需要将 tensor-model-parallel-size 参数更改为所需的 GPU 数量。你可以使用如下所示配置模型架构和训练参数，或将其放入你将运行的 bash 脚

#语言模型 #人工智能 #自然语言处理

可视化解释Batch Norm —— 它是如何工作的，以及为什么神经网络需要它

批量归一化是现代深度学习实践者工具箱中不可或缺的一部分。自它在Batch Norm论文中被引入后不久，人们就认识到它在创建可以更快训练的更深神经网络方面具有革命性影响。Batch Norm是一种现在在许多架构中广泛使用的神经网络层。它通常作为线性或卷积块的一部分添加，并在训练过程中帮助稳定网络。在这篇文章，我们会探索什么是Batch Norm，以及为什么需要他和它是怎么工作的？why。

#神经网络 #人工智能 #深度学习

为检索增强生成（RAG）微调Embedding模型

嵌入模型对于成功的RAG应用至关重要，但它们通常基于通用知识进行训练，这限制了它们在公司或特定领域应用的有效性。Matryoshka表示学习（MRL）是一种旨在创建可以在不显著降低性能的情况下被截断到各种维度的嵌入的技术。这种方法将重要信息前置加载到嵌入的早期维度中，从而在保持高准确度的同时实现下游任务（如检索、分类和聚类）的高效存储和处理。在这篇博客中，我们将向您展示如何使用2023_10 NV

#深度学习 #人工智能 #transformer

从Mistral 7B到MoE模型Mixtral 8x7B的全面解析：从原理分析到代码解读

如果把缓冲区比作一座仓库，每存进一个新东西，都会占据相应的位置，而仓库的总容量是固定的，当仓库被装满时，就会把最早放入的东西移除，让新的物品继续进仓，相当于入仓时间更接近当前时间的物品则会留在仓库中，如此，即能在节约资源的同时保留一定长度的序列。但如果是滑动窗口注意力，则在计算最后一个token “the”时，只需计算the本身所对应的query与上文中3个token对应的key的内积(这里说的上

#人工智能

技术干货：如何训练高性能语义表示模型——交叉编码器VS双编码器

这是有原因的：它们在许多场景下是可以互换的。然而，应该注意的是，知识蒸馏（knowledge distillation）的训练程序中，双编码器的学生模型试图模仿交叉编码器的教师模型，既能让模型精简缩小，也能保留原始模型九成以上甚至反超原始模型的效果，这是非常有实用价值的一个方向。：这就是为什么大型的预训练语言模型需要在非常通用的、数据规模庞大的任务上训练（如遮蔽词语言建模）的原因，其内在逻辑是，经

为检索增强生成（RAG）微调Embedding模型

#深度学习 #人工智能 #transformer

简明大模型微调/推理显存资源计算

KDD Cup 2024 Meta LLMs RAG挑战赛冠军方案开源

参与者每个问题收到5个网页，可能包含相关信息。目标是衡量系统将这些信息识别并概括为准确答案的能力。

#RAG

开源版 DeepSeek R1：对 DeepSearch R3 的完全开放复现

DeepSeek-R1 是一个基于深度求索 V3 的推理模型。这款拥有 671B 参数规模的大型混合专家（Mixture of Experts, MoE）式神经网络，与Sonnet 3.5以及GPT‑40等顶尖大师水平并驾齐驱，更令人惊叹的是，在实现这一成就时，其训练成本仅为580万美元，这一切都是通过多 token 预测（Multi Token Prediction, MTP）、多头潜在注意力机

#DeepSeek

简明大模型微调/推理显存资源计算

共 38 条

请选择