logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【强化学习】PPO:近端策略优化算法

近端策略优化算法论文地址:https://arxiv.org/pdf/1707.06347.pdf。

文章图片
#人工智能#ChatGPT
机器学习:模型评估与sklearn实现(一)_留出法

一、介绍留出法(hold-out):直接将数据切分成三个互斥的部分,即训练集、测试集和验证集。在训练集上训练模型,在测试集上选择模型,最后在测试集上评估泛化误差。数据集的划分要尽量保持数据分布的一致性,如在分类任务中至少要保持样本的类别比例相似,此时可以采用分层采样。二、方法sklearn.model_selection.train_test_split(*arrays,**optio...

【Pytorch】【Transformers】一个基于transformers的自定义命名实体识别模型示例

本篇博客希望展示如何基于transformers提供的功能进行模型的开发,减少代码量,提高开发速度。import torchimport warningsimport torch.nn as nnfrom torch import Tensorfrom typing import List, Dictfrom dataclasses import dataclass, fieldfrom torc

#pytorch#bert
【深度学习】【积分梯度】深度网络的公理归因(Axiomatic Attribution for Deep Networks)

深度网络的公理归因Axiomatic Attribution for Deep Networks一、简介本文研究的问题是,将深度网络的预测结果归因到输入的特征中。本文确定了两条归因的基本公理:Sensitivity和Implementation Invariance,并基于这两个公理设计了一种新的归因方法,称为积分梯度法(Integrated Gradients)。该论文之前的许多归因方法并不完全

#深度学习#神经网络
【自然语言处理】【多模态】SIMVLM:基于弱监督的简单视觉语言模型预训练

SIMVLM:基于弱监督的简单视觉语言模型预训练《SIMVLM:Simple Visual Language Model Pre-training with Weak Supervision》论文地址:https://arxiv.org/pdf/2108.10904.pdf?ref=https://githubhelp.com一、简介​基于Transformer\text{Transformer}

#自然语言处理#语言模型#深度学习 +1
【自然语言处理】【大模型】LaMDA:用于对话应用程序的语言模型

​语言模型的预训练是自然语言处理中非常有前景的研究方向。预训练会使用无标注的文本,能够结合大规模数据集和大模型来实现更好的效果或者新的能力。例如,GPT-3是一个在大规模无标注文本上训练的175B参数模型,并展现出令人影响深刻的few-shot learning能力。​对话模型(大语言模型最有趣的应用之一)成功利用了Transformers表示文本中长距离依赖的能力。与通用语言模型类似,对话模型也

文章图片
#自然语言处理#人工智能#ChatGPT
【自然语言处理】【文本生成】Transformers中用于语言生成的不同解码方法

​近些年来,随着大型预训练语言模型的兴起,人们对开发式语言生成越来越感兴趣。之所以开放式语言生成效果令人印象深刻,除了架构的改善和大量的无监督训练数据,更好的解码方式也扮演着重要的角色。本文对不同的解码方法进行了简单的介绍并展示如何使用库进行实现。​以下所有的功能都是用于自回归语言生成。

#自然语言处理#算法
【自然语言处理】【大模型】BitNet:用1-bit Transformer训练LLM

​语言模型的规模不断扩大,这对部署带来了巨大的挑战。本文设计了一种可扩展且稳定的1-bit Transformer架构来实现大语言模型,称为BitNet。具体来说,使用BitLinear作为标准nn的替代品。实验结果表明BitNet能够显著减少存储占用和能力消耗,并且与最先进的8-bit量化和FP16 Transformer能力相当。此外,BitNet也表现出了类似于全精度Transformer的

文章图片
#自然语言处理
【自然语言处理】【文本生成】Transformers中使用约束Beam Search指导文本生成

​不同于普通的,约束允许对文本生成的输出施加约束。这很有用,因为有时是确切知道在输出中需要什么。举例来说,在神经机器翻译中,可以知道哪些单词必须包含在最终的翻译中的。有时,由于特定的上下文,对于语言模型来说很有可能生成不满足用于期望的非结构。这两种情况都能够通过用户告诉模型输出结果中必须包含的单词来解决。

#自然语言处理#人工智能#深度学习
【深度学习】【分布式训练】Collective通信操作及Pytorch示例

​大模型时代,单机已经无法完成先进模型的训练和推理,分布式训练和推理将会是必然的选择。各类分布式训练和推断工具都会使用到Collective通信。网络上大多数的教程仅简单介绍这些操作的原理,没有代码示例来辅助理解。本文会介绍各类Collective通信操作,并展示pytorch中如何使用。​将各个显卡的张量进行聚合(sum、min、max)后,再将结果写回至各个显卡。​将张量从某张卡广播至所有卡。

文章图片
#深度学习#pytorch#分布式
    共 124 条
  • 1
  • 2
  • 3
  • 13
  • 请选择