logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

可控文本生成简单介绍

它之所以能够实现可控文本生成,其核心思想是从海量无标注数据中定位文章所在的领域或其他属性,并作为控制代码(Control codes)放在输入文本的头部,以指导后续文本的生成。其核心思想是,对于预训练语言模型(GPT-2)以及目标属性a(例如情感、 主题等),利用当前的生成结果是否满足属性a(即条件概率P (a|x))对生成进行修正,使其朝着满足该属性的方向变化。除了作为预训练模型用于语言表示、条

文章图片
#深度学习#人工智能#机器学习 +1
在服务器上指定GPU跑代码

在服务器上指定GPU跑代码,指定GPU无法生效解决方法

#python#深度学习#pytorch
BART模型简单介绍

对于序列分类任务(如文本情感分类),BART模型的编码器与解码器使用相同的输入,将解码器最终时刻的隐含层状态作为输入文本的向量表示,并输入至多类别线性分类器中,再利用该任务的标注数据精调模型参数。与BERT模型的 [CLS] 标记类似,BART模型在解码器的最后时刻额外添加一个特殊标记,并以该标记的隐含层状态作为文本的表示,从而能够利用完整的解码器状态。在这些任务中,编码器的输入是作为条件的输入文

文章图片
#深度学习#机器学习#人工智能 +1
深度学习Pytorch代码框架推荐(入门推荐)

深度学习Pytorch代码框架推荐更有条理的代码

#深度学习#pytorch#人工智能
神经网络优化中的学习率调整(上)

神经网络优化中的学习率调整,包括学习率衰减、学习率预热、周期性学习率调整等几种方法

文章图片
#神经网络#深度学习#自然语言处理
Transformer-XL模型简单介绍

以自注意力机制为核心的 Transformer 模型是各种预训练语言模型中的主要组成部分。自注意力机制能够构建序列中各个元素之间的上下文关联程度,挖掘深层次的语义信息。然而,自注意力机制的时空复杂度为,即时间和空间消耗会随着输入序列的长度呈平方级增长。这种问题的存在使得预训练语言模型处理长文本的效率较低。传统处理长文本的方法一般是切分输入文本,其中每份的大小设置为预训练语言模型能够单次处理的最大长

文章图片
#transformer#深度学习#自然语言处理
Pycharm远程服务器上运行程序报错:Can‘t get remote credentials for deployment server

注意:只需清除“Remote Python”前缀开头的服务器。3. 在弹出的窗口中发现存在。

文章图片
#pycharm#深度学习#bug
2022年CCF推荐国际学术会议和期刊(人工智能领域)

表格中红字:表示不在2019年第五版目录中,刚刚入选CCF;表格中黄字:表示现在2019年第五版目录中,升级至A/B;

文章图片
#人工智能
    共 43 条
  • 1
  • 2
  • 3
  • 4
  • 5
  • 请选择