just do it now 个人主页

@yaohaishen

just do it now

2022-10-30 18:49:30 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

VerIF

本文提出VerIF方法，通过混合验证机制提升大型语言模型对复杂指令的跟随能力。该方法创新性地结合代码验证（硬约束）与LLM推理验证（软约束），构建出包含22k条带验证信号的VerInstruct数据集。实验表明，VerIF训练的模型在指令跟随任务中较基线提升16.1%，且保持通用能力。关键技术包括：自动生成验证代码、高效LLM验证器蒸馏、约束反译等。该方法为RL训练提供了精准奖励信号，解决了传统方

#人工智能 #深度学习 #机器学习

深度学习分布式训练

主要从以下几个方面进行总结：分布式训练的基本原理TensorFlow的分布式训练PyTorch的分布式训练框架Horovod分布式训练无论哪种机器学习框架，分布式训练的基本原理都是相同的。本文主要从并行模式、架构模式、同步范式、物理架构、通信技术等五个不同的角度来分类。分布式训练的目的在于将原本巨大的训练任务拆解开撑多个子任务，每个子任务在独立的机器上单独执行。大规模深度学习任务的难点在于：训

#分布式

大语言模型增强传统推荐的全新范式-Chat-REC

当遇到新的物品推荐时，计算物品嵌入与用户请求和偏好的嵌入之间的相似性，然后根据相似性检索最相关的物品信息，并构建一个提示输入到 ChatGPT 进行推荐，如图 3 的下半部分所示。除了一个领域的目标产品，如电影，LLMs 不仅对许多其他领域的产品有广泛的了解，如音乐和书籍，而且还了解上述各领域的产品之间的关系。左边的对话显示，当用户询问为什么推荐这部电影时，LLM 可以根据用户的喜好和推荐电影的。

#人工智能 #深度学习

多模态预训练模型-基于BERT

转载自 |NewBeeNLP公众号专栏作者@上杉翔二悠闲会·信息检索BERT以及BERT后时代在NLP各项任务上都是强势刷榜，多模态领域也不遑多让。前几天我们刚分享了复旦邱锡鹏老师的报告，今天就来详细整理一些代表性工作。下图是VL-BERT论文中的比较图，就按这个表格的分类（Architecture）整理这几篇论文吧。首先是 BERT 的基础公式，不做赘述。所有的论文都是基于BERT做改装或者暴力

#bert #自然语言处理 #深度学习

强化学习框架verl

在训练和生成阶段，3D-HybridEngine 使用不同的三维并行配置，包括：流水线并行（PP）、张量并行（TP）和数据并行（DP）的大小。训练阶段的并行配置为 𝑝-𝑡-𝑑。在生成阶段，我们新增一个新的微数据并行组（Micro DP Group，𝑑𝑔），用于处理 Actor 模型参数和数据的重组。生成阶段的并行配置为 𝑝𝑔-𝑡𝑔-𝑑𝑔-𝑑。

#人工智能 #自然语言处理

大语言模型增强传统推荐的全新范式-Chat-REC

#人工智能 #深度学习

ViT 及 ViT和ResNet原理是否一样

链接：https://arxiv.org/abs/2010.11929这个论文看下来，有这么几个重点需要去掌握：将整张图片转化为多个patches，作为 TRM 的序列输入输入的时候需要加入位置编码，三种位置编码：一维，二维，相对位置编码，这三种效果没有太大区别；TRM可以接受CNN的输出作为输入，作为一种TRM的混合结构，区别于VIT这种无卷积结构可能是由于缺乏inductive biases，

#transformer #计算机视觉 #深度学习

如何向大模型注入知识？-阿里达摩院出品

机器之心专栏作者：李永彬、惠彬原、黄非团队：达摩院-自然语言-对话智能团队SPACE-1：注入对话策略知识，AAAI 2022 长文录用；SPACE-2：注入对话理解知识，COLING 2022 长文录用，并获 best paper award 推荐；SPACE-3：集对话理解 + 对话策略 + 对话生成于一体的模型， SIGIR 2022 长文录用。达摩院对话大模型 SPACE-1/2/3 在

#深度学习 #人工智能 #机器学习

模型概率后校验方法

那么，为什么深度学习模型经常出现预测概率和真实情况差异大的问题？又该如何进行校准呢？这篇文章首先给大家介绍模型输出预测概率不可信的原因，再为大家通过10篇顶会论文介绍经典的校准方法，可以适用于非常广泛的场景。最早进行系统性的分析深度学习输出概率偏差问题的是2017年在ICML发表的一篇文章On calibration of modern neural networks（ICML 2017）。文中发

#深度学习 #机器学习 #人工智能

WoBERT-基于词颗粒度的中文BERT

原文-https://kexue.fm/archives/7758当前，大部分中文预训练模型都是以字为基本单位的，也就是说中文语句会被拆分为一个个字。中文也有一些多颗粒度的语言模型，比如创新工场的ZEN和字节跳动的AMBERT，但这类模型的基本单位还是字，只不过想办法融合了词信息。目前以词为单位的中文预训练模型很少，据笔者所了解到就只有腾讯UER开源了一个以词为颗粒度的BERT模型，但实测效果并不

共 25 条

请选择