rain2014 个人主页

@fjfdg666

rain2014

2023-07-22 03:20:45 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

语音大模型-Audio Tokenizer的进展

为了执行下一次的残差量化，需要再进行上采样，并计算下一次的量化残差。在第一级，使用标准的VQ过程来量化信号，然后计算出原始信号与第一级量化后的信号之间的残差，对这个残差再进行一次或多次量化，以进一步减小量化误差，每一级都会产生一个新的残差，然后对新的残差继续量化，这样做可以逐步细化量化结果，提高最终的重建质量。对比EnCodec、SoundStream等基于GVQGAN框架的音频压缩算法，论文提出

#语言模型 #人工智能 #实时音视频 +1

全网最详llm.c源码解读--forward、backward、AdamW等CUDA Kernel详解

/ 执行完之后acts.output存储logits的梯度// 融合的分类头：前向计算和部分反向计算// ix是真实类别标签// 只计算真实类别标签所在位置的prob，其他位置均为0// sp.Offset/sp.Scale：softmax的数值稳定参数// 计算loss：-logsumexp// dloss是损失函数对当前样本的梯度(样本是指每个token的损失)，表示整体损失对当前样本

#c语言 #矩阵 #人工智能 +1

Online RLHF-PPO、GRPO、DAPO等方法

在policy model中，advantage作为概率比的加权值，在value model中，advantage与老的值网络的和作为target，与新的值网络之间计算MSE损失。基于1中训练好的预训练语言模型以及构建好的prompt集，使用beam-search等生成prompt的多个回复结果，然后人工对生成的多个结果排序，然后基于该数据训练了一个6B的打分模型，使用的是pair-wise的ra

Qwen3-Omni技术详解

介绍Qwen3-Omni之前，有必要先介绍Qwen2.5-Omni。Qwen3-Omin延续了上一代的模型架构，并做些一些重要改进。

#人工智能 #机器学习 #图像处理 +1

最近流式语音大模型汇总以及benchmark

本文主要介绍了近期流式语音大模型。

#语音识别 #人工智能 #音视频 +1

从Diffusion到VLA pi0(π0)

一旦生成标记，模型便切换到扩散模式，在序列中追加固定数量的纯噪声 latent patch，并通过多步扩散去噪同时更新所有 patch。模型采用了一种混合注意力机制：文本 token 之间使用因果注意力，而同一图像内部的 patch 之间使用双向注意力，主要是因为图像的patch之间有明显的双向依赖关系。为避免编码过程中细节信息的丢失，U-Net 在编码器与解码器的对应层之间引入跳跃连接（Skip

#人工智能 #算法

类gpt-4o模型，文本-语音-视频-图像的全模态模型方案

点击查看我的更多AI学习笔记github

#音视频 #人工智能 #语言模型

大模型奖励黑客Reward Hacking（也叫Reward Overoptimization）问题的相关论文介绍

在基于人类反馈的强化学习优化过程中，当以reward model的评分作为奖励进行优化时，如果reward model不能完全代表人类的偏好，就可能出现奖励黑客，即reward hacking。本文主要研究了基于大模型的生成器和评估器的自我迭代的框架中，由于基于大模型的评估器并不能代表人类真实的判断意图，造成存在一定的reward hacking问题。提出了一种改进的RM算法，ODIN，即使用le

#人工智能 #语言模型 #自然语言处理 +2

LLaMA、Baichuan、ChatGLM、Qwen、天工等大模型对比

https://github.com/THUDM/ChatGLM-6Bhttps://github.com/THUDM/ChatGLM2-6Bhttps://github.com/THUDM/ChatGLM3其他开源项目。

基于大模型来做NLP任务

InstructUIE: Multi-task Instruction Tuning for Unified Information ExtractionAligning Instruction Tasks Unlocks Large Language Models as Zero-Shot Relation ExtractorsRevisiting Relation Extraction in

#自然语言处理 #人工智能

共 21 条

请选择